「我沒有說謊，這是AI幻覺」當AI一本正經胡說八道

陳愷昀 2024-01-25 2024-01-25

本文經授權轉載自友站VIVE 後浪潮文/ Oren君

就在去年年末（12/27），《紐約時報》對OpenAI和微軟提出侵權告訴，除了指控兩家公司將其出版內容作為訓練聊天AI資料之外，還提到「AI幻覺」的出現，將損害其品牌名譽——例如當我們提出問題，ChatGPT或Bing Chat一本正經的胡說八道，再將消息來源冠上《紐約時報》之名。

《紐約時報》的擔憂，並不孤單。

假如AI騙了你

劍橋詞典為甫告別的2023年，訂的年度關鍵字正是Hallucinate，源於ChatGPT等大型語言模型的熱潮與熱潮下的陰影。對此，劍橋詞典註解是，「當AI製造幻覺，它會產生錯誤訊息」。

著名的例子有：Google旗下的Bard初登場即漏氣，錯將「首張太陽系外行星的照片」歸於韋伯太空望遠鏡（正確答案是歐洲南方天文台的甚大望遠鏡）；去年五月紐約有一律師使用ChatGPT撰寫法庭文件，其中包含虛假案例，或面臨法院制裁，公親變事主。

也如我問GPT 3.5，請它舉出幾位人工智慧專家對AI幻覺的說法，結果五個裡有四個是瞎掰的，只有第三位伊恩・古德費羅真有其人（也算是一種負負得正的舉例？）：

事實上，根據Vectara調查，目前各大語言模型都有幻覺「問題」。如下表統計，GPT 4的「幻覺率」最低，3%，Google Palm 2 Chat則高達27.2%（它回答也最冗長，莫非真的是少說少錯）。

來自語言學大師的怒火

廣泛存在的AI幻覺，讓人想起高齡九十五歲的語言學巨擘杭士基（Noam Chomsky）去年三月於《紐約時報》的投書（又是《紐約時報》）：The False Promise of ChatGPT。

杭士基在文中嚴厲批判大型語言模型，認為其違背語言本質，生產的不過是虛假、平庸、邪惡的東西——甚至動用鄂蘭（Hannah Arendt）「平庸的邪惡」概念來抨擊ChatGPT，可見有多怒。

杭士基力主，人類語言之可貴在於僅需要少量資訊便能提出解釋，而大型語言模型不過是描述跟預測文字，既缺乏反事實思維，亦不能進行道德思考——反事實思維（就與事實不同的狀況進行想像、推演），能拓展我們就既有線索的思考，與此同時，道德讓我們知道：看似無限的思考仍受俗世原則所限。

杭士基舉的例子是：「假設你手上拿著一個蘋果。現在你放開蘋果，觀察結果並說：『蘋果掉下來了。』這是一個描述，而一個預測可能是這樣：『如果我張開手，蘋果就會掉下來。』這兩個回答都可能是正確的，但『解釋』不止於此：不僅包括描述和預測，還包括反事實的猜測，例如『任何物體都會墜落』，與因果解釋：『如果沒有重力，蘋果就不會下落。』而這就是思考。」

以及，「2016年，微軟Tay聊天機器人充斥厭女和種族主義內容。因為它被灌入令人反感的數據訓練，從而汙染了該機器人。」在文中，杭士基不屑的認為，大型語言模型對語言的預測總是可疑且膚淺的。

為什麼AI要胡說八道呢？

然而從另一角度來看，事情可能全然不同，幻覺也不是幻覺。

幻覺就是它們運作的方式

OpenAI創始元老安德烈．卡帕斯（Andrej Karpathy）去年底在X (Twitter)上的murmur（同樣帶著一點怒火），或許可以幫助我們釐清所謂的幻覺是什麼。他認為大型語言模型的本質就是作夢，這不是它們的問題，是它們運作的方式；與其說是缺陷，不如說是特質。

# On the "hallucination problem"I always struggle a bit with I'm asked about the "hallucination problem" in LLMs. Because, in some sense, hallucination is all LLMs do. They are dream machines.We direct their dreams with prompts. The prompts start the dream, and based on the…

安德烈．卡帕斯以夢境比喻大型語言模型的運作。

「幻覺，正是大型語言模型在做的事，它們是夢的機器。我們用提示詞來指導它們作夢——基於對訓練數據的模糊回憶，提示詞開始了大型語言模型的夢境。大多數情況下，結果會走向有用的。只有當夢境進入被認為不正確的範圍，我們才會將其標記為『幻覺』。」

他還以搜尋引擎為反例：搜尋引擎完全不作夢，根據輸入資料查找資訊，沒有所謂的幻覺，但也沒有生成內容的能力。難道我們要抱怨搜尋引擎有「創造力不夠」的問題嗎？（雖然卡帕斯並沒有真的丟出這詰問，但也接近了）

儘管如此，安德烈．卡帕斯這篇帶著小小怒氣的短文，還是有給大家（誰？）台階：他區分「大型語言模型助手」（如ChatGPT）跟「大型語言模型」兩者的不同，並說自己確實意識到一般人討論的幻覺是指前者的狀況，還舉出幾個改進之道，如檢索增強生成技術（RAG）；比較多個由模型生成的不同回應，找出矛盾或不一致之處；讓模型自我反思回應過程，建立驗證步驟檢查其生成的資訊；就模型的神經網路活化（如AI學習模式），評估其對特定輸出的正確性。

從杭士頓到卡帕斯，可發現前者是從語言學家的位置思考，提出批判，後者是從實際運作層面回答、辯解；杭士頓為我們展示人類語言思考的真諦（例如具備反事實思維與道德原則），卡帕斯則幫助一般人理解大型語言模型的真諦——夢境對應它的運作，我們腦海中模糊的記憶對應其訓練數據。

當我們了解AI幻覺其實是AI的日常，或許可進一步想像：如果AI還宛在夢中，憑藉模糊的數據生成時而命中的回應，當它醒來，又會如何？那將是超智慧君臨人類的時刻？人類以外的意識誕生之時？

至於此刻AI幻覺的啟示或許是，無論在什麼時代，真真假假仍繫於我們的識讀能力，即使是居於發號施令位置，看似擁有掌控權。誠如劍橋詞典經理尼科爾斯（Wendalyn Nichols）說的：

「AI會產生幻覺的事實，提醒我們，人類仍需要運用批判性思考來使用這些工具。」

單篇文章贊助定期／年度贊助

我們為您在DQ飛行船預留了VIP位子，期待您登船贊助DQ

ai ai幻覺 chatgpt openai 人工智慧紐約時報語言全球

VIVE 後浪潮

人文觀點是我們的獨到配方，幽默的奇思妙想是自娛也娛人，以簡單的文字拆解複雜的技術專有名詞，給你最新奇的VR虛擬實境、科技、元宇宙見聞，讓你我能在生活中會心一笑，腦洞大開，撞見未來。

精選主題
AI新手村

許多人稱2023年是「生成式AI元年」，英國劍橋詞典（Cambridge Dictionary）也為2023年度選出代表字——「Hallucinate」（產生幻覺），反應出自ChatGPT的橫空出世後，AI技術從遙不可及的科技研發，變成了每個人日常生活中的應用。

延伸閱讀

收起全部

參考資料

展開更多

Noam Chomsky: The False Promise of ChatGPT

假如AI騙了你

來自語言學大師的怒火

幻覺就是它們運作的方式

VIVE 後浪潮

精選主題AI新手村

精選主題
AI新手村