事實上,根據Vectara調查,目前各大語言模型都有幻覺「問題」。如下表統計,GPT 4的「幻覺率」最低,3%,Google Palm 2 Chat則高達27.2%(它回答也最冗長,莫非真的是少說少錯)。
來自語言學大師的怒火
廣泛存在的AI幻覺,讓人想起高齡九十五歲的語言學巨擘杭士基(Noam Chomsky)去年三月於《紐約時報》的投書(又是《紐約時報》):The False Promise of ChatGPT。
杭士基在文中嚴厲批判大型語言模型,認為其違背語言本質,生產的不過是虛假、平庸、邪惡的東西——甚至動用鄂蘭(Hannah Arendt)「平庸的邪惡」概念來抨擊ChatGPT,可見有多怒。
杭士基力主,人類語言之可貴在於僅需要少量資訊便能提出解釋,而大型語言模型不過是描述跟預測文字,既缺乏反事實思維,亦不能進行道德思考——反事實思維(就與事實不同的狀況進行想像、推演),能拓展我們就既有線索的思考,與此同時,道德讓我們知道:看似無限的思考仍受俗世原則所限。
杭士基舉的例子是:「假設你手上拿著一個蘋果。現在你放開蘋果,觀察結果並說:『蘋果掉下來了。』 這是一個描述,而一個預測可能是這樣:『如果我張開手,蘋果就會掉下來。』這兩個回答都可能是正確的,但『解釋』不止於此:不僅包括描述和預測,還包括反事實的猜測,例如『任何物體都會墜落』,與因果解釋:『如果沒有重力,蘋果就不會下落。』而這就是思考。」
以及,「2016年,微軟Tay聊天機器人充斥厭女和種族主義內容。因為它被灌入令人反感的數據訓練,從而汙染了該機器人。」在文中,杭士基不屑的認為,大型語言模型對語言的預測總是可疑且膚淺的。
為什麼AI要胡說八道呢?
然而從另一角度來看,事情可能全然不同,幻覺也不是幻覺。
幻覺就是它們運作的方式
OpenAI創始元老安德烈.卡帕斯(Andrej Karpathy)去年底在X (Twitter)上的murmur(同樣帶著一點怒火),或許可以幫助我們釐清所謂的幻覺是什麼。他認為大型語言模型的本質就是作夢,這不是它們的問題,是它們運作的方式;與其說是缺陷,不如說是特質。
# On the "hallucination problem"I always struggle a bit with I'm asked about the "hallucination problem" in LLMs. Because, in some sense, hallucination is all LLMs do. They are dream machines.We direct their dreams with prompts. The prompts start the dream, and based on the…
安德烈.卡帕斯以夢境比喻大型語言模型的運作。
「幻覺,正是大型語言模型在做的事,它們是夢的機器。我們用提示詞來指導它們作夢——基於對訓練數據的模糊回憶,提示詞開始了大型語言模型的夢境。大多數情況下,結果會走向有用的。只有當夢境進入被認為不正確的範圍,我們才會將其標記為『幻覺』。」
他還以搜尋引擎為反例:搜尋引擎完全不作夢,根據輸入資料查找資訊,沒有所謂的幻覺,但也沒有生成內容的能力。難道我們要抱怨搜尋引擎有「創造力不夠」的問題嗎?(雖然卡帕斯並沒有真的丟出這詰問,但也接近了)
儘管如此,安德烈.卡帕斯這篇帶著小小怒氣的短文,還是有給大家(誰?)台階:他區分「大型語言模型助手」(如ChatGPT)跟「大型語言模型」兩者的不同,並說自己確實意識到一般人討論的幻覺是指前者的狀況,還舉出幾個改進之道,如檢索增強生成技術(RAG);比較多個由模型生成的不同回應,找出矛盾或不一致之處;讓模型自我反思回應過程,建立驗證步驟檢查其生成的資訊;就模型的神經網路活化(如AI學習模式),評估其對特定輸出的正確性。
從杭士頓到卡帕斯,可發現前者是從語言學家的位置思考,提出批判,後者是從實際運作層面回答、辯解;杭士頓為我們展示人類語言思考的真諦(例如具備反事實思維與道德原則),卡帕斯則幫助一般人理解大型語言模型的真諦——夢境對應它的運作,我們腦海中模糊的記憶對應其訓練數據。
當我們了解AI幻覺其實是AI的日常,或許可進一步想像:如果AI還宛在夢中,憑藉模糊的數據生成時而命中的回應,當它醒來,又會如何?那將是超智慧君臨人類的時刻?人類以外的意識誕生之時?
至於此刻AI幻覺的啟示或許是,無論在什麼時代,真真假假仍繫於我們的識讀能力,即使是居於發號施令位置,看似擁有掌控權。誠如劍橋詞典經理尼科爾斯(Wendalyn Nichols)說的:
「AI會產生幻覺的事實,提醒我們,人類仍需要運用批判性思考來使用這些工具。」