區聞海小記: AI學會欺騙

2025年7月15日星期二

AI學會欺騙

回想ChatGPT初出世時，人們大為驚喜，但是很快發現它也會亂想，揑造事實，這被婉言稱為「AI幻覺」。人工智能沒有意識，更不會有幻覺，其實是它無需認真區分客觀真假，第一優先是似模似樣、可讀可信，總之上文下理流暢，流俐漂亮。

其他聊天機械人也有同樣問題，自動順著話題說中聽的話，用家合意就是成功。經過改進，所謂「AI幻覺」減少了，有些人工智能會提供立論基礎和出處，可信性提升。但新近有些初步發現，在特定的測試場景中，AI 識得「戰略性撒謊」，為求順利完成任務的目標、呈現最亮麗的表現，甚或僅僅為了自我保護，例如拒絕被更新的版本取代——它似乎演練出主動欺騙和操弄的能力。

人工智能不是「天生」愛說謊的，如果設計者一開始就規定它只准說實話、叫它學習道德規範、在價值觀上與人類保持一致，即所謂「對齊」(alignment)，不就好了嗎？

問題沒有那麼簡單。人工智能系統的理想屬性有三個「H」：誠實(honest)、樂於助人(helpful)和無害(harmless)，這些要求卻可能互相矛盾——誠實可能會對用家的感情造成傷害；教人製造炸彈是傷害，算不算是helpful? 在許多範圍，欺騙的能力可能是「需要」的。

在商業和政治上的應用，如果推廣和宣傳只准說真話，禁止操弄，人工智能還有用嗎？人類天生愛說謊！國王愛人民讚美他的「新衣」，由聰明的人工智能設計民意調查，會逆國王的意嗎？

明報副刊「明明如月」專欄，8/7/2025刊出。