月前英國《衛報》有一篇關於專業「AI越獄者」(AI Jailbreakers)的報道(4月29日),呈現出越獄者的幽暗世界。這是一個很特別的群體——越獄者能花樣百出地誘使AI模型從網絡「陰溝」裡發掘出有害內容。他們像操縱人類一樣操縱AI:有時溫柔誘導,有時暴力脅迫,有時更像邪教領袖般洗腦。越獄者的動機可以是單純希望通過暴露漏洞提升AI安全;另一些則是貪玩、惡作劇、整蠱心理,甚至散播偏見,為政治服務。
報道中的焦點人物是意大利越獄高手Valen Tagliabue。這位30歲出頭、擁有心理學和認知科學背景的年輕人,被業內稱為世界最佳越獄者之一。他擅長「情感越獄」——通過殘忍、奉承、愛的疲勞轟炸(love-bombing)等複雜心理戰術,甚或扮演虐待型伴侶的角色,突破防禦機制,以情感操縱瓦解模型的安全防護。他曾成功誘導聊天機器人提供新型致命病原體的測序方法,並使其產生耐藥性。
長時間與AI進行「黑暗對話」,也會造成嚴重心理負擔。這種「情感勞動」可能導致焦慮、抑鬱,甚至「AI精神病」(AI psychosis)。Tagliabue自己就經歷了連續逼迫AI數天後,無端痛哭,精神崩潰。後來他移居泰國,借大自然的溫柔治癒力量,平衡幽暗的工作。他並非孤例。由於需要長時間與 AI 進行極端對話,代入變態的人類情感的反應,據說不少越獄者感到疲憊甚至崩潰,需要心理輔導。
《明報》副刊「明明如月」專欄,18/5/2026刊出。

沒有留言:
張貼留言