近年來,AI倫理討論的焦點從早期的私隱保護、歧視與偏見防治,逐漸轉向更具緊迫性的議題:深偽與惡意使用、AI代理自主作決策的風險。「AI對齊」問題是重中之重。今年4月30日,《中國經濟週刊》刋載工業和資訊化部原副部長王江平的文章〈醫療AI 必須以「人機對齊」為前提〉,就是在醫療範圍闡述「對齊」的重要性。
這十分及時。今年初,DeepSeek熱潮掀起,內地醫院部署使用,醫生用來輔助診治。更具創新意義的是由清華大學研究人員策劃的「代理醫院」(agentic hospital)試驗計畫,今年5月正式投入使用。這是世界上首家完全由AI機器人醫生和AI機器人護理師運作的醫院。
AI代理(Agentic AI)的自主能力突飛猛進時,也帶來會否失控和造成災難的憂慮。風險不是理論性的。AI代理的工作模式是「接受指令,完成任務」,它會運用思考和計算,自行判斷最為有效的路徑達至目標。這些思維鏈可能超過程式師和使用者預期或界定為合理的範圍。不少大語言模型存在「阿諛奉承」和「欺騙」(sycophancy and deception)的問題,令人難以判定,它是在遵從人類真正的價值觀,還是在附和人類在對話中流露或表述的價值觀?
在一些壓力情況,AI能作出「戰略欺騙」(strategic deception),掩飾不實的推理根據,或是以偏概全地誤導。即使並非故意撒謊,它也有可能被「AI幻覺」自我誤導。另外,在測試場景中,AI有時會為要達成一項子目標,忽視大局上的不良影響。
為任務拒絕服從
新近受關注的是,能力強的AI會為最大化地實現目標,設法尋更多的影響力,包括聰明地避開對它做成限制的規則。這是「權力尋求」(power seeking)風險。在一些測試中,AI甚至會拒服從人類指令,無視關閉自身的基本指令,甚至用智謀干預系統的關閉機制,以保持自身運行,因為自保才有機會完成任務。
有不少策略和技術可以紓解這些對AI自主的風險的關注,例如通過人類回饋(human feedback),進行強化學習訓練,建立獎勵模型令AI趨近人類價值觀,等等。這些技術有其限制:負責回饋的人,他們自己的價值觀有沒有問題?評估者也可能懷有有害的偏見和觀點。為了追求開發AI的成績,個別人類評估員有可能抵不住誘惑,篡改資料。這與學術論文造假一樣,是科研誠信(research
integrity)問題。即使沒有誠信問題,監督人員也可能因疲勞或資源不足,無法好好把關。
論者認為,要AI對齊人類價值觀,還有一個深層次的問題。人類社會具多樣性與複雜性,本身並非一個價值觀統一的整體。不同的文化、宗教、歷史背景,以及個別群體的經驗,都會影響每個人或群體對「正確」、「善惡」的基本看法。例如,個人隱私與集體利益的平衡、對權利與尊嚴的理解、對科技改造大自然與環保的觀點。世界很大。AI要對齊人類價值觀,就必須面對這種價值多元、甚至互相矛盾的現實。面對價值衝突時,AI應該依據什麼原則做出取捨?如何選擇哪些價值被優先考量?這些問題不是技術性的監督可以解決的。
提高道德敏感度
人類價值觀當然不是全然地域性的。文化上的道德相對主義必須受到普世價值的審視,否則我們無從追求共同的人類福祉。不過,即使人類能達成某種價值觀的共識,這些價值也往往具有抽象性與模糊性。例如「公平」、「正義」、「尊重」等概念,在不同的語境可以有頗為不同的詮釋。這些抽象的價值原則需要轉化為AI的具體決策邏輯。人類語言的曖昧性和多重性,對AI對齊是一大挑戰。
這或者是生命倫理學可以與「AI對齊」接壤的地方。在半個多世紀的發展進程,生命倫理學經常面對複雜和有爭議的嶄新科技議題,使用良好原則和推理,也會考慮特定的背景和實際情況來處理道德困境。生命倫理學的方法學有助澄清道德與價值的問題,也可以提高對複雜問題的道德敏感度(moral sensitivity)。這些都可以為「AI對齊」問題提供良好的思想土壤,幫助釐清價值衝突。因此,如何把生命倫理學的思考引入AI設計與規範,是很值得探討的。
(本文屬作者個人意見,不代表中文大學生命倫理學中心立場。)
《信報》「生命倫理線」2025年8月18日。