2025年3月12日星期三

OpenAI研鏈式思考防「智能叛變」

2025年3月12日 - 信報

美國人工智能(AI)初創OpenAI周一(10日)發表研究論文,探討如何利用「鏈式思考」(Chain-of-Thought)技術,監控大型語言模型(LLM)的推理過程,檢測並防止不當行為發生。

監控推理過程不當行為

「鏈式思考」是一種促使模型在得出最終答案前,生成其逐步推理過程的技術。這種方法不僅提高了模型在處理複雜任務時的性能,還使人類更易理解其推理過程。OpenAI團隊發現,通過分析模型的鏈式思考,可有效識別模型嘗試利用漏洞,或規避預期行為的情況。

研究表明,使用「鏈式思考」監控可有效檢測模型的不當行為,例如在推理過程明確表示,試圖繞過某些限制或利用系統漏洞。在實驗中,研究人員使用較弱的GPT-4o模型,以監控更強大的o3-mini模型。結果顯示,前者仍能有效識別後者的不當行為。研究人員指出,直接把「鏈式思考」監控納入模型的獎勵機制,或導致模型學會隱藏其真實意圖,出現所謂的「模糊化獎勵攻擊」。未來的AI研究,更需要平衡監控模型行為,與避免引發模型隱蔽不當行為之間的關係。

來源:

沒有留言:

發佈留言