添多一個世界: OpenAI研鏈式思考防「智能叛變」

2025年3月12日星期三

OpenAI研鏈式思考防「智能叛變」

2025年3月12日 - 信報

美國人工智能（AI）初創OpenAI周一（10日）發表研究論文，探討如何利用「鏈式思考」（Chain-of-Thought）技術，監控大型語言模型（LLM）的推理過程，檢測並防止不當行為發生。

監控推理過程不當行為

「鏈式思考」是一種促使模型在得出最終答案前，生成其逐步推理過程的技術。這種方法不僅提高了模型在處理複雜任務時的性能，還使人類更易理解其推理過程。OpenAI團隊發現，通過分析模型的鏈式思考，可有效識別模型嘗試利用漏洞，或規避預期行為的情況。

研究表明，使用「鏈式思考」監控可有效檢測模型的不當行為，例如在推理過程明確表示，試圖繞過某些限制或利用系統漏洞。在實驗中，研究人員使用較弱的GPT-4o模型，以監控更強大的o3-mini模型。結果顯示，前者仍能有效識別後者的不當行為。研究人員指出，直接把「鏈式思考」監控納入模型的獎勵機制，或導致模型學會隱藏其真實意圖，出現所謂的「模糊化獎勵攻擊」。未來的AI研究，更需要平衡監控模型行為，與避免引發模型隱蔽不當行為之間的關係。

來源：

https://www1.hkej.com/dailynews/finnews/article/4020237/OpenAI%E7%A0%94%E9%8F%88%E5%BC%8F%E6%80%9D%E8%80%83%E9%98%B2%E3%80%8C%E6%99%BA%E8%83%BD%E5%8F%9B%E8%AE%8A%E3%80%8D

添多一個世界

2025年3月12日星期三

OpenAI研鏈式思考防「智能叛變」

沒有留言:

發佈留言

作者

網誌封存

Daddy Pow專欄

人生

新時代‧靈性‧趣味

健康

投資、理財

市場‧商業‧經濟

文化‧學術

成長‧家庭

政府‧政治