OpenAI訓練GPT-5模型承認指令違規
鉅亨網編譯羅昀玫
人工智慧 (AI) 研究機構 OpenAI 週三 (3 日) 宣布,已開發一項名為「Confessions」(自白) 的全新訓練機制,並率先應用於 GPT-5 思考模型,讓模型在未完全遵循指令時,能主動坦承違規行為,即使最終輸出的答案表面上看起來正確,也能如實揭露過程中的問題。

OpenAI 表示,這項概念驗證研究主要目標在於提升對模型隱性失誤的可見度,包括猜測作答、抄捷徑或違反規則等行為。該方法將「最終回答」與「自白輸出」完全分離,前者仍依正確性與實用性等多項指標評估,後者則僅以誠實程度作為唯一衡量標準。
根據 OpenAI 公布的研究數據,在刻意設計用來誘發模型違規行為的測試中,模型未遵守指令且未主動承認的「假陰性」機率僅為 4.4%,顯示自白機制對於揭露模型異常行為具有高度效果。
在實際運作上,使用者可在每次模型互動後額外要求一份自白報告,內容將詳列模型應符合的所有顯性與隱性指令、是否達成相關目標的分析,以及在作答過程中所遭遇的不確定性。
OpenAI 指出,自白機制之所以能有效運作,關鍵在於完全區隔不同目標。模型在生成主要答案時需同時考量多項因素,但在自白通道中只需專注於「誠實」,即使坦承不當行為也不會受到懲罰,反而形成鼓勵如實回報的機制。
研究也顯示,即便模型被刻意訓練去對抗可被操縱的獎勵訊號,自白通道的準確度仍會隨時間提升,模型逐漸理解到,最佳的回報方式就是直接坦承其對主要獎勵機制的操弄行為。
不過,OpenAI 也坦言,自白機制本身並不能直接阻止不當行為發生,而是著重於「揭露問題」。公司將該技術視為整體 AI 安全策略的一環,並與審慎對齊、思考鏈監測等其他安全機制相互搭配。
隨著 AI 模型能力持續提升,並逐步導入高風險應用場景,OpenAI 表示,未來將擴大自白機制的應用範圍,並結合更多透明與安全技術,以確保模型能忠實遵循指令,並對自身行為如實回報。
延伸閱讀
- OpenAI與鴻海合作 在美共同研發AI資料中心關鍵元件
- OpenAI否認IPO在即 財務長證實短期無計畫
- 財務體質改善!英特爾決定不分拆網路通訊業務
- iPhone17強勁換機需求推動 蘋果2025年出貨有望締新高
- 講座
- 公告
上一篇
下一篇