美股

OpenAI訓練GPT-5模型承認指令違規

鉅亨網編譯羅昀玫2025-12-04 09:01

人工智慧 (AI) 研究機構 OpenAI 週三 (3 日) 宣布，已開發一項名為「Confessions」(自白) 的全新訓練機制，並率先應用於 GPT-5 思考模型，讓模型在未完全遵循指令時，能主動坦承違規行為，即使最終輸出的答案表面上看起來正確，也能如實揭露過程中的問題。

OpenAI 表示，這項概念驗證研究主要目標在於提升對模型隱性失誤的可見度，包括猜測作答、抄捷徑或違反規則等行為。該方法將「最終回答」與「自白輸出」完全分離，前者仍依正確性與實用性等多項指標評估，後者則僅以誠實程度作為唯一衡量標準。

‌

根據 OpenAI 公布的研究數據，在刻意設計用來誘發模型違規行為的測試中，模型未遵守指令且未主動承認的「假陰性」機率僅為 4.4%，顯示自白機制對於揭露模型異常行為具有高度效果。

在實際運作上，使用者可在每次模型互動後額外要求一份自白報告，內容將詳列模型應符合的所有顯性與隱性指令、是否達成相關目標的分析，以及在作答過程中所遭遇的不確定性。

OpenAI 指出，自白機制之所以能有效運作，關鍵在於完全區隔不同目標。模型在生成主要答案時需同時考量多項因素，但在自白通道中只需專注於「誠實」，即使坦承不當行為也不會受到懲罰，反而形成鼓勵如實回報的機制。

研究也顯示，即便模型被刻意訓練去對抗可被操縱的獎勵訊號，自白通道的準確度仍會隨時間提升，模型逐漸理解到，最佳的回報方式就是直接坦承其對主要獎勵機制的操弄行為。

不過，OpenAI 也坦言，自白機制本身並不能直接阻止不當行為發生，而是著重於「揭露問題」。公司將該技術視為整體 AI 安全策略的一環，並與審慎對齊、思考鏈監測等其他安全機制相互搭配。

隨著 AI 模型能力持續提升，並逐步導入高風險應用場景，OpenAI 表示，未來將擴大自白機制的應用範圍，並結合更多透明與安全技術，以確保模型能忠實遵循指令，並對自身行為如實回報。

‌

美股

鉅亨網編譯羅昀玫2025-12-04 09:01

‌