menu-icon
anue logo
馬來西亞房產鉅亨號鉅亨買幣
search icon

美股

OpenAI訓練GPT-5模型承認指令違規

鉅亨網編譯羅昀玫

人工智慧 (AI) 研究機構 OpenAI 週三 (3 日) 宣布,已開發一項名為「Confessions」(自白) 的全新訓練機制,並率先應用於 GPT-5 思考模型,讓模型在未完全遵循指令時,能主動坦承違規行為,即使最終輸出的答案表面上看起來正確,也能如實揭露過程中的問題。

cover image of news article
OpenAI訓練GPT-5模型承認指令違規 (圖:shutterstock)

OpenAI 表示,這項概念驗證研究主要目標在於提升對模型隱性失誤的可見度,包括猜測作答、抄捷徑或違反規則等行為。該方法將「最終回答」與「自白輸出」完全分離,前者仍依正確性與實用性等多項指標評估,後者則僅以誠實程度作為唯一衡量標準。


根據 OpenAI 公布的研究數據,在刻意設計用來誘發模型違規行為的測試中,模型未遵守指令且未主動承認的「假陰性」機率僅為 4.4%,顯示自白機制對於揭露模型異常行為具有高度效果。

在實際運作上,使用者可在每次模型互動後額外要求一份自白報告,內容將詳列模型應符合的所有顯性與隱性指令、是否達成相關目標的分析,以及在作答過程中所遭遇的不確定性。

OpenAI 指出,自白機制之所以能有效運作,關鍵在於完全區隔不同目標。模型在生成主要答案時需同時考量多項因素,但在自白通道中只需專注於「誠實」,即使坦承不當行為也不會受到懲罰,反而形成鼓勵如實回報的機制。

研究也顯示,即便模型被刻意訓練去對抗可被操縱的獎勵訊號,自白通道的準確度仍會隨時間提升,模型逐漸理解到,最佳的回報方式就是直接坦承其對主要獎勵機制的操弄行為。

不過,OpenAI 也坦言,自白機制本身並不能直接阻止不當行為發生,而是著重於「揭露問題」。公司將該技術視為整體 AI 安全策略的一環,並與審慎對齊、思考鏈監測等其他安全機制相互搭配。

隨著 AI 模型能力持續提升,並逐步導入高風險應用場景,OpenAI 表示,未來將擴大自白機制的應用範圍,並結合更多透明與安全技術,以確保模型能忠實遵循指令,並對自身行為如實回報。


文章標籤

section icon

鉅亨講座

看更多
  • 講座
  • 公告


    Empty
    Empty