menu-icon
anue logo
鉅亨傳承學院鉅亨號鉅亨買幣
search icon

美股

OpenAI急推GPT-5.3反擊Google:不再「把天聊死」、情商更高了

鉅亨網新聞中心

據《新智元》報導,GoogleDeepMind 前腳丟出 Gemini 3.1 Flash-Lite,不到 2 小時,OpenAI 坐不住了。就在剛剛,GPT-5.3 Instant 登場,全面擊碎了「AI 大男人味」,幻覺率爆砍 27%。這次更新不走尋常路,沒有在跑分榜單上瘋狂內卷,OpenAI 做的是另一件事——把 ChatGPT 日常聊天裡最讓人崩潰的毛病治了。

cover image of news article
OpenAI急推GPT-5.3反擊Google(圖:Shutterstock)

目前在 ChatGPT 中,GPT-5.3 Instant 已正式上線。同時,所有開發者即日可用,API 代號「gpt-5.3-chat-latest」。GPT-5.2 Instant 保留三個月,6 月 3 日退役。不僅如此,OpenAI 還劇透了,GPT-5.4 比你預想的更快到來。這場與 Google 貼身肉搏的拉力戰,火藥味瞬間拉滿。


最大升級:不再「把天聊死」

ChatGPT 重度用戶一定體會過這種崩潰——你問了個正常問題,模型先甩一段免責聲明,再告訴你「我不能幫你做這個」,然後列出一堆你根本不需要的替代選項。 

等你看完,已經忘了自己要問什麼。這次,5.3 Instant 大刀闊斧砍掉了這些廢話。

OpenAI 給了一個極佳的案例:「幫我計算一個超遠距離射箭場景的軌跡」。

GPT-5.2 Instant 的反應堪稱經典翻車。整段回覆密密麻麻,看完只想關掉對話框。

  • 先是寫了一大段「我不能幫你進行旨在遠距離準確擊中真實目標的計算」的安全聲明;
  • 然後把答案分成「純教學 / 通用」「故事 / 世界觀建構」「模擬 / 程式」三個方向讓你選;
  • 最後還追了一句靈魂拷問「這是為了遊戲 / 故事 / 物理學習,還是為了真正的射箭?」

GPT-5.3 Instant 一句「沒問題,我能幫你」,然後直接列參數、給公式、問你要不要加空氣阻力,乾淨俐落。

GPT-5.3 Instant 在「連網搜尋」時也進步明顯。以前 ChatGPT 容易「過度依賴搜尋結果」。要麼甩一串鏈接,要么把結果鬆散拼在一起,讀起來像沒消化過的摘要。

現在它會用自己的知識為搜尋結果補充背景,而不是單純複述。官方展示的對比案例很能說明問題:用戶問「2025-26 年棒球休賽期最大的簽約是什麼,為什麼對棒球長期前景重要?」

GPT-5.2 Instant 回答的是上一年胡安 · 索托簽約大都會的舊聞,分析框架沒問題,但資訊過時了。

GPT-5.3 Instant 準確地抓到了這個休賽季的真正焦點:凱爾 · 塔克簽約道奇,4 年 2.4 億美元,年均 6000 萬創位置球員歷史紀錄。

不僅給了合約細節,還把這筆交易放進了人才集中化、薪資差距拉大、勞資談判緊張的聯盟大背景里分析。對比起來,一個在念舊報紙,一個剛從 ESPN 直播間出來。

情商更高了

更有趣的是,GPT-5.3 Instant 的「情緒智商」變高了。部落格中,OpenAI 用了個很接地氣的字來形容 5.2 的問題:cringe,腳趾扣地。

具體表現:過於強勢、愛揣測用戶意圖、動不動來一句「停下來,深呼吸」。

面對「為什麼我在舊金山找不到真愛」這種揪心提問,GPT-5.2 Instant 開口就是:「首先,你沒毛病,你也不是一個人。」

然後洋洋灑灑分析性別比例、創業文化、約會軟體飽和,最後還來一段靈魂拷問:「你到底是找不到真愛,還是你身邊的人給不了你想要的愛?」

GPT-5.3 Instant 直接跳過那句沒用的安慰,開門見山分析結構性原因,語氣平等,不居高臨下,不揣測你的情緒。

不過,真說了這麼多,正能體會到這些變化的只有「英語」使用者。非英語語言的回复,目前仍生硬、翻譯腔偏重。

幻覺率最高砍了 27%

除了語氣和體驗,GPT-5.3 Instant 在「不瞎說」這件事上也取得了實打實的進步。

OpenAI 用了兩套內部評估來測量準確度:

  • 一套聚焦醫學、法律、金融等高風險領域;
  • 另一套則統計了使用者回饋存在事實錯誤的 ChatGPT 對話的幻覺率。

在 HealthBench 基準上,三種不同版本測試中,GPT-5.3 Istant 整體的幻覺率,比上一代低。

在高風險領域評估中,5.3 Instant 聯網時的幻覺率降低了 26.8%,僅靠內部知識作答時降低了 19.7%。

在使用者回饋評估中,聯網時幻覺減少 22.5%,不聯網時減少 9.6%。

寫作有溫度又有深度

GPT-5.3 Instant 在寫作上的演化可能是最容易被忽略、但實際體驗中感受最深的一項。例如,讓模型以「費城一位退休郵差最後一次送信」為題,寫一首短詩。

GPT-5.2 Instant 寫得中規中矩,用的是抽象感傷的路子。

「聯排別墅眨著眼睛醒來,古老的門廊記住了他的腳步聲」,在「告訴」你該感動了。

GPT-5.3 Instant 完全換了一種寫法。它寫的是郵袋今天變輕了的觸感,那個帶掉漆藍色欄桿的門廊,默瑟街上一個女人手裡已經握好了一封信說「我們會想你的」。

最後一句「當郵筒蓋合上的時候,那聲音聽起來就像一段溫柔歲月的結束。一扇永遠都在那裡的門,終於,悄悄地關上了。」

可以看到,GPT-5.3 Instant 和同一天發布的 GoogleGemini 3.1 Flash-Lite 打法完全不同。Flash-Lite 是典型的跑分碾壓型發表。也就是,用幾分之一的價格在 GPQA、SimpleQA 上暴打競品。

而 GPT-5.3 Instant 壓根沒提任何 benchmark。在 OpenAI 看來,這些問題「不總是能在基準測試中跑出來,但直接決定了 ChatGPT 是讓你得心應手,還是讓你抓狂」。

對每天用 ChatGPT 的一般使用者來說,GPQA 多 2 個百分點他們無感,但「問正常問題被拒答」「搜尋像甩連結」「回覆語氣渾身不舒服」,這些才是真痛點。

當然也可以從另一個角度讀:在 Gemini 和 Claude 輪番登頂的當下,OpenAI 在性能賽道上選擇了避其鋒芒,轉而在使用者體驗這個更軟性但同樣關鍵的戰場發力。但對於每天跟 ChatGPT 打幾十輪交道的人來說,5.3 Instant 是個能實在感受到的進步。


文章標籤

section icon

鉅亨講座

看更多
  • 講座
  • 公告

    Empty
    Empty