美股

OpenAI發佈ChatGPT4.5正式版擊敗Claude3重奪全球AI一哥寶座

鉅亨網編譯陳韋廷2024-04-17 17:33

根據 LMSYS Chatbot Arena 最新評比，全球最強 AI 寶座近日再度換人坐，兩個月前才遭 AI 新創公司 Anthropic 旗下 Claude3 Opus 超越的 OpenAI ChatGPT，再次用實力重奪 AI 一哥地位，在最新的 AI 基準測試中，OpenAI 幾天前剛發布的 GPT-4-Turbo-2024-04-09 版本，大幅超越 Claude3 Opus。

值得一提的是，這個版本不是普通測試版本，而是作為正式版本 GPT-4-Turbo 發布，雖然 GPT-4-Turbo 發布已久，但一直以「預覽版」的方式提供，此次首度發布正式版，足以看出該版本的份量，有不少網友甚至直接將其改名為 GPT-4.5-Turbo 了。

‌

根據 OpenAI 介紹，GPT-4-Turbo-2024-04-09 版本在寫作、數學、邏輯推理以及程式設計等多個領域均有顯著進步，使用新版 GPT4 寫作會發現它的反應速度提升，溝通更為流暢，表達方式更趨於口語化。新版的寫作風格更貼近人類的自然語言，多了些人情味，少了點 AI 機器味。

就在 OpenAI 發表更新版本後，中國玩家透過 AI 工具站 BotGo 進行了 GPT-4-Turbo 體驗並發佈測評指出，在程式碼能力測試上，相較於 Claude 3 Opus 完全沒找到 bug 在哪，GPT-4-Turbo-2024-04-09 版本已經能夠發現 Bug 的問題，並且提供了修復的程式碼，修改後的程式碼也更為優質，而且除了 Bug 之外還提出了索引處理和效率方面的問題及建議，整體表現確實比 Claude3 更為優秀。

解析上傳圖片方面，最新版的 GPT-4 則好像還不能解析上傳的圖片，可能還在調測當中，並在圖片問答方面還是不如 Claude-3 Opus。

此外，在讓 GPT-4 講述 Sora 技術原理時，GPT-4 跟 Gemini 的表現都非常優秀，Claude-3 則有些部分出現錯誤，像是 Sora 是生成式的，不是檢索式的。Gemini 將 Sora 所採用的捲積網路技術類比於樂高的積木結構，確實更容易理解，GPT-4 則在專業上更勝一籌，也許是因為 GPT-4 知識庫已更新到今年 4 月，Sora 則是在 2 月剛發布。

行銷能力方面，結果發現更新版的 GPT-4 正式版還不能支援文件分析，跟官方公佈資訊一致，要進行文檔分析仍要有請最強大的 GPT4 全能版本。

最後，在寫作能力測試方面，由於每個人的看法都可能不一樣，測驗結果可能見仁見智，中國玩家給予的評論則是 Claude-3 寫的文章既較口語化且富有感染力，內容也有一定的深度，GPT-4 和 Gemini Pro 則差不多，GPT-4 比較專業，Gemini Pro 比較流暢，速度也快一些。

此前，LMSYS 平台曾專門做過測驗對比，GPT4 的英文寫作更強，而 Claude3 的中文寫作能力更勝一籌。LMSYS 是一個專門評測大型語言模型 (LLM) 性能的平台，透過各種客觀指標與人工評估，為業界提供最新、最全面的 LLM 排行榜。

‌