menu-icon
anue logo
馬來西亞房產鉅亨號鉅亨買幣
search icon


科技

開源新王降臨:Kimi K2 Thinking 首度超越 GPT-5 中國 AI 殺出重圍

鉅亨網新聞中心


中國 AI 領域近日迎來重大突破,全新開源模型 Kimi K2 Thinking 正式發佈,立即在多個基準測試中取得優異成績。

cover image of news article
開源新王降臨:Kimi K2 Thinking 首度超越 GPT-5 中國 AI 殺出重圍(圖:shutterstock)

科技媒體《愛范兒》報導,這款總參數達 1 兆的混合專家模型 (MoE),被譽為「迄今為止最大最好的開源模型」,並在首次實測中展現出超越 OpenAI 旗艦模型 (如 GPT-5) 的強勁實力。Kimi 此次充滿自信,直接將 K2 Thinking 與 GPT-5、Claude 4.5 Sonnet 等閉源模型放在一起比較,並成功「屠榜」多項測試。


Kimi K2 Thinking 展現了出色的綜合性能,特別是在智能體能力測試上表現卓越。該模型在 TAU 榜單 (智能體工具調用能力測試) 上名列第一,超越了 OpenAI 和 Anthropic 的旗艦模型。此外,它也在 HLE 榜單 (人類最後考試,針對跨學科專家級問題)、以及三個自主搜索榜單上拔得頭籌。即使是在對智能體能力要求極高的程式設計任務方面,K2 Thinking 的得分也已接近表現最佳的 Claude 或 GPT 模型。

K2 Thinking 延續了七月份發佈 K2 時的路線圖,將其定位為自主智能路線圖的一部分,主打 Agentic Intelligence(智能體智能)。作為一個推理型的混合專家 (MoE) 模型,其總參數量為 1T,啟動參數為 32B,並擁有 256K 的上下文長度。K2 Thinking 最大的技術亮點之一是其突破性的工具調用能力。它能在智能體工具調用中交錯思考,同時在保持任務目標的同時,持續進行 200 到 300 次順序工具調用。這使其成為第一個具有如此多工具調用能力的開源模型。

在實際應用上,K2 Thinking 的提升體現在解決複雜難題的能力。該模型能將一個龐大的目標分解為數百個子任務,從而解決需要 百步推理的複雜難題。例如,官方舉例它曾通過 23 個交錯的推理和工具調用,成功解決了一個博士級的數學難題。在程式設計方面,K2 Thinking 擅長前端程式碼 (如 HTML、React),能直接將想法寫成功能完善、響應迅速的網頁或軟體產品。

這次思考能力的突破關鍵在於訓練方式,即採用高效的 INT4 QAT(量化感知訓練) 技術。K2 Thinking 在後訓練階段採用量化感知訓練,使得模型能夠以 INT4 精度本地運行,推理速度提升約 2 倍,同時保持最佳性能。這項技術避免了長鏈條推理因量化而造成邏輯崩潰的問題。

Kimi K2 Thinking 的發佈,標誌著國產 AI 走上了一條不同於國外閉源模型的快速迭代路線。與 OpenAI 和 Anthropic 模型發佈週期長達數月相比,Kimi 從七月發佈 K2 到十一月迎來 K2 Thinking,迭代速度驚人。當開源模型也能在基準分數上拿到與閉源模型一樣的成績時,AI 軍備競賽的格局正在迎來新的轉折點。

section icon

鉅亨講座

看更多
  • 講座
  • 公告


    Empty
    Empty