美股

Google Gemini 3.1新模型掀桌每秒狂飆363 token 價格碾壓Claude

鉅亨網新聞中心2026-03-04 10:20

據《新智元》報導，繼 Google Gemini 3.1 Pro 屠榜封神之後，Google 又在深夜丟出一顆炸彈。Gemini 3.1 Flash-Lite 正式上線！速度 363 tokens/s，輸出價格 1.50 美元 / 百萬 Token，跑分直接碾壓 GPT-5 mi ni 和 Claude 4.5 Haiku。

cover image of news article — Gemini 3.1 Flash-Lite正式上線(圖：Shutterstock)

同一任務下，相較於 2.5 Flash（33 分鐘），3.1 Flash-Lite 只花了 4 分鐘，token 消耗最少，正確率最高。毫不誇張地說，3.1 Flash-Lite 幾乎可以做到「瞬時」輸出。上傳任何 PDF、文字、圖片、影片、音頻，它能極速轉成 Markdown 格式。又或是，3.1 Flash-Lite「粒子鍛造器」，迅速出模擬不同的動態效果，堪稱驚艷。

‌

目前，開發者已經可以透過 Google AI Studio 的 Gemini API 體驗預覽版，企業用戶可透過 Vertex AI 接取。

用 1/4 的價格，跑出 5 倍的速度

3.1 Flash-Lite 的輸出速度達到 363 tokens/s ，跟自家 2.5 Flash-Lite（366 tokens/s）幾乎持平，但把上一代 Gemini 2.5 Flash（249 tokens/s）遠遠甩在了身後。

而那些「貴族選手」呢？GPT-5 mini 只有 71 tokens/s，Claude 4.5 Haiku 也不過 108 tokens/s，Grok 4.1 Fast 稍好一些，145 tokens/s。

換句話說，Flash-Lite 的速度是 GPT-5 mini 的 5 倍，是 Claude 4.5 Haiku 的 3.4 倍，價格卻只有後者的四分之一。

再看具體定價。3.1 Flash-Lite 輸入 0.25 美元 / 百萬 Token、輸出 1.50 美元 / 百萬 Token。對比之下，GPT-5 mini 的輸出價格是 2.00 美元，Gemini 2.5 Flash 是 2.50 美元，而 Claude 4.5 Haiku 更是高達 5.00 美元，整整貴了 3 倍還多。一句話概括：跑得比你快，還比你便宜，跑分還比你高。

小模型的「越級挑戰」

在最考驗科學知識與推理能力的 GPQA Diamond 上，3.1 Flash-Lite 直接轟出 86.9% 的高分。

這項成績不僅碾壓了 GPT-5 mini 的 82.3% 和 Claude 4.5 Haiku 的 73.0%，甚至把體積更大、價格更貴的 Gemini 2.5 Flash（82.8%）也踩在了腳下。

多模態理解方面同樣強悍。在 MMMU-Pro 測試中，Flash-Lite 拿下 76.8%，力壓 GPT-5 mini（74.1%）、Gemini 2.5 Flash（66.7%）、Grok 4.1 Fast（63.0%）和 Claude 4.5 Haiku（58.0%）。

在事實準確度測試 SimpleQA Verified 中，差距更是斷崖級。Flash-Lite 以 43.3% 的準確率遙遙領先，而 Gemini 2.5 Flash 為 28.1%，GPT-5 mini 僅有 9.5%（4.5 倍），Claude 4.5 Haiku 更是低到 5.5%（近 8 倍）。

多語言能力方面，MMMLU 測驗中 Flash-Lite 以 88.9% 登頂，超過了 Gemini 2.5 Flash 的 86.6% 和 GPT-5 mini 的 84.9%，在這個價位段裡沒有對手。

在視訊理解領域，Video-MMMU 得分 84.8%，同樣是同級最高，GPT-5 mini（82.5%）和 Gemini 2.5 Flash（79.2%）皆不及。

當然，3.1 Flash-Lite 也並非沒有短板。在 LiveCodeBench 代碼產生測試中，Flash-Lite 得分 72.0%，雖然不低，但 GPT-5 mini 憑藉 80.4% 明顯更強，Grok 4.1 Fast 也有 76.5%。

在 Humanity"s Last Exam 中，Flash-Lite 得分 16.0%，與 GPT-5 mini 的 16.7% 基本持平，但 Grok 4.1 Fast 以 17.6% 拿到了這個級別的最高分。但別忘了一個核心事實：Flash-Lite 的價格只有這些對手的幾分之一。

Arena 打進全球前 40

實驗室跑分只是一面，真刀真槍的盲測對戰才見真章。在 Chatbot Arena 的文字競技場中，3.1 Flash-Lite 以 1432 的 Elo 分數排名第 36 。

它身邊的鄰居是 o3（1432 分）和 GPT-5 High（1434 分），而身後緊跟著的是 Grok 4.1 Fast Reasoning（1430 分）。

一個定價 0.25 美元的輕量模型，Elo 分數和 OpenAI 的旗艦推理模型 o3 打成平手，這個性價比足夠令人震驚。

在代碼競技場中，3.1 Flash-Lite 得分 1261，排名並列 35。它在這裡的對手包括 Claude Haiku 4.5（1308 分，第 31 名）和 DeepSeek V3.2（1321 分，第 34 名），差距不算大，但確實還有提升空間。

在 Artificial Analysis 評測中，3.1 Flash-Lite 在輸出速度和成本效益上，目前業界最優。

「思考深度」可調

除了硬核心效能，3.1 Flash-Lite 也標配了 thinking levels 功能，開發者可以自由設定模型在每個任務上投入多少推理資源。

大量翻譯、內容審核、資料分類這類高頻低複雜度任務跑淺思考模式，速度和成本壓到極致。
產生 UI 介面、建構模擬環境、執行多步驟複雜指令？切到深度推理模式，效果不輸大模型。

在實際測試中，3.1 Flash-Lite 展現了遠超越其定位的能力。給一個指令，Flash-Lite 就能在幾秒鐘內用幾十個品類、數百款商品填滿一整個電商介面原型，包含名稱、價格、分類、圖片佔位。

這在以往，需要設計師手動填滿半天的工作，現在一個 Prompt 搞定。

即時數據看板：天氣預報 + 歷史分析。Flash-Lite 能夠結合最新的天氣預報介面和歷史數據，即時產生動態的天氣資料視覺化看板。對於需要快速搭建資料展示層的開發者來說，這個能力直接省掉了一個「前端工程師」。

SaaS AI 智能體：多步驟任務自動化

Flash-Lite 可以建立處理多步驟彈性任務的 SaaS 智能體，幫助企業自動化客戶工單處理、訂單追蹤等流程。

在低延遲和低成本的加持下，這類高頻呼叫場景正是 Flash-Lite 的主戰場。面對大量的圖片、文件、使用者評論等非結構化內容，Flash-Lite 也能夠快速完成分析、標籤化和歸類整理。

3.1 Flash-Lite 的發布，標誌著 AI 競爭進入了一個全新的階段。過去，各家大模型都在卷「誰最強」——ARC-AGI 刷分、HLE 拼推理、程式碼競賽爭排名。但 Flash-Lite 的出現，把戰場拉到了另一個維度。

用幾分之一的價格打出旗艦級效果、用 5 倍的速度碾壓競品、在事實準確性上斷崖領先，谷歌用 Flash-Lite 告訴所有人：在性價比這條賽道上，它已經跑在了前面。而對於全球數百萬開發者來說，這可能是目前最值得關注的模型之一。畢竟，在真實的產品場景中，成本和速度有時比跑分更重要。

‌

文章標籤

gemini Google 模型 Flash-Lite claude token chatGPT

延伸閱讀

鉅亨講座

看更多

講座
公告

Google Gemini 3.1新模型掀桌 每秒狂飆363 token 價格碾壓Claude

文章標籤

延伸閱讀

鉅亨講座

‌

‌

‌

‌

Google Gemini 3.1新模型掀桌每秒狂飆363 token 價格碾壓Claude