鉅亨網新聞中心
據《新智元》報導,繼 Google Gemini 3.1 Pro 屠榜封神之後,Google 又在深夜丟出一顆炸彈。Gemini 3.1 Flash-Lite 正式上線!速度 363 tokens/s,輸出價格 1.50 美元 / 百萬 Token,跑分直接碾壓 GPT-5 mi ni 和 Claude 4.5 Haiku。
同一任務下,相較於 2.5 Flash(33 分鐘),3.1 Flash-Lite 只花了 4 分鐘,token 消耗最少,正確率最高。毫不誇張地說,3.1 Flash-Lite 幾乎可以做到「瞬時」輸出。上傳任何 PDF、文字、圖片、影片、音頻,它能極速轉成 Markdown 格式。又或是,3.1 Flash-Lite「粒子鍛造器」,迅速出模擬不同的動態效果,堪稱驚艷。
目前,開發者已經可以透過 Google AI Studio 的 Gemini API 體驗預覽版,企業用戶可透過 Vertex AI 接取。
用 1/4 的價格,跑出 5 倍的速度
3.1 Flash-Lite 的輸出速度達到 363 tokens/s ,跟自家 2.5 Flash-Lite(366 tokens/s)幾乎持平,但把上一代 Gemini 2.5 Flash(249 tokens/s)遠遠甩在了身後。
而那些「貴族選手」呢?GPT-5 mini 只有 71 tokens/s,Claude 4.5 Haiku 也不過 108 tokens/s,Grok 4.1 Fast 稍好一些,145 tokens/s。
換句話說,Flash-Lite 的速度是 GPT-5 mini 的 5 倍,是 Claude 4.5 Haiku 的 3.4 倍,價格卻只有後者的四分之一。
再看具體定價。3.1 Flash-Lite 輸入 0.25 美元 / 百萬 Token、輸出 1.50 美元 / 百萬 Token。對比之下,GPT-5 mini 的輸出價格是 2.00 美元,Gemini 2.5 Flash 是 2.50 美元,而 Claude 4.5 Haiku 更是高達 5.00 美元,整整貴了 3 倍還多。一句話概括:跑得比你快,還比你便宜,跑分還比你高。
小模型的「越級挑戰」
在最考驗科學知識與推理能力的 GPQA Diamond 上,3.1 Flash-Lite 直接轟出 86.9% 的高分。
這項成績不僅碾壓了 GPT-5 mini 的 82.3% 和 Claude 4.5 Haiku 的 73.0%,甚至把體積更大、價格更貴的 Gemini 2.5 Flash(82.8%)也踩在了腳下。
多模態理解方面同樣強悍。在 MMMU-Pro 測試中,Flash-Lite 拿下 76.8%,力壓 GPT-5 mini(74.1%)、Gemini 2.5 Flash(66.7%)、Grok 4.1 Fast(63.0%)和 Claude 4.5 Haiku(58.0%)。
在事實準確度測試 SimpleQA Verified 中,差距更是斷崖級。Flash-Lite 以 43.3% 的準確率遙遙領先,而 Gemini 2.5 Flash 為 28.1%,GPT-5 mini 僅有 9.5%(4.5 倍),Claude 4.5 Haiku 更是低到 5.5%(近 8 倍)。
多語言能力方面,MMMLU 測驗中 Flash-Lite 以 88.9% 登頂,超過了 Gemini 2.5 Flash 的 86.6% 和 GPT-5 mini 的 84.9%,在這個價位段裡沒有對手。
在視訊理解領域,Video-MMMU 得分 84.8%,同樣是同級最高,GPT-5 mini(82.5%)和 Gemini 2.5 Flash(79.2%)皆不及。
當然,3.1 Flash-Lite 也並非沒有短板。在 LiveCodeBench 代碼產生測試中,Flash-Lite 得分 72.0%,雖然不低,但 GPT-5 mini 憑藉 80.4% 明顯更強,Grok 4.1 Fast 也有 76.5%。
在 Humanity"s Last Exam 中,Flash-Lite 得分 16.0%,與 GPT-5 mini 的 16.7% 基本持平,但 Grok 4.1 Fast 以 17.6% 拿到了這個級別的最高分。但別忘了一個核心事實:Flash-Lite 的價格只有這些對手的幾分之一。
Arena 打進全球前 40
實驗室跑分只是一面,真刀真槍的盲測對戰才見真章。在 Chatbot Arena 的文字競技場中,3.1 Flash-Lite 以 1432 的 Elo 分數排名第 36 。
它身邊的鄰居是 o3(1432 分)和 GPT-5 High(1434 分),而身後緊跟著的是 Grok 4.1 Fast Reasoning(1430 分)。
一個定價 0.25 美元的輕量模型,Elo 分數和 OpenAI 的旗艦推理模型 o3 打成平手,這個性價比足夠令人震驚。
在代碼競技場中,3.1 Flash-Lite 得分 1261,排名並列 35。它在這裡的對手包括 Claude Haiku 4.5(1308 分,第 31 名)和 DeepSeek V3.2(1321 分,第 34 名),差距不算大,但確實還有提升空間。
在 Artificial Analysis 評測中,3.1 Flash-Lite 在輸出速度和成本效益上,目前業界最優。
「思考深度」可調
除了硬核心效能,3.1 Flash-Lite 也標配了 thinking levels 功能,開發者可以自由設定模型在每個任務上投入多少推理資源。
在實際測試中,3.1 Flash-Lite 展現了遠超越其定位的能力。給一個指令,Flash-Lite 就能在幾秒鐘內用幾十個品類、數百款商品填滿一整個電商介面原型,包含名稱、價格、分類、圖片佔位。
這在以往,需要設計師手動填滿半天的工作,現在一個 Prompt 搞定。
即時數據看板:天氣預報 + 歷史分析。Flash-Lite 能夠結合最新的天氣預報介面和歷史數據,即時產生動態的天氣資料視覺化看板。對於需要快速搭建資料展示層的開發者來說,這個能力直接省掉了一個「前端工程師」。
SaaS AI 智能體:多步驟任務自動化
Flash-Lite 可以建立處理多步驟彈性任務的 SaaS 智能體,幫助企業自動化客戶工單處理、訂單追蹤等流程。
在低延遲和低成本的加持下,這類高頻呼叫場景正是 Flash-Lite 的主戰場。面對大量的圖片、文件、使用者評論等非結構化內容,Flash-Lite 也能夠快速完成分析、標籤化和歸類整理。
3.1 Flash-Lite 的發布,標誌著 AI 競爭進入了一個全新的階段。過去,各家大模型都在卷「誰最強」——ARC-AGI 刷分、HLE 拼推理、程式碼競賽爭排名。但 Flash-Lite 的出現,把戰場拉到了另一個維度。
用幾分之一的價格打出旗艦級效果、用 5 倍的速度碾壓競品、在事實準確性上斷崖領先,谷歌用 Flash-Lite 告訴所有人:在性價比這條賽道上,它已經跑在了前面。而對於全球數百萬開發者來說,這可能是目前最值得關注的模型之一。畢竟,在真實的產品場景中,成本和速度有時比跑分更重要。
上一篇
下一篇
