據(jù)報道,谷歌發(fā)布了突破性混合推理模型Gemini 2.5 Flash,該模型創(chuàng)新性地引入可調(diào)節(jié)"思考預(yù)算"功能,在保持高性能的同時顯著降低使用成本。
在閉源思考模式下,其成本僅為0.6美元/百萬tokens,相比全功能思考模式(3.5美元/百萬tokens)大幅降低600%。值得注意的是,即便在基礎(chǔ)模式下運行,其性能依然超越前代Gemini 2.0 Flash。
性能表現(xiàn)方面,Gemini 2.5 Flash在大模型排行榜中以1392分ELO評分高居第二,僅次于GPT-4.5-preview,與Grok-3表現(xiàn)相當(dāng)。
具體任務(wù)測試中,該模型展現(xiàn)出顯著優(yōu)勢:在GPQA知識問答中,24K思考預(yù)算可帶來6%的性能提升;在LiveCodeBench代碼基準(zhǔn)測試中,16K思考預(yù)算時達到最佳表現(xiàn)。
對比測試結(jié)果顯示,Gemini 2.5 Flash在多模態(tài)推理和數(shù)學(xué)任務(wù)上明顯優(yōu)于Claude 3.7 Sonnet,綜合性能與OpenAI最新o4-mini模型不相上下。在模擬人類綜合能力的"人類最后一次考試"基準(zhǔn)測試中,該模型以12.1%的高分位列第二,再次印證其強大實力。
此次發(fā)布的Gemini 2.5 Flash通過創(chuàng)新的"思考預(yù)算"機制,在性能與成本之間實現(xiàn)了突破性平衡,為AI應(yīng)用開發(fā)提供了更靈活、更經(jīng)濟的選擇。