谷歌 發(fā)布Gemini 2.5 Pro I/O,AI 編程模型 領(lǐng)域迎新王?
美國當(dāng)?shù)貢r(shí)間周二,谷歌DeepMind人工智能研究團(tuán)隊(duì)發(fā)布了Gemini 2.5 Pro “I/O” ,這是今年3月發(fā)布的多模態(tài)大語言模型Gemini 2.5 Pro的升級(jí)版本。
DeepMind CEO德米斯·哈薩比斯表示,這是“我們有史以來構(gòu)建的最強(qiáng)編程模型!”
從谷歌公布的初步基準(zhǔn)測試結(jié)果來看,哈薩比斯并非夸大其詞。自從2022年底ChatGPT引爆生成式AI熱潮以來,谷歌首次在關(guān)鍵的代碼生成評(píng)估指標(biāo)上全面領(lǐng)先,超越所有競爭對(duì)手。
01 最強(qiáng)編程模型上線
新版本的模型編號(hào)為 “Gemini-2.5-pro-preview-05-06”,取代了此前的03-25版本。
目前,該模型已向Google AI Studio的獨(dú)立開發(fā)者、Vertex AI云平臺(tái)的企業(yè)用戶以及Gemini應(yīng)用的普通用戶開放。谷歌在博客中指出,該模型還為Gemini移動(dòng)應(yīng)用中的Canvas等功能提供支持。
Gemini 2.5 Pro I/O已廣泛用于諸如Gemini 95等開發(fā)場景。例如,模型能夠自動(dòng)匹配用戶界面組件的視覺風(fēng)格。此外,它還支持一系列高效開發(fā)工作流,包括將YouTube視頻快速轉(zhuǎn)換為互動(dòng)學(xué)習(xí)應(yīng)用,或創(chuàng)建響應(yīng)式視頻播放器、帶動(dòng)畫的語音轉(zhuǎn)寫界面等復(fù)雜組件,幾乎無需手動(dòng)編寫CSS。
作為一款專有模型,企業(yè)用戶需通過谷歌的云服務(wù)平臺(tái)付費(fèi)使用。不過,谷歌并未調(diào)整定價(jià)或速率限制:目前使用Gemini 2.5 Pro的用戶將自動(dòng)切換至新模型,價(jià)格仍為每百萬輸入token收費(fèi)1.25美元,每百萬輸出token收費(fèi)10美元,最多支持20萬token的上下文窗口。
相比之下,Anthropic的Claude 3.7 Sonnet定價(jià)為每百萬輸入token收費(fèi)3美元,每百萬輸出token收費(fèi)15美元。
Gemini API與Google AI Studio的高級(jí)產(chǎn)品經(jīng)理洛根·基爾帕特里克(Logan Kilpatrick)在開發(fā)者博客中確認(rèn),此次更新重點(diǎn)提升了函數(shù)調(diào)用的準(zhǔn)確率與觸發(fā)可靠性,有效解決了此前開發(fā)者普遍反饋的問題。
02 單條文本提示即可生成完整應(yīng)用
谷歌此次更新的一大亮點(diǎn)在于,只需通過一條提示即可構(gòu)建完整、可交互的網(wǎng)頁應(yīng)用或模擬程序,這正契合了DeepMind希望簡化原型設(shè)計(jì)與開發(fā)流程的愿景。
谷歌表示,用戶可以輸入視覺模式或主題性提示,直接轉(zhuǎn)化為可運(yùn)行的代碼,這顯著降低了設(shè)計(jì)導(dǎo)向型開發(fā)者或創(chuàng)新團(tuán)隊(duì)的入門門檻。
雖然谷歌尚未公開新版Gemini 2.5 Pro的底層架構(gòu)及技術(shù)細(xì)節(jié),但從實(shí)際應(yīng)用效果來看,其核心目標(biāo)仍是提供更加高效、直觀的開發(fā)體驗(yàn)。
憑借其在代碼生成與多模態(tài)輸入方面的優(yōu)勢,Gemini 2.5 Pro不再僅是技術(shù)實(shí)驗(yàn)室中的“研究模型”,而是正在成為應(yīng)對(duì)真實(shí)開發(fā)挑戰(zhàn)的實(shí)用工具。此次提前發(fā)布也表明,DeepMind有意借此響應(yīng)市場需求,在 I/O大會(huì)前持續(xù)保持技術(shù)領(lǐng)先勢頭。
03 在人類評(píng)審的網(wǎng)頁應(yīng)用生成任務(wù)中登頂
在第三方平臺(tái)WebDev Arena的排行榜中,Gemini 2.5 Pro Preview(05-06)在生成美觀且實(shí)用的網(wǎng)頁應(yīng)用方面獲得了人類評(píng)審的最高分,超越Anthropic的Claude 3.7 Sonnet,登頂榜首。
谷歌新模型得分為1499.95,遠(yuǎn)高于Sonnet 3.7的1377.10。此前版本的Gemini 2.5 Pro(03-25)位列第三,得分為1278.96,這意味著 I/O 版實(shí)現(xiàn)了221分的大幅躍升。
正如AI資深用戶 “Lisan al Gaib” 在社交平臺(tái)上指出的那樣,即便是OpenAI最近推出的GPT-4o(“o3”)都未能擊敗Sonnet 3.7,可見Gemini 2.5 Pro I/O所取得的重大突破。
Gemini的性能提升主要反映在生成內(nèi)容的可靠性、美觀性與實(shí)用性等方面。
04 獲得開發(fā)者廣泛好評(píng)
多個(gè)知名開發(fā)者與平臺(tái)負(fù)責(zé)人已對(duì)Gemini 2.5 Pro Preview(05-06在實(shí)際生產(chǎn)環(huán)境中的表現(xiàn)給予高度評(píng)價(jià)。
Hyperbolic聯(lián)合創(chuàng)始人兼CTO Yuchen Jin寫道:“Gemini 2.5 Pro Preview(05-06)現(xiàn)已成為我的首選編程模型。在多個(gè)高難度提示詞測試中,它已超越o3(GPT-4o)和Claude 3.7 Sonnet。以編寫模擬水桶來回晃動(dòng)的水體效果這個(gè)提示為例,其表現(xiàn)完全碾壓另外兩個(gè)模型。谷歌,這完全夠格稱為Gemini 3了!”
AI初創(chuàng)公司Cognition聯(lián)合創(chuàng)始人塞拉斯·阿爾貝蒂表示,Gemini 2.5 Pro是首個(gè)成功完成復(fù)雜后端路由系統(tǒng)重構(gòu)的AI模型,展現(xiàn)出近似高級(jí)開發(fā)者的決策能力。
AI編程工具Cursor的CEO邁克爾·特魯爾表示,內(nèi)部測試顯示工具調(diào)用失敗率明顯下降,這是以往飽受詬病的問題。他認(rèn)為用戶將在真實(shí)開發(fā)環(huán)境中明顯感受到新模型在實(shí)用性方面的提升。Cursor已將Gemini 2.5 Pro集成進(jìn)其編程智能體中,顯示出開發(fā)者將其作為構(gòu)建智能開發(fā)流程核心組件的趨勢。
基于瀏覽器的云端協(xié)同開發(fā)平臺(tái)Replit總裁米歇爾·卡塔斯塔稱,Gemini 2.5 Pro是“在性能與響應(yīng)延遲之間取得最佳平衡的前沿模型”。他的評(píng)價(jià)暗示,Replit正考慮將其整合進(jìn)自身工具中,尤其適用于對(duì)響應(yīng)速度與穩(wěn)定性要求較高的任務(wù)。
AI教育工作者、BlueShell私有AI聊天機(jī)器人創(chuàng)始人保羅·庫弗特表示:“Gemini 2.5 Pro在代碼和界面生成方面的能力令人印象深刻。”
AI藝術(shù)工具EverArt首席執(zhí)行官彼得羅·斯基拉諾指出,新版Gemini 2.5 Pro I/O能夠通過一個(gè)提示就生成互動(dòng)模擬游戲,完美還原了“1只大猩猩大戰(zhàn)100人”的社交媒體梗。
X用戶“RameshR”(@rezmeram)展示了該模型在不到一分鐘內(nèi)生成的一款互動(dòng)式俄羅斯方塊風(fēng)格拼圖游戲,并配有真實(shí)音效,他在帖文中寫道:“休閑游戲行業(yè)要完蛋了!!”
這些贊譽(yù)從不同維度驗(yàn)證了Gemini 2.5 Pro的實(shí)用性提升,也預(yù)示著其將在更多開發(fā)平臺(tái)中獲得廣泛采納。