OpenAI 發(fā)布升級(jí)版 GPT-4.1 全家福:推理、編程性能升級(jí)
OpenAI在美國(guó)當(dāng)?shù)貢r(shí)間15日凌晨宣布,正式向ChatGPT用戶推出GPT-4.1、GPT-4.1 mini以及GPT-4.1 nano三款人工智能模型。
OpenAI發(fā)言人表示,GPT-4.1模型將幫助軟件工程師在使用ChatGPT編寫或調(diào)試代碼時(shí)獲得更高效的支持。與GPT-4o相比,GPT-4.1在編程能力和指令執(zhí)行上表現(xiàn)更優(yōu),且運(yùn)行速度比其o系列推理模型更快。
在多個(gè)關(guān)鍵評(píng)測(cè)中,OpenAI表示GPT-4.1展現(xiàn)出強(qiáng)勁性能:在SWE-bench Verified軟件工程基準(zhǔn)測(cè)試中,GPT-4.1得分55%,較GPT-4o的33%提升了22%。較GPT-4.5的38%提升了17%,可以說是“4.1完勝和淘汰了4.5”。
在Scale的MultiChallenge指令執(zhí)行測(cè)試中,GPT-4.1的得分為38%,其表現(xiàn)較GPT-4o的28%提升了10%。
此外,該模型的冗余輸出也減少了50%,這一改進(jìn)在早期企業(yè)用戶測(cè)試中獲得高度評(píng)價(jià)。
與此同時(shí),OpenAI推出的小參數(shù)模型GPT-4.1 mini將作為新默認(rèn)模型,取代GPT-4o mini,并適用于所有ChatGPT用戶,包括免費(fèi)用戶。
而對(duì)于對(duì)低延遲要求較高的任務(wù),GPT-4.1 nano 是OpenAI目前速度最快、成本最低的模型。它體積小巧,卻具備出色的性能,支持100萬 token 的上下文窗口,在多項(xiàng)基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異:MMLU 得分為 80.1%,GPQA 為 50.3%,Aider polyglot 編碼測(cè)試中達(dá)到 9.8%,甚至高于 GPT-4o mini。這使得GPT-4.1 nano非常適合用于分類、自動(dòng)補(bǔ)全等對(duì)響應(yīng)速度和效率高度敏感的任務(wù)。
這三款模型均可通過ChatGPT界面左上角的“更多模型”下拉菜單選擇。用戶可在GPT-4.1、GPT-4.1 mini與推理模型(如 o3、o4-mini、o4-mini-high)之間自由切換,增強(qiáng)靈活性。
目前,OpenAI正將GPT-4.1模型向ChatGPT Plus、Pro和Team訂閱用戶推出。企業(yè)版與教育版用戶的訪問權(quán)限將在未來幾周陸續(xù)開放。同時(shí),OpenAI將GPT-4.1 mini提供給所有免費(fèi)和付費(fèi)用戶使用。
此外,根據(jù)版本說明,OpenAI表示,GPT-4.0 mini將從ChatGPT中全面下架,所有用戶將不再使用該版本。
01 上下文長(zhǎng)度、速度與模型訪問
在API中,GPT-4.1可處理最多100萬個(gè)token的輸入。這使得API用戶可以一次性輸入整套代碼庫、合同文件或大型日志文件,適用于多文檔審閱、財(cái)務(wù)分析等企業(yè)場(chǎng)景。
OpenAI承認(rèn),在大規(guī)模輸入場(chǎng)景中,該模型表現(xiàn)可能有所下降,但企業(yè)測(cè)試表明,在數(shù)十萬token級(jí)別內(nèi)仍保持穩(wěn)健性能。
02 與前代模型表現(xiàn)對(duì)比
在GPT-4.1發(fā)布前,OpenAI于2025年2月發(fā)布了研究預(yù)覽模型GPT-4.5。后者著重提升無監(jiān)督學(xué)習(xí)能力、知識(shí)深度與降低幻覺率(從GPT-4o的61.8%降至37.1%),并增強(qiáng)情感理解與長(zhǎng)文本生成能力,但多數(shù)用戶認(rèn)為其性能提升較為“溫和”。
GPT-4.5雖然在內(nèi)容創(chuàng)作和交流方面顯得更自然,但在數(shù)學(xué)和編程方面仍不及OpenAI的o系列模型,且API使用成本高昂,輸出百萬token最高收費(fèi)180美元。業(yè)內(nèi)人士指出,雖然GPT-4.5在通用對(duì)話和內(nèi)容生成方面更強(qiáng),但在面向開發(fā)者的應(yīng)用場(chǎng)景中表現(xiàn)不佳。
相比之下,GPT-4.1聚焦速度與指令執(zhí)行的實(shí)用性,雖然它不具備4.5的知識(shí)深度和情感建模能力,但在實(shí)用的代碼輔助和用戶指令遵循性方面表現(xiàn)更好。
03 API定價(jià)
在定價(jià)方面,GPT-4.1通過OpenAI API提供,當(dāng)前價(jià)格如下:每百萬輸入token收費(fèi)2美元,緩存輸入為0.5美元,輸出為8美元。輕量版GPT-4.1 mini的費(fèi)用更低:每百萬輸入token為0.4美元,緩存輸入為0.1美元,輸出為1.6美元。
相較之下,谷歌的Flash-Lite和Flash模型在價(jià)格上更具競(jìng)爭(zhēng)力,每百萬token輸入費(fèi)用在0.075美元至0.1美元之間,輸出則為0.3美元至0.4美元,成本僅為GPT-4.1基本價(jià)格的十分之一。
04 從API專屬到ChatGPT集成
GPT-4.1最初僅面向第三方開發(fā)者,通過OpenAI API提供服務(wù),但在用戶強(qiáng)烈要求下,OpenAI最終決定將該模型引入ChatGPT平臺(tái)。
OpenAI后訓(xùn)練研究負(fù)責(zé)人Michelle Pokrass在帖子中確認(rèn)了這一決策轉(zhuǎn)變的原因:“我們?cè)?jì)劃只在API中提供該模型,但大家都希望能在ChatGPT中使用它。祝大家編碼愉快!”
今年4月,OpenAI曾通過開發(fā)者API發(fā)布GPT-4.1和GPT-4.1 mini模型。當(dāng)時(shí),AI研究界曾對(duì)OpenAI未附帶安全報(bào)告就發(fā)布GPT-4.1提出批評(píng),認(rèn)為該公司在模型透明度方面的標(biāo)準(zhǔn)正在降低。
對(duì)此,OpenAI當(dāng)時(shí)解釋稱,盡管GPT-4.1在性能和速度上優(yōu)于GPT-4o,但它并非前“前沿模型”(frontier model),因此不需要遵循針對(duì)更強(qiáng)大模型所設(shè)定的相同安全報(bào)告要求。
OpenAI安全系統(tǒng)負(fù)責(zé)人Johannes Heidecke發(fā)文稱:“GPT-4.1并未引入新的交互方式或模態(tài),其智能水平也未超越o3模型。這意味著,雖然該模型的安全考量依然重要,但與前沿模型存在本質(zhì)差異。”
在發(fā)布新模型當(dāng)天,OpenAI承諾將更頻繁地公開內(nèi)部AI模型安全評(píng)估結(jié)果,相關(guān)數(shù)據(jù)已納入新上線的“安全評(píng)估中心”。此舉被視為OpenAI增強(qiáng)透明度的最新舉措。
此次GPT-4.1引入ChatGPT,正值外界對(duì)AI編程工具關(guān)注度不斷上升之際。據(jù)傳,OpenAI即將宣布以30億美元收購市場(chǎng)熱門編程工具Windsurf。