国内精品免费视频-国内精品视频成人一区二区-国内精品视频免费观看-国内精品视频在线播放一区-日本狠狠操-日本狠狠干

目錄

Claude 4 系列模型來了!編碼能力強于o3和GPT-4.1,記憶性能大幅提升

人工智能AI2025-05-23
當地時間5月22日消息,人工智能初創公司Anthropic在美國舊金山舉辦的首屆開發者大會中發布兩款Claude 4模型——Claude Opus 4和Claude Sonnet 4。其中,Claude 4 Opus向付費Claude訂閱用戶開放,Claude Sonnet 4向免費和付費用戶開放。Claude 4系列模型具備分析大型數據集、執行長期任務和采...

Claude 4 系列模型來了-第1張圖片.jpg

當地時間5月22日消息,人工智能初創公司Anthropic在美國舊金山舉辦的首屆開發者大會中發布兩款Claude 4模型——Claude Opus 4和Claude Sonnet 4。

其中,Claude 4 Opus向付費Claude訂閱用戶開放,Claude Sonnet 4向免費和付費用戶開放。

Claude 4系列模型具備分析大型數據集、執行長期任務和采取復雜行動的能力。這兩款模型都針對編程任務進行了優化,非常適合編寫和編輯代碼。

在生產力賦能方面,Claude Opus 4通過深度學習用戶風格特征,正在重構人機協作范式。該公司首席產品官邁克·克雷格透露,Claude Opus 4寫作助手功能已突破技術瓶頸:“Opus 4的寫作輸出與本人風格具備不可區分性,目前完成了我90%的專業寫作任務。”

在測試中,旗艦模型Claude Opus 4在測試中保持了近7個小時對復雜開源重構項目的專注能力。這項突破性進展標志著,人工智能從快速響應工具轉變為能處理全天候項目的真正協作伙伴。

這項技術突破意義深遠:人工智能系統已具備承接從概念設計到完整落地的復雜軟件工程項目能力,可在整個工作周期內保持上下文連貫性和專注度。

Anthropic聯合創始人、首席科學家賈里德·卡普蘭對此表示,該公司從去年底已停止對聊天機器人領域的投入,轉而將研發資源集中投向提升Claude模型執行復雜任務的專業能力。

Claude Sonnet 4作為Sonnet 3.7的“即插即用替代品”,在編碼和數學方面相較于Anthropic之前的模型有所改進,并且能更精準地遵循指令。

Claude 4 系列模型來了-第2張圖片.jpg

Claude 4 系列模型來了-第3張圖片.jpg

Claude 4系列模型在編碼與推理任務中的表現全面超越競爭對手

Anthropic表示,Claude Opus 4模型在評估編碼能力的SWE-Bench Verified基準測試中獲得72.5%的成績,超越OpenAI新發布的Codex,并且遠超今年4月發布的GPT-4.1(當時得分為54.6%),這一突破性進展讓Anthropic在競爭白熱化的人工智能領域占據了重要位置。

此外,Anthropic還顯著減少了模型在完成任務時試圖走捷徑或利用漏洞的行為。在某類AI智能體任務上,模型特別容易走捷徑,但這次的兩款新模型發生此類行為的概率,比Sonnet 3.7要低65%。

不過需要客觀看待的是,技術優勢具有領域局限性—雖然Claude Opus 4在編程能力測試中同時領先于谷歌的Gemini 2.5 Pro和OpenAI的o3及GPT-4.1,但在衡量多模態理解能力的MMMU評估,以及涉及博士級生物、物理、化學等學科難題的GPQA Diamond測試中,仍未突破OpenAI o3模型保持的領先水平。

這反映出當前AI技術發展呈現明顯的專業化分野特征,不同模型在不同應用場景下各有所長。

Claude 4系列模型在Amazon Bedrock及Google Vertex AI平臺上的收費標準如下:Opus 4每百萬Token(輸入/輸出)收費為15美元/75美元,Sonnet 4為3美元/15美元。

01 推理革命重塑人工智能格局

2025年人工智能產業全面轉向推理模型開發。這些系統不僅僅是簡單匹配訓練數據模式,在回應前會系統化處理問題,通過模擬類人思維過程完成思考。

OpenAI于2024年12月通過”o”系列模型率先啟動這場變革,隨后谷歌推出具備實驗性“深度思考”功能的Gemini 2.5 Pro5。DeepSeek的R1模型則以卓越問題解決能力和價格優勢異軍突起,意外搶占市場份額。

此次轉型標志著人工智能應用范式的根本性進化。據Poe《2025春季AI模型使用趨勢報告》顯示,推理模型使用率在4個月內激增5倍,占所有AI交互比例從2%躍升至10%。用戶正將人工智能視為復雜問題的思維伙伴,而非基礎問答工具。

Claude 4 系列模型來了-第4張圖片.jpg

隨著新型AI模型激發用戶興趣,2025年初推理類會話占比急劇攀升

Claude新模型通過將工具使用直接整合至推理過程實現突破。這種同步研究與推理的方式,相較傳統系統先收集信息后分析的流程,更接近人類認知模式。在推理過程中暫停、獲取數據并整合新發現的機制,創造了更自然高效的問題解決體驗。

02 雙模式架構平衡速度與深度

Anthropic通過混合方法解決了人工智能用戶體驗中的長期痛點。

Claude 4系列模型在簡單查詢中提供近即時響應,對復雜問題則啟動深度思考模式成功消除了早期推理模型在處理基礎問題時產生的延遲卡頓。

這種雙模式功能既保留了用戶期待的即時交互體驗,又能在需要時釋放深度分析能力。系統根據任務復雜性動態分配算力資源,實現了早期推理模型難以企及的平衡狀態。

記憶持久性是Claude 4系列的另一重大突破。這兩款模型具備從文檔提取關鍵信息、創建摘要文檔的能力,并在獲得授權后實現跨會話知識延續。

此項能力攻克了長期制約AI應用的“記憶缺失”難題,使AI在需要持續數日或數周上下文關聯的長期項目中真正發揮作用。

這種技術實現方式與人類專家開發知識管理系統的方式類似,人工智能會自動將信息整理成適合未來檢索的結構化格式。通過這種方式,Claude 4系列模型能夠在長時間的互動過程中不斷深化對復雜領域的理解。

Claude 4 系列模型來了-第5張圖片.jpg

數月前,Anthropic在直播時演示Claude 3.7 Sonnet在《精靈寶可夢紅》中的表現,致力于解決復雜任務場景下AI決策邏輯的理解與引導問題,這一探索對推進智能體技術具有關鍵意義。據該公司披露,Claude 4 Opus在《精靈寶可夢》游戲場景中展現出顯著的迭代優勢:以代理模式持續運行時長從初代的45分鐘提升至24小時。

對比前代產品,Claude 4 Opus在長期記憶與任務規劃維度實現突破:當識別到關卡需特定能力時,模型可通過為期兩天的自主能力迭代再繼續推進游戲。這證明了Claude 4 Opus在任務連貫性維持方面的技術躍升,為復雜工作流自動化場景提供了重要技術驗證。

03 升級Claude Code功能

為使模型更貼近程序員使用需求,Anthropic正在針對Claude Code功能進行升級。Claude Code允許開發者通過終端直接運行Anthropic模型執行特定任務,現已實現與集成開發環境(IDE)的深度整合,并推出軟件開發工具包(SDK),使開發人員能將其與第三方應用程序對接。

Anthropic還發布了針對Microsoft VS Code、JetBrains系列IDE及GitHub的Claude Code擴展程序與連接器。其中GitHub連接器允許開發人員標記Claude Code以響應代碼審查者的反饋意見,同時支持嘗試修復代碼中的錯誤或實施其他類型的自動化修改。

AI模型在生成高質量軟件代碼方面仍面臨挑戰。這類代碼生成工具常因編程邏輯理解等核心能力的不足,導致生成的代碼存在安全漏洞或錯誤。然而其提升編碼效率的潛力,正推動企業和開發者加速將其融入工作流程。Anthropic對此有著清醒認知,并承諾將加快模型迭代頻率。

這家AI初創公司在公告草案中表示:"我們正在轉向更高頻的模型更新節奏,通過持續不斷的優化流,加快突破性功能落地客戶側的速度。這種模式通過持續優化增強模型能力,將助力用戶保持技術領先地位。"

04 安全措施更為嚴格

Claude 4 系列模型來了-第6張圖片.jpg

Anthropic聯合創始人、首席科學家賈里德·卡普蘭

Anthropic聯合創始人、首席科學家賈里德·卡普蘭表示,在內部測試中,Claude Opus 4在指導新手制造生物武器方面比以往模型更為有效。他表示:“你可以嘗試合成類似新冠或更危險版本的流感病毒—基本上,我們的模型表明這可能是可能的。”

正因為如此,Claude Opus 4是在比以往任何Anthropic模型都更嚴格的安全措施下發布的。這些措施—在內部稱為人工智能安全等級3或“ASL-3”——用于對具備基礎 STEM(科學、技術、工程和數學)背景的個人。在他們獲取、制造或部署涉及化學、生物或核武器相關能力的AI系統時,Anthropic將會采取措施加以限制,以檢測和拒絕特定類型的有害行為。


您暫未設置收款碼

請在主題配置——文章設置里上傳

掃描二維碼手機訪問

文章目錄