国内精品免费视频-国内精品视频成人一区二区-国内精品视频免费观看-国内精品视频在线播放一区-日本狠狠操-日本狠狠干

目錄

OpenAI 發布最強推理模型 o3 和 o4-mini:圖像深度思考首秀,還能自主調用工具

人工智能AI2025-04-17
北京時間4月17日凌晨,OpenAI 發布了兩款突破性AI模型——o3和o4-mini,它們能通過圖像進行推理,并可自主調用多種工具,被專家稱為人工智能能力的一次飛躍式提升。這兩款模型都是OpenAI “o 系列” 推理模型的最新成員,經過訓練后,它們可在響應前進行更長時間的思考。同時,它們也是OpenAI迄今發布的最智能、最強大的模型。這些推理模型可以自主...

北京時間4月17日凌晨,OpenAI 發布了兩款突破性AI模型——o3和o4-mini,它們能通過圖像進行推理,并可自主調用多種工具,被專家稱為人工智能能力的一次飛躍式提升。

OpenAI 發布最強推理模型 o3 和 o4-mini-第1張圖片.jpg

這兩款模型都是OpenAI “o 系列” 推理模型的最新成員,經過訓練后,它們可在響應前進行更長時間的思考。同時,它們也是OpenAI迄今發布的最智能、最強大的模型。

這些推理模型可以自主組合并使用ChatGPT內的所有工具——包括網頁搜索、利用Python分析上傳的文件和數據、對視覺輸入進行深入推理,甚至還能生成圖像。

最重要的是,這些模型不僅能判斷何時使用工具,還能決定如何使用工具,從而以正確的輸出格式,在一分鐘內給出經過深思熟慮的詳細回答,幫助解決更復雜的問題。

這意味著它們能更高效地應對多層次、多步驟的問題,讓ChatGPT具備“自主執行任務”的能力。將頂級推理能力與完整工具訪問權限結合在一起,讓這些新模型在學術評測和實際任務中的表現都有了顯著提升。

Sam Altman在X上引述內測用戶、免疫學專家Derya Unutmaz對o3模型的評價,稱其“近乎天才水準”。

OpenAI 發布最強推理模型 o3 和 o4-mini-第2張圖片.jpg

  • 性能提升

OpenAI聲稱, o3是其迄今推出的最強大推理模型,在編程、數學、科學、視覺理解等多個領域均取得了突破性進展。它在多項基準測試中都創下新紀錄,包括Codeforces、SWE-bench和MMMU。

OpenAI 發布最強推理模型 o3 和 o4-mini-第3張圖片.jpg

OpenAI新模型o3和o4-mini等在數學競賽、編程、指令遵循和工具調用方面的表現

這款模型非常適合需要多維度分析、答案并不直觀的復雜查詢,在視覺任務(如圖像、圖表和圖形分析)中表現尤為突出。

根據外部專家的評估,在現實世界的高難度任務中,o3的重大錯誤率比OpenAI o1降低了20%,在編程、商業/咨詢和創意構思等領域表現也很出色。早期測試者稱其為具有極高分析能力的“思考伙伴”,尤其擅長在生物學、數學和工程領域提出并評估全新的假設。

與o3相比,OpenAI o4-mini是一款更小巧、但高效能的推理模型,專為快速、成本友好的應用場景而優化。在數學、編程和視覺任務上,它展現出了驚人的性價比。o4-mini是AIME 2024和AIME2025基準測試中表現最好的模型之一。

在專家評估中,o4-mini在非STEM任務(科學、技術、工程、數學)上的表現超越了o3-mini。憑借出色的計算效率,o4-mini支持比o3更高的使用頻率,使其成為需要推理能力的高頻、高吞吐量場景的理想選擇。

外部專家評估認為,得益于智能水平的提升和網絡信息的引入,這兩款模型在遵循指令和提供更有用、可驗證的回答方面均優于前代模型。與此前的推理模型相比,它們的對話體驗也更加自然,尤其是在引用記憶和過往對話時,能夠提供更個性化、更相關的回答。

  • 持續擴展強化學習能力

在OpenAI o3的開發過程中,OpenAI發現大規模強化學習(RL)呈現出與GPT系列預訓練 相同的規律——“計算量越大,性能越強”。

同時,模型在被允許“思考”得越久,表現就越好。

在相同延遲和成本條件下,o3在ChatGPT中的表現優于o1。同時,如果允許模型進行更長時間的思考,它的表現還會進一步提升。

OpenAI通過強化學習訓練這兩款模型如何使用工具,還讓它們學會判斷何時使用工具,從而在開放式任務中表現更出色,尤其是在視覺推理和多步驟工作流程任務中。

  • 首次實現圖像思維鏈整合

OpenAI 發布最強推理模型 o3 和 o4-mini-第4張圖片.jpg

在上述示例中,OpenAI首次展示了其模型如何將圖像直接整合進推理思維鏈中。模型不僅能“看到”圖像,更能“用圖像進行思考”。這一突破實現了視覺與文本推理的深度融合,使其在多模態基準測試中達到最先進水平。

用戶可以上傳照片,比如:白板內容、教科書里的圖示,甚至是手繪草圖,模型都能理解它們。即使圖像存在模糊、倒置或低質量的情況,模型仍能準確解析。

結合工具調用能力,模型還能在推理過程中即時操控圖像,比如旋轉、縮放、格式轉換等,讓圖像處理成為其思考的一部分。

這些模型在視覺感知任務中表現出業界領先的準確率,能解決過去難以應對的問題。

  • 自主完成工具調用

OpenAI 的o3和o4-mini模型在ChatGPT中擁有對所有工具的完整訪問權限,開發者還可以通過API中的函數調用功能接入自定義工具。

例如,當用戶提出“與去年相比,加州今年夏天的能源使用情況有何變化?”這個問題時,模型可以執行一連串工具調用:搜索公共能源數據、編寫Python代碼進行預測、生成圖表或圖像,并解釋預測背后的關鍵因素。

通過推理,它可以根據新獲取的信息靈活應變,例如多次搜索不同關鍵詞、分析結果、再嘗試新的搜索策略。

這種靈活、策略性較強的方式,使模型能夠完成那些超出其內部知識、需要實時信息、跨模態推理與綜合輸出的復雜任務。

  • 性價比

OpenAI稱o3和o4-mini在很多情況下,它們都比各自的前代o1與o3-mini更高效,也更節省成本。在AME2025基準測試中,性價比都遠遠超過前代模型。

OpenAI 發布最強推理模型 o3 和 o4-mini-第5張圖片.jpg

價格方面,OpenAI o3的輸入為每100萬個tokens收費10美元,緩存輸入為每100萬個tokens收費2.5美元,輸出為每100萬個tokens收費40美元。

OpenAI 發布最強推理模型 o3 和 o4-mini-第6張圖片.jpg

OpenAI o4-mini的輸入為每100萬個tokens收費1.1美元,緩存輸入為每100萬個tokens收費0.275美元,輸出為每100萬個tokens收費4.4美元。

  • 安全性

對于o3和o4-mini,OpenAI全面重構了安全訓練數據集,新增了針對生物威脅(生物風險)、惡意軟件生成、越獄提示等領域的拒絕示例,讓兩個模型在其內部安全拒絕基準測試中表現優異,例如在指令層級理解和越獄防護上都展現出強大的防護能力。

除了模型自身的表現外,OpenAI還開發了系統層面的風險緩解機制,用于識別和標記涉及前沿風險領域的危險提示。

例如,該公司訓練了一個基于推理的語言模型監控器,能夠依據人類編寫的可解釋安全規范進行判斷。在生物風險的紅隊測試中,該監控器成功識別并標記了約99%的高風險對話。

OpenAI對這兩個模型進行了迄今為止最嚴格的安全測試,按照最新的 《準備度框架》(Preparedness Framework)標準,對其在以下三個能力領域進行了評估:

——生物與化學風險

——網絡安全

——AI 自我改進能力

根據評估結果,o3與o4-mini在上述所有領域均處于“低風險”級別(低于框架中設定的“高”風險閾值)。

  • 全新實驗項目Codex CLI

OpenAI還發布了一個全新的實驗項目:Codex CLI —— 一款輕量級的編程智能體,專為最大化o3和o4-mini等模型的推理能力而設計,并即將支持GPT-4.1等更多API模型。

用戶可以直接從命令行體驗多模態推理,比如向模型傳遞截圖或低保真草圖,結合本地代碼環境,讓模型參與解決實際編程任務。

OpenAI將Codex CLI視為一種最簡約的界面,用于將強大的AI模型與用戶的計算機無縫連接。

OpenAI首席執行官山姆·奧特曼發帖稱:“o3和o4-mini非常擅長編碼,所以我們發布了一個新產品Codex CLI,讓它們更容易使用。這是一個在用戶計算機上運行的編程智能體。它是完全開源的,現在就可以使用;我們希望它能迅速改進。”

OpenAI 發布最強推理模型 o3 和 o4-mini-第7張圖片.jpg

同時,OpenAI也啟動了一個總額100萬美元的資助計劃,專門支持使用Codex CLI和OpenAI模型的項目。每個項目將以2.5萬美元等值的API使用額度發放。

  • 如何使用o3與o4-mini

從4月17日開始,ChatGPT Plus、Pro和Team用戶將在模型選擇器中看到o3、o4-mini和o4-mini-high,它們將取代之前的o1、o3-mini和o3-mini-high。ChatGPT Enterprise和Edu用戶將在一周后獲得訪問權限。

免費用戶可以在撰寫查詢前點擊 “Think” 按鈕,嘗試 o4-mini的推理能力。

此外,OpenAI計劃在未來幾周推出支持全部工具功能的OpenAI o3-pro。

與此同時,o3和o4-mini也將通過Chat Completions API和Responses API向開發者開放,部分開發者可能需驗證組織身份。

Responses API提供支持推理摘要、保留函數調用上下文以提升性能的能力,未來還將支持內置工具(如網頁搜索、文件檢索和代碼解釋器)。


您暫未設置收款碼

請在主題配置——文章設置里上傳

掃描二維碼手機訪問

文章目錄