国内精品免费视频-国内精品视频成人一区二区-国内精品视频免费观看-国内精品视频在线播放一区-日本狠狠操-日本狠狠干

目錄

OpenAI 急了?o3-mini上線,性能未能全面超越 DeepSeek R1

人工智能AI2025-02-01
OpenAI正式上線o3-mini,并從即日起在Chat Completions API、Assistants API和Batch API中逐步向層級3-5的開發者推出。ChatGPT Plus、Team和Pro用戶可率先使用,企業用戶一周后可訪問。o3-mini是OpenAI首款支持開發者需求功能的小型推理模型,繼承o1-mini的低成本、低延遲優勢,并支...

OpenAI 急了?o3-mini上線,性能未能全面超越DeepSeek R1-第1張圖片.jpg

OpenAI正式上線o3-mini,并從即日起在Chat Completions API、Assistants API和Batch API中逐步向層級3-5的開發者推出。ChatGPT Plus、Team和Pro用戶可率先使用,企業用戶一周后可訪問。

o3-mini是OpenAI首款支持開發者需求功能的小型推理模型,繼承o1-mini的低成本、低延遲優勢,并支持函數調用、流式傳輸、結構化輸出等功能。開發者可根據需求選擇推理強度,平衡思考深度和響應速度,但不支持視覺任務,視覺推理仍需使用o1。

此外,o3-mini現已支持與搜索功能結合,能夠提供最新答案并鏈接至相關網絡資源。這標志著OpenAI正在將搜索功能逐步整合到其推理模型中。

有外媒將o3-mini 和DeepSeek的R1模型進行了對比,在用于衡量模型理解和響應復雜指令能力的2024年美國數學邀請賽(AIME)測試中,o3-mini僅在高推理強度下表現優于R1。在以編程為重點的SWE-bench Verified基準測試中,o3-mini同樣僅在高推理強度下以微弱優勢(0.1 分)領先R1。然而,在低推理強度下,o3-mini在博士級科學問題(GPQA Diamond)基準測試中落后于R1,該測試主要用于衡量模型在博士級別物理、生物和化學問題上的表現。

01 聚焦STEM領域推理優化

OpenAI表示,o3-mini專注于STEM領域(如編程、數學和科學)的相關問題以及邏輯推理問題。也就是說,這個模型在涉及技術性、復雜性較高的任務時表現出色,能幫助開發者解決代碼編寫、數學計算、工程設計等方面的挑戰。

根據OpenAI介紹,在中等推理強度下,o3-mini在數學、編程和科學等STEM領域與o1模型相當,并且更快速、準確,推理能力更強。專家評測顯示,o3-mini的回答更準確、清晰,重大錯誤率降低39%,測試者56%的時間更傾向于選擇o3-mini的回答。

OpenAI在官方博客中也將o3-mini的性能與o1系列進行了比較:

在低推理強度下,o3-mini的表現與o1-mini相當;

在中等推理強度下,o3-mini的表現與o1相當。在數學、編程和科學領域,o3-mini以更快的響應速度實現了與o1相當的性能;

在高推理強度下,o3-mini的表現優于o1-mini和o1。

值得注意的是,在某些領域,o3-mini相對于o1的性能優勢較為微弱。例如,在2024年美國數學邀請賽(AIME)測試中,o3-mini在高推理強度下僅比o1高出0.3個百分點。而在博士級科學問題(GPQA Diamond)基準測試,即使在高推理強度下,o3-mini也未能超過o1的得分。

OpenAI 急了?o3-mini上線,性能未能全面超越DeepSeek R1-第2張圖.jpg

2024年美國數學邀請賽(AIME)

注:在數學領域,OpenAI的o3-mini模型展現了不同的推理強度下的多樣化性能。在2024年美國數學邀請賽(AIME)測試中,當推理強度設置為低時,o3-mini的表現與o1-mini相當;在中等推理強度下,o3-mini的性能與o1模型相當。當推理強度調至高時,o3-mini的表現超越了o1-mini和o1。這表明o3-mini在不同推理強度下能夠靈活適應不同的任務需求,為用戶提供更精準、高效的解決方案。

OpenAI 急了?o3-mini上線,性能未能全面超越DeepSeek R1-第3張圖.jpg

博士級科學問題(GPQA Diamond)

OpenAI 急了?o3-mini上線,性能未能全面超越DeepSeek R1-第4張圖.jpg

FrontierMath(高級數學推理基準測試集)

注:在研究級數學領域,OpenAI的o3-mini模型在高推理強度下于FrontierMath基準測試中的表現優于o1-mini。在FrontierMath測試中,當提示使用Python工具時,高推理強度的o3-mini在首次嘗試中解決了超過32%的問題,其中包括超過28%的高難度(T3 類別)問題。

OpenAI 急了?o3-mini上線,性能未能全面超越DeepSeek R1-第5張圖.jpg

編程競賽(Codeforces)

注:在編程競賽領域,OpenAI的o3-mini模型隨著推理強度的增加,Elo評分逐步提高,全面超越了o1-mini。在中等推理強度下,o3-mini的性能與o1持平。

OpenAI 急了?o3-mini上線,性能未能全面超越DeepSeek R1-第6張圖.jpg

軟件工程(SWE-bench Verified)

注:在SWE-bench Verified基準測試中,o3-mini是OpenAI表現最為出色的模型。在高推理強度下,o3-mini的表現顯著優于o1-mini。其中:使用開源的Agentless scaffold,o3-mini的準確率為 39%;使用內部工具scaffold,o3-mini的準確率提升至61%。

OpenAI 急了?o3-mini上線,性能未能全面超越DeepSeek R1-第7張圖.jpg

LiveBench Coding(評估大型語言模型在編程任務中的表現)

OpenAI 急了?o3-mini上線,性能未能全面超越DeepSeek R1-第8張圖.jpg

人類偏好評估(Human Preference Evaluation)

注:外部專家測試者的評估結果表明,OpenAI的o3-mini在生成回答的準確性、清晰度以及推理能力方面均優于o1-mini,尤其是在STEM領域。測試者在56%的情況下更傾向于選擇o3-mini的回答,并且在處理復雜現實問題時,o3-mini 的重大錯誤率降低了39%。

OpenAI表示,Plus和Team企業用戶的速率限制從每天50條消息(使用 o1-mini)提升至每天150條消息(使用 o3-mini)。并且,免費用戶也可通過“推理”選項體驗o3-mini,這是ChatGPT首次向免費用戶開放推理模型。

02 價格“骨折”、安全性更高了

在春節期間備受關注的國產大模型DeepSeek,其R1模型的推出對OpenAI構成了競爭壓力,尤其在成本方面呈現出顯著差異。OpenAI 的推理模型o1系列相對成本較高,o1模型的API定價為每百萬輸入tokens 15美元,每百萬輸出tokens 60美元,而DeepSeek R1的API定價為每百萬輸入tokens 0.14美元(緩存命中)/0.55美元(緩存未命中),每百萬輸出tokens 2.19美元。

這次發布中,OpenAI強調了成本問題。與OpenAI的o1-mini相比,o3-mini的價格降低了63%。o3-mini定價為每百萬輸入tokens 1.10美元,每百萬輸出tokens 4.40美元, 可謂是打了“骨折價”。不過,相比DeepSeek-R1,o3-mini的價格依然高出了不少。

OpenAI 急了?o3-mini上線,性能未能全面超越DeepSeek R1-第9張圖.jpg

禁止內容評估(Disallowed Content Evaluations)

OpenAI 急了?o3-mini上線,性能未能全面超越DeepSeek R1-第10張圖.jpg

越獄評估(Jailbreak Evaluations)

安全方面,OpenAI表示,在訓練o3-mini以實現安全響應的過程中,采用了一種關鍵技術--“深思熟慮的對齊(deliberative alignment)”。通過這種方法,OpenAI訓練模型在回答用戶提示之前,先對人類編寫的安全規范進行推理。我們可以理解為,OpenAI希望確保o3-mini生成的內容更加安全、符合道德,并降低了模型生成不良或有害響應的風險。

與OpenAI o1類似,o3-mini在應對具有挑戰性的安全和越獄評估時,表現顯著優于GPT-4o。在部署之前,OpenAI使用與o1相同的方法,對o3-mini的安全風險進行了仔細評估,包括準備性評估、外部紅隊測試以及安全性評估。

總之,o3-mini的正式上線,標志著OpenAI在推動成本效益型智能發展方面邁出了重要一步。通過優化STEM領域的推理能力并保持低成本,這一模型也延續了OpenAI降低智能成本的記錄。


您暫未設置收款碼

請在主題配置——文章設置里上傳

掃描二維碼手機訪問

文章目錄