OpenAI 向第三方開發者開放最先進大模型 o1,成本下降60%
自美國當地時間12月5日起,OpenAI開啟了一輪密集的新功能發布周期,計劃在接下來的12天內通過12場直播活動陸續推出新產品和功能。在此之前,OpenAI已經陸續發布了多項創新,包括滿血版o1模型、ChatGPT Pro計劃、強化微調技術、視頻生成工具Sora、交互界面Canvas、高級語音視覺功能、智能文件夾Projects以及向全體ChatGPT用戶開放ChatGPT搜索功能等。
12月18日,也就是在OpenAI發布會進行到第九天時,該公司正式宣布,將通過其應用程序編程接口(API)向第三方開發者開放其尖端大模型o1系列。這一消息對開發者而言無疑是巨大的福音,因為他們渴望構建全新的高級人工智能應用程序,或者將OpenAI的最先進技術融入他們現有的應用程序和工作流程之中,無論這些應用是面向企業還是消費者。
OpenAI的o1系列模型于2024年9月發布,作為公司“新家族”系列中的首款力作,它超越了GPT系列大語言模型(LLM)的范疇,并引入了“推理”功能。
o1系列模型包括o1和o1 mini,雖然需要更長的時間來響應用戶提示并生成答案,但它們在形成答案的過程中會進行自我校驗,確保答案的準確性,并有效避免產生“幻覺”。發布時,OpenAI就宣稱o1能夠處理更為復雜、達到博士水平的問題,這一點也在用戶的實際反饋中得到了驗證。
盡管開發者們此前已經能夠訪問o1的預覽版本,并在此基礎上開發自己的應用程序,如博士顧問或實驗室助理等,但通過API發布的完整o1模型帶來了更高的性能、更低的延遲以及新功能,使其更加便于集成到實際的應用場景中。
大約兩周半之前,OpenAI已經通過ChatGPT Plus和ChatGPT Pro計劃向消費者推出了o1模型,并增加了模型分析以及響應用戶上傳的圖像和文件的功能。
在今日發布的同時,OpenAI還宣布了其實時API的重大更新,以及降價策略和新的微調方法,旨在幫助開發者更好地掌控他們的模型。
01 開放完整o1模型
新推出的o1模型內部編號為o1-2024-12-17,特別設計用于處理復雜的多步驟推理任務。與早期的o1預覽版本相比,這一版本在準確性、效率和靈活性方面均實現了顯著提升。
OpenAI公布了一系列基準測試的結果,展示了新模型在編碼、數學和視覺推理任務上的顯著進步。例如,在SWE-bench Verified(旨在通過更可靠方法評估人工智能模型解決現實世界軟件問題能力的基準測試)中,o1的編碼結果從41.3提升至48.9。而在以數學為重點的AIME測試中,o1的性能更是從42躍升至79.2。這些顯著的改進使得o1成為構建簡化客戶支持流程、優化物流解決方案或解決挑戰性分析問題的理想工具。
此外,o1還新增了幾個特性,進一步增強了其為開發者提供的功能。結構化輸出功能允許模型的響應能夠可靠地匹配自定義格式(如JSON模式),從而確保與外部系統交互時的一致性和準確性。函數調用功能的引入則簡化了o1連接到API和數據庫的過程,使得集成更加便捷。同時,o1還具備了在視覺輸入上進行推理的能力,這一特性在制造、科學和編碼等領域開辟了新的應用場景。
為了讓開發者能夠更精細地控制o1的行為,OpenAI還推出了新的reasoning_effort參數。該參數允許開發者根據任務需求調整模型在任務上花費的時間,從而在性能和響應時間之間找到最佳平衡點。
02 OpenAI的實時API迎來升級
為智能會話語音/音頻AI助手提供支持
OpenAI還宣布了其實時API的重大更新,旨在支持低延遲、自然的會話體驗,如語音助手、實時翻譯工具或虛擬導師等應用場景。
此次更新中,新的WebRTC集成成為一大亮點。它直接支持音頻流、噪聲抑制和擁塞控制,極大地簡化了基于語音的應用程序的構建過程。開發者現在只需進行最小化的設置,即可集成實時功能,即使在多變的網絡環境下也能保持穩定的性能。
在定價方面,OpenAI也推出了新的策略,使得GPT-4o音頻的成本降低了60%。具體而言,每100萬輸入Tokens的費用為40美元,每100萬輸出Tokens的費用為80美元。同時,緩存音頻輸入的成本也降低了87.5%,現在的定價為每100萬輸入Tokens 2.5美元。
為了進一步提高性價比,OpenAI還推出了GPT-4o mini,這是一種更小、更具成本效益的模型。其價格更為親民,每100萬輸入Tokens的費用為10美元,每100萬輸出Tokens的費用為20美元。此外,GPT-4o mini的文本Tokens費率也相對較低,輸入Tokens的起始價格為0.60美元,輸出Tokens的起始價格為2.40美元。
除了定價方面的調整,OpenAI還賦予了開發者對實時API響應的更多控制權。例如,并發的帶外響應等特性允許后臺任務(如內容審核)在不干擾用戶體驗的情況下運行。開發者還可以根據實際需求定制輸入上下文,專注于對話的特定部分,并控制語音響應的觸發時機,從而實現更準確、更無縫的交互體驗。
03 偏好微調提供了新的自定義選項
另一個重要的新增功能是偏好微調,這是一種創新的模型定制方法,能夠根據用戶和開發者的偏好來優化模型表現。
與傳統的依賴于精確輸入輸出的監督式微調不同,偏好微調采用成對比較的方式來指導模型選擇更優的響應。這種方法在處理主觀性較強的任務時尤為有效,例如總結、創造性寫作或是語氣和風格更重要的應用場景。
與Rogo AI等合作伙伴的早期測試已經展現出了偏好微調的巨大潛力。Rogo AI致力于打造專為金融分析師服務的助手,他們報告稱,與傳統的微調方法相比,偏好微調顯著提升了模型處理復雜、超出分布范圍查詢的能力,任務準確率提高了5%以上。這一功能目前已在GPT-4o-2024-08-06和GPT-4o-mini-2024-07-18模型中可用,并計劃于明年初擴展至更多新模型上。
04 面向Go和Java開發者的新SDK
為了進一步優化集成流程,OpenAI正拓展其官方SDK產品線,現推出Go和Java版本的測試版SDK。這些新增的SDK與現有的Python、Node.js和.NET庫相輔相成,極大地拓寬了開發者在不同編程環境中與OpenAI模型進行交互的便利性。Go SDK在構建可擴展的后端系統方面展現出獨特優勢,而Java SDK則專為依賴強類型和穩健生態系統的企業級應用而設計。
通過這一系列更新,OpenAI為開發者配備了一個功能更為全面的工具箱,旨在助力他們開發出先進且高度可定制的人工智能應用程序。無論是利用o1模型增強的推理能力,還是實時API的顯著增強,亦或是靈活多樣的微調選項,OpenAI的最新產品均致力于為企業提供更卓越的性能表現和更高的成本效益,從而不斷擴大人工智能集成的邊界。