国内精品免费视频-国内精品视频成人一区二区-国内精品视频免费观看-国内精品视频在线播放一区-日本狠狠操-日本狠狠干

<li id="m2a2y"></li>

首頁人工智能AI 正文

從工具到AGI，OpenAI 的12天進化論

人工智能AI2024-12-21

OpenAI 年末的12天連續Devday更新終于落幕，每天蹲守觀看發布會都像在開巧克力盲盒，不知道下一個是什么口味。在前11天的發布會中，大部分屬實非常寡淡，只有三個產品還有些精彩的“滋味”。總結起來，能稱得上重磅的更新包括：o1正式版、Sora、Canvas，它們主要集中在前4天發布。其中，o1正式版確實提升很大，Sora則是增加了不少對AI生成視頻進行...

openai_副本.jpg

OpenAI 年末的12天連續Devday更新終于落幕，每天蹲守觀看發布會都像在開巧克力盲盒，不知道下一個是什么口味。

在前11天的發布會中，大部分屬實非常寡淡，只有三個產品還有些精彩的“滋味”。

總結起來，能稱得上重磅的更新包括：o1正式版、Sora、Canvas，它們主要集中在前4天發布。

其中，o1正式版確實提升很大，Sora則是增加了不少對AI生成視頻進行更改的產品模式，Canvas可以被視為OpenAI第一次挑戰AI工作臺的產品嘗試。

其次，相對還有些看點的是：和蘋果的深度合作，視頻通話功能，以及o1-mini的強化微調。

o1-mini的強化微調在專業領域潛力很大，微調簡單提升明顯。視頻通話功能則是那個讓人驚艷的“HER”正式上線。和蘋果的深度合作對OpenAI來講也是件大事，更站穩了在AI行業的一哥地位。

另外一些小的產品更新則是讓人覺得——“這也值得開發布會？”

這些產品包括“Projects”項目功能、o1 圖像輸入和4o高級語音API正式開放、ChatGPT Search 升級和給GPT打電話的功能。它們都是相對比較小，也都和競爭對手沒什么差異的更新。

到了最后一天，OpenAI終于甩出一個王炸：GPT-o3。一舉打破AI發展陷入瓶頸的懷疑，各項性能直奔AGI而去。

下面，我們來稍微詳細地講述一下這些更新的核心點。

01 重要產品更新

o1完全版（Day1）

從能力上看，o1確實比Preview版本有了比較大的進步。它在國際數學奧林匹克預選賽題目（AIME 2024）、編程能力測試（CodeForces）方面都比o1- preview提升了50%。在處理復雜問題時的重大錯誤率降低了34%。

openai1_副本.jpg

它還能根據題目的難易程度調節處理時間，這使得用戶等待時間下降超過50%。

更重要的是o1也能支持多模態識別了。這讓它的實用性暴增。醫生可以用它分析醫學影像，工程師能讓它幫忙看圖紙，設計師還能讓它提供創意建議。

但它的價格也相當貴，只有200美金的ChatGPT Pro版訂閱用戶才能享受無限使用，其他普通20美元訂閱用戶僅能享受每日20次使用權限。

作為第一天登場的產品，o1確實能讓人眼前一亮。

Sora（Day3）

等了10個月后，Sora終于姍姍來遲。

但這不是個模型版本升級，而更像是一個產品打磨。正式版的Sora能生成最長20秒，最高1080p的視頻。生成效果和2月份剛放出的差異不大。

但產品上OpenAI確實下了點心思，故事板是此次發布中最具創新性的功能，也是Sora最具野心的嘗試。它為用戶提供了類似專業視頻編輯軟件的時間軸界面。用戶可以在時間軸上添加多個場景卡片。用戶可以將多個提示詞串聯起來，系統會自動處理場景之間的過渡效果。

openai2_副本.jpg

除此之外，OpenAI還提供了Remix、Blend和Loop三個專業工具。換掉視頻中的元素，或者混合兩個視頻，還能自動補全做無限循環視頻。

產品是挺不錯的，但沒升級過的模型不太給力。在發布后的評測中，Sora頻頻翻車，運動、交互和物理經常處理得一塌糊涂。還會有憑空出現的人和鬼影。

OpenAI 給的可用量也很小氣，20美元的Plus用戶每月可用50次。只有支付每月200美元的Pro用戶則能享受無限次數的"慢速"生成權限。

Sora總算來了，但是挺讓人失望的。

Canvas（Day4）

一句話形容，Canvas就是OpenAI 打造的AI版Google Docs。

因為Canvas已經進化成了集智能寫作、代碼協作和AI智能體為一體的一套完整工作臺。它顯示出了OpenAI超越Chatbot的產品野心。

作為寫作助手，可以提供編輯意見。

openai3_副本.jpg

編程功能上，Canvas則通過內置的WebAssembly Python模擬器，創造了一個幾乎無延遲的編程環境。它還展現出了理解代碼意圖的能力。

與近期更新的Cursor和Devin一樣，它上線了定制化AI智能體的能力。它可以完成一系列操作，幫你給朋友們發圣誕信。

openai4_副本.jpg

Canvas的這三個維度并不是孤立運作的。在實際使用中，它們往往會相互配合，這種無縫的集成使Canvas成了一個多功能AI驅動的創作工作室原型。

但單純從前端展示的角度看，它不如Claude 的 Artifacts。編程的便利性也不如Cursor。因此融合才是它的亮點吧。

02 一般產品更新

o1-mini強化微調（Day2）

這一產品如果不是實用性較窄，也算是一個重磅發布。

它改變了過去微調只是通過增加專業數據的邏輯，而是對具有推理能力的模型進行強化學習方向的微調。引導模型在面對復雜問題時有更深刻的思考能力。

現在，僅需“幾十個例子”甚至12個例子，就能夠讓模型有效學會特定領域的推理。根據OpenAI的研究數據，經過強化微調的o1mini模型，其測試通過率比傳統的o1模型高出24%，相比未經過強化微調的o1mini則提升了整整82%。

openai5_副本.jpg

可惜只能微調o1-mini，適用上也都是那些復雜領域任務，比如醫療、法律或金融和保險。泛用性較差。

高級視頻語音模式（Day6）

這又是個老餅上桌。5月13日，在GPT-4o的演示中，OpenAI的工作人員就能和4o視頻通話，可以看到我們實時的手機屏幕內容，或者根據相機里的實時畫面和我們聊天或解答問題。

openai6_副本.jpg

這次就是真正實裝了，沒有什么升級。但這個功能本身還是非常重要的。

不過因為這個餅烙的時間有點長，前兩天微軟推出的Vision和谷歌還在烙的Astra也已經跟上了。OpenAI的領先正在一點點被蠶食。

與蘋果的合作（Day5、Day11）

ChatGPT和Apple Intelligence的，更像是個官宣深度結果。蘋果搞不定的只能讓賢OpenAI了。

整合主要包含三個方面：首先是與Siri的協同。當Siri判斷某個任務可能需要ChatGPT的協助時，它可以將任務移交給ChatGPT處理；

openai7_副本.jpg

其次是寫作工具的增強，用戶現在可以使用ChatGPT從頭開始撰寫文檔，還能進行文檔細化和總結；

第三是iPhone 16的相機控制功能，它能夠通過視覺智能讓用戶更深入地了解拍攝對象。

后面第十一天的Mac整合，則是給了GPT更多Mac工具的調用權限。

我唯一不理解的就是這倆為什么不能同一天宣布，還非分兩天？

能力補齊和小功能更新（Day 7，8，9，10）

剩下的幾個更新最多只能算是湊數。簡單一句話就能說清。

“Projects”項目功能：它允許用戶創建特定項目，上傳相關文件，設置自定義指令，并將所有與該項目相關的對話集中在一個地方。基本和Claude的沒差別。

ChatGPT搜索升級：能在對話中搜索，支持多模態輸出。Perplexity的Pro模式早支持了。

4o熱點：美國用戶能打電話用4o了！挺尊老愛老的，我看也算是給他們過重陽了。

o1 圖像輸入和4o高級語音API正式開放：我建議這個放在o1發布當天最后一句話說完。

這幾天真的是有點進入拖時間的循環了。

03 最終王炸

GPT-o3（Day 12）

如果不是最后一天GPT-o3壓軸登場，我真的覺得OpenAI純粹是為了攪渾水才連開12天發布會。

因為在這期間，Google發布了Gemini 2 Flash，超快超強；Astra，看起來是真的Agent模樣；Voe2，碾壓Sora ；Gemini 2 Flash Thinking，o1人家也有了。就發了三篇公告幾個視頻，把OpenAI前11天的發布全都掀了桌。

但在Day 12，OpenAI還是找回了雄風。用o3向業界證明：Scaling Law未死，OpenAI為王。

o3 是 o1的下一個版本。在9月份o1發布后僅3個月后，這一新版本在編碼、數學以及 ARC-AGI 基準測試等多個基準上就大幅超過了 OpenAI 此前的 o1 模型。

看幾個數據對比：

Codeforces 評分：2727——相當于全球人類程序員編碼競賽中，排名第 175 位。超過99%的人類程序員。

博士水平的科學問題（GPQA）：87.7%——博士生一般得分70%

最難的前沿數學測試：25.2%——其他模型沒有超過2%，數學天才陶哲軒說該測試“可能難住AI好幾年”

證明是否達到AGI的題目ARC-AGI：87.5%——o1的得分25%

openai8_副本.jpg

最值得注意的就是這最后一項測試ARC-AGI，它展示的是模型新型任務適應能力。作為對比，之前ARC-AGI-1從2020年GPT-3的0%僅提升到2024年GPT-4o的5%。這意味著模型不是死記硬背，而是真正在解決問題的能力。

雖然ARC-AGI測試中表現出色，但這并不意味著o3已達到了AGI水平，因為它仍會在一些非常簡單的任務中失敗，和人類智能有根本性的差別。

openai9_副本.jpg

但不論如何，這都證明OpenAI選擇強化推理這個范式轉變成功了。人工智能的發展沒有任何放緩的跡象。Scaling Law依然有效。

那些對AI停滯不前的擔憂，被OpenAI年末的圣誕禮物一掃而空。

雖然o3進行一次低算力計算的成本高達20美元，高算力甚至可能高達3000美元，要使用在現階段幾乎是不可能的。但算力會降低，Scaling Law會延續。

3個月，兩個頂尖模型，OpenAI在這12天的最后一天又讓我們感受到了2022年末到2023年初從ChatGPT到GPT4那段時間AI撲面而來的速度。

也許正如之前參與開發了o1的 OpenAI科學家Noam Brown在采訪中說的一樣，“2024年，OpenAI是在實驗，而2025年就是全速前進的一年。”

OpenAI 12天的發布會，過程波折，完美收工。為2025年的AI埋下了希望。

標簽OpenAI ChatGPT Sora o3

上一篇：蘋果在與3家中國大模型公司談判，將人工智能整合到國行版iPhone中

下一篇：英偉達又出事了？

您暫未設置收款碼

請在主題配置——文章設置里上傳

掃描二維碼手機訪問

文章目錄

国内精品免费视频-国内精品视频成人一区二区-国内精品视频免费观看-国内精品视频在线播放一区-日本狠狠操-日本狠狠干

從工具到AGI，OpenAI 的12天進化論

谷歌 170 億收編 Windsurf，硅谷 AI 人才爭奪白熱化，99% 的錢流向 1% 的人

Manus 多平臺賬號清空，官網顯示“地區不可用”

Grok 4 發布會：用翻倍的分數，吹響了下一代AI戰爭的號角

谷歌智能體主管：芯片之外，中美 AI 拼的是能源

李飛飛最新對話：沒有空間智能，AGI 就不完整

華為、百度同日宣布最新開源動作

最近發表

熱門文章

AMD 發布新一代 AI芯片，推理性能提升35倍

標簽列表

您暫未設置收款碼

国内精品免费视频-国内精品视频成人一区二区-国内精品视频免费观看-国内精品视频在线播放一区-日本狠狠操-日本狠狠干

從工具到AGI，OpenAI 的12天進化論

谷歌 170 億收編 Windsurf，硅谷 AI 人才爭奪白熱化，99% 的錢流向 1% 的人

Manus 多平臺賬號清空，官網顯示“地區不可用”

Grok 4 發布會：用翻倍的分數，吹響了下一代AI戰爭的號角

谷歌 智能體 主管：芯片 之外，中美 AI 拼的是能源

李飛飛 最新對話：沒有 空間智能，AGI 就不完整

華為、百度 同日宣布最新開源動作

最近發表

熱門文章

AMD 發布新一代 AI芯片，推理性能提升35倍

標簽列表

您暫未設置收款碼

谷歌智能體主管：芯片之外，中美 AI 拼的是能源

李飛飛最新對話：沒有空間智能，AGI 就不完整

華為、百度同日宣布最新開源動作