国内精品免费视频-国内精品视频成人一区二区-国内精品视频免费观看-国内精品视频在线播放一区-日本狠狠操-日本狠狠干

OpenAI 新功能 “深度研究” 登場，人類終極考試的表現超過 DeepSeek R1

互聯網2025-02-03

北京時間2月3日上午，OpenAI正式推出面向深度研究領域的智能體產品深度研究（Deep research）功能。曾經一位經驗豐富的行業分析師需要花費數天甚至數周才能完成的專業研究報告，現在借助這項突破性功能，只需5-30分鐘就能完成。這個堪比"AI研究員"的功能，能夠自主分析復雜的專業信息，實時查找和綜合數百個在線資源，最終生成一份專業...

OpenAI 新功能 “深度研究” 登場，人類終極考試的表現超過 DeepSeek R1-第1張圖片.png

北京時間2月3日上午，OpenAI正式推出面向深度研究領域的智能體產品深度研究（Deep research）功能。

曾經一位經驗豐富的行業分析師需要花費數天甚至數周才能完成的專業研究報告，現在借助這項突破性功能，只需5-30分鐘就能完成。這個堪比"AI研究員"的功能，能夠自主分析復雜的專業信息，實時查找和綜合數百個在線資源，最終生成一份專業水準的完整報告。

OpenAI 新功能 “深度研究” 登場，人類終極考試的表現超過 DeepSeek R1-第2張圖片.jpg

這個強大功能由即將推出的OpenAI o3模型的特制版本提供支持，該版本經過專門優化，適配網頁瀏覽和數據分析場景。它能夠運用推理能力，在互聯網上搜索、解讀和分析海量的文本、圖像和PDF文件，并能根據所遇到的信息靈活調整研究方向。

值得注意的是，在對這個智能體的能力評測中，OpenAI特別對比了DeepSeekR1，稱在Humanity’s Last Exam（簡稱HLE）測試中，深度研究所使用的模型在專家級問題上達到了26.6%的準確率，刷新之前的18.2%的紀錄。

相比之下，DeepSeek的R1模型的準確率是9.4%。

這一測試由全球眾多領域專家共同開發，目的是評估人工智能在廣泛學科領域的表現，被視為衡量人工智能學術能力的前沿基準。該測試包含超過3000道多項選擇題和簡答題，涵蓋從語言學到火箭科學、從古典學到生態學等100多個學科領域。

由此也可以看出，DeepSeek確實讓OpenAI感覺到壓力不小。

綜合了OpenAI的深度研究介紹文檔及技術解讀直播，本文梳理了本次發布最值得關注的技術要點。

01 化身專業研究員，擅長尋找冷門信息并全網整合

深度研究功能專為金融、科學、政策、工程等領域的高強度知識工作者設計，此類人群需要全面、精準且可靠的調研成果。同時，它也適用于在購買汽車、家電、家具等需要謹慎研究的產品時，希望尋求高度個性化建議的消費者。

1、深度研究的輸出附有清晰的引用和對其思考過程的總結，便于用戶查閱和驗證信息。

2、它尤其擅長尋找冷門、非直觀信息，通過一次查詢即可幫助用戶卸載并加速復雜、耗時的網絡調研任務，從而節省時間。

3、深度研究能夠獨立從網絡上發現、推理并整合各類見解。它在訓練過程中采用了與OpenAI o1（OpenAI的首個推理模型）相同的強化學習方法，并針對瀏覽器和Python工具的使用進行了真實任務訓練。

雖然o1在編程、數學等技術領域表現出色，但許多現實挑戰需要從多樣化的在線資源中廣泛收集上下文信息。

深度研究在此基礎上進一步拓展了推理能力，彌合了這一差距，使其能夠應對人們在工作和日常生活中所面臨的各種問題。

在ChatGPT中，用戶可以選擇消息框中的“深度研究”選項并輸入問題。用戶可以向ChatGPT說明需求，也可以附件或電子表格，來增加問題的背景信息。一旦開始運行，側邊欄會顯示已采取的步驟和使用的來源的總結。

深度研究完成工作可能需要5到30分鐘，具體時間取決于任務的復雜性和所需的信息量。在此期間，用戶可以離開或從事其他任務——一旦研究完成，用戶將收到通知。最終輸出將以聊天中的報告形式呈現。

在未來幾周內，OpenAI還將在這類報告中增加嵌入式圖像、數據可視化和其他分析結果，以提供更多的清晰度和背景信息。

與深度研究相比，GPT-4o更適合實時、多模態的對話。

對于需要深入探索和詳細分析的多方面、特定領域的復雜問題，深度研究能夠進行廣泛的調研并為每個觀點提供引用，這與簡單的快速總結不同，它能夠提供一份經過充分記錄和驗證的詳細答案，可以直接作為工作成果使用。

02 端到端強化學習是重點，多模塊協同工作

深度研究是通過端到端強化學習，在多個領域中針對復雜的網絡瀏覽和推理任務進行訓練的。

通過這些訓練，它學會了如何規劃并執行多步驟的操作流程，以找到所需的數據，并在必要時進行回溯以及對實時信息做出反應。

該模型還能夠瀏覽用戶上傳的文件，利用Python工具繪制并迭代圖形，將其生成的圖形以及從網站獲取的圖像嵌入到回答中，并引用其來源中的具體句子或段落。

這種創新的學習方式打破了傳統機器學習需要人為劃分訓練階段的限制，使模型能夠像人類研究者一樣進行整體性的思考和決策。

在技術架構層面，Deep Research由四個協同工作的核心模塊構成，形成了一個完整的智能研究系統。

第一，是信息發現模塊，類似于系統的"探索者"。

它能夠敏銳地在學術數據庫、科研機構網站、專業論壇等多個平臺中定位有價值的信息。這個模塊不僅具備強大的檢索能力，還配備了先進的信息篩選機制，能夠基于關鍵詞、語義關聯、時效性和可信度等多維度標準，快速過濾出高質量的研究素材。

第二，是信息綜合模塊，扮演著"整合者"的角色。

它能夠將來自不同渠道的零散信息梳理成系統化的知識體系。無論是處理文字報告、分析數據圖表，還是理解專業圖片，這個模塊都能夠準確把握信息之間的邏輯關系，提煉出關鍵要點。

例如，在處理科技領域的研究任務時，它能夠將技術原理、應用案例和發展趨勢等多個維度的信息融會貫通，形成完整的技術分析報告。

第三，是推理模塊，賦予了系統類人的思考能力。

它運用邏輯推理和知識圖譜技術，對收集到的信息進行深度分析和推導。在面對復雜的科學問題時，推理模塊能夠基于已知事實進行嚴謹的論證；在進行市場分析時，它會綜合考慮歷史數據、市場動態和政策環境，做出合理的預測。更重要的是，這個模塊具備自我修正能力，能夠根據新發現的信息及時調整推理路徑。

第四，是輸出模塊，是系統的"表達者"，負責將研究成果轉化為專業的呈現形式。

它能夠根據用戶需求，生成格式規范的報告、論文或分析圖表。在這個過程中，系統會嚴格遵循學術規范，為每個結論提供準確的來源引用，確保研究成果的可靠性和專業性。

這幾個模型的協同工作，類似于一個多Agent的協同工作系統。Deep Research系統根據任務的復雜程度，可投入5-30分鐘甚至更長時間進行深入研究，并在側邊欄顯示出它的工作過程，用戶在這個過程中還可以跳出來做別的工作，等模型完成思考后，會收到推送的通知。這種機制的設計，讓產品的能力能發揮更好，且照顧到了用戶的體驗。

OpenAI 新功能 “深度研究” 登場，人類終極考試的表現超過 DeepSeek R1-第3張圖片.jpg