国内精品免费视频-国内精品视频成人一区二区-国内精品视频免费观看-国内精品视频在线播放一区-日本狠狠操-日本狠狠干

目錄

OpenAI 新功能 “深度研究” 登場,人類終極考試的表現超過 DeepSeek R1

互聯網2025-02-03
北京時間2月3日上午,OpenAI正式推出面向深度研究領域的智能體產品深度研究(Deep research)功能。曾經一位經驗豐富的行業分析師需要花費數天甚至數周才能完成的專業研究報告,現在借助這項突破性功能,只需5-30分鐘就能完成。這個堪比"AI研究員"的功能,能夠自主分析復雜的專業信息,實時查找和綜合數百個在線資源,最終生成一份專業...

OpenAI 新功能 “深度研究” 登場,人類終極考試的表現超過 DeepSeek R1-第1張圖片.png

北京時間2月3日上午,OpenAI正式推出面向深度研究領域的智能體產品深度研究(Deep research)功能。

曾經一位經驗豐富的行業分析師需要花費數天甚至數周才能完成的專業研究報告,現在借助這項突破性功能,只需5-30分鐘就能完成。這個堪比"AI研究員"的功能,能夠自主分析復雜的專業信息,實時查找和綜合數百個在線資源,最終生成一份專業水準的完整報告。

OpenAI 新功能 “深度研究” 登場,人類終極考試的表現超過 DeepSeek R1-第2張圖片.jpg

這個強大功能由即將推出的OpenAI o3模型的特制版本提供支持,該版本經過專門優化,適配網頁瀏覽和數據分析場景。它能夠運用推理能力,在互聯網上搜索、解讀和分析海量的文本、圖像和PDF文件,并能根據所遇到的信息靈活調整研究方向。

值得注意的是,在對這個智能體的能力評測中,OpenAI特別對比了DeepSeekR1,稱在Humanity’s Last Exam(簡稱HLE)測試中,深度研究所使用的模型在專家級問題上達到了26.6%的準確率,刷新之前的18.2%的紀錄。

相比之下,DeepSeek的R1模型的準確率是9.4%。

這一測試由全球眾多領域專家共同開發,目的是評估人工智能在廣泛學科領域的表現,被視為衡量人工智能學術能力的前沿基準。該測試包含超過3000道多項選擇題和簡答題,涵蓋從語言學到火箭科學、從古典學到生態學等100多個學科領域。

由此也可以看出,DeepSeek確實讓OpenAI感覺到壓力不小。

綜合了OpenAI的深度研究介紹文檔及技術解讀直播,本文梳理了本次發布最值得關注的技術要點。

01 化身專業研究員,擅長尋找冷門信息并全網整合

深度研究功能專為金融、科學、政策、工程等領域的高強度知識工作者設計,此類人群需要全面、精準且可靠的調研成果。同時,它也適用于在購買汽車、家電、家具等需要謹慎研究的產品時,希望尋求高度個性化建議的消費者。

1、深度研究的輸出附有清晰的引用和對其思考過程的總結,便于用戶查閱和驗證信息。

2、它尤其擅長尋找冷門、非直觀信息,通過一次查詢即可幫助用戶卸載并加速復雜、耗時的網絡調研任務,從而節省時間。

3、深度研究能夠獨立從網絡上發現、推理并整合各類見解。它在訓練過程中采用了與OpenAI o1(OpenAI的首個推理模型)相同的強化學習方法,并針對瀏覽器和Python工具的使用進行了真實任務訓練。

雖然o1在編程、數學等技術領域表現出色,但許多現實挑戰需要從多樣化的在線資源中廣泛收集上下文信息。

深度研究在此基礎上進一步拓展了推理能力,彌合了這一差距,使其能夠應對人們在工作和日常生活中所面臨的各種問題。

在ChatGPT中,用戶可以選擇消息框中的“深度研究”選項并輸入問題。用戶可以向ChatGPT說明需求,也可以附件或電子表格,來增加問題的背景信息。一旦開始運行,側邊欄會顯示已采取的步驟和使用的來源的總結。

深度研究完成工作可能需要5到30分鐘,具體時間取決于任務的復雜性和所需的信息量。在此期間,用戶可以離開或從事其他任務——一旦研究完成,用戶將收到通知。最終輸出將以聊天中的報告形式呈現。

在未來幾周內,OpenAI還將在這類報告中增加嵌入式圖像、數據可視化和其他分析結果,以提供更多的清晰度和背景信息。

與深度研究相比,GPT-4o更適合實時、多模態的對話。

對于需要深入探索和詳細分析的多方面、特定領域的復雜問題,深度研究能夠進行廣泛的調研并為每個觀點提供引用,這與簡單的快速總結不同,它能夠提供一份經過充分記錄和驗證的詳細答案,可以直接作為工作成果使用。

02 端到端強化學習是重點,多模塊協同工作

深度研究是通過端到端強化學習,在多個領域中針對復雜的網絡瀏覽和推理任務進行訓練的。

通過這些訓練,它學會了如何規劃并執行多步驟的操作流程,以找到所需的數據,并在必要時進行回溯以及對實時信息做出反應。

該模型還能夠瀏覽用戶上傳的文件,利用Python工具繪制并迭代圖形,將其生成的圖形以及從網站獲取的圖像嵌入到回答中,并引用其來源中的具體句子或段落。

這種創新的學習方式打破了傳統機器學習需要人為劃分訓練階段的限制,使模型能夠像人類研究者一樣進行整體性的思考和決策。

在技術架構層面,Deep Research由四個協同工作的核心模塊構成,形成了一個完整的智能研究系統。

第一,是信息發現模塊,類似于系統的"探索者"。

它能夠敏銳地在學術數據庫、科研機構網站、專業論壇等多個平臺中定位有價值的信息。這個模塊不僅具備強大的檢索能力,還配備了先進的信息篩選機制,能夠基于關鍵詞、語義關聯、時效性和可信度等多維度標準,快速過濾出高質量的研究素材。

第二,是信息綜合模塊,扮演著"整合者"的角色。

它能夠將來自不同渠道的零散信息梳理成系統化的知識體系。無論是處理文字報告、分析數據圖表,還是理解專業圖片,這個模塊都能夠準確把握信息之間的邏輯關系,提煉出關鍵要點。

例如,在處理科技領域的研究任務時,它能夠將技術原理、應用案例和發展趨勢等多個維度的信息融會貫通,形成完整的技術分析報告。

第三,是推理模塊,賦予了系統類人的思考能力。

它運用邏輯推理和知識圖譜技術,對收集到的信息進行深度分析和推導。在面對復雜的科學問題時,推理模塊能夠基于已知事實進行嚴謹的論證;在進行市場分析時,它會綜合考慮歷史數據、市場動態和政策環境,做出合理的預測。更重要的是,這個模塊具備自我修正能力,能夠根據新發現的信息及時調整推理路徑。

第四,是輸出模塊,是系統的"表達者",負責將研究成果轉化為專業的呈現形式。

它能夠根據用戶需求,生成格式規范的報告、論文或分析圖表。在這個過程中,系統會嚴格遵循學術規范,為每個結論提供準確的來源引用,確保研究成果的可靠性和專業性。

這幾個模型的協同工作,類似于一個多Agent的協同工作系統。Deep Research系統根據任務的復雜程度,可投入5-30分鐘甚至更長時間進行深入研究,并在側邊欄顯示出它的工作過程,用戶在這個過程中還可以跳出來做別的工作,等模型完成思考后,會收到推送的通知。這種機制的設計,讓產品的能力能發揮更好,且照顧到了用戶的體驗。

OpenAI 新功能 “深度研究” 登場,人類終極考試的表現超過 DeepSeek R1-第3張圖片.jpg

注:模型瀏覽得越多,對瀏覽內容思考得越深入,其表現就越好,這就是為什么給它思考時間很重要。

03 HLE測試達到了26.6%的準確率

在這樣的技術底層之上,深度研究在眾多針對現實問題的公開評估中達到了新的高度。

OpenAI 新功能 “深度研究” 登場,人類終極考試的表現超過 DeepSeek R1-第4張圖片.jpg

注:深度研究與各模型在人類最后的考試中的成績

值得注意的是,在Humanity’s Last Exam(簡稱HLE)測試中,深度研究所使用的模型在專家級問題上達到了26.6%的準確率,創下新高。

相比之下,DeepSeek的R1模型的準確率是9.4%。這一測試由全球眾多領域專家共同開發,目的是評估人工智能在廣泛學科領域的表現,被視為衡量人工智能學術能力的前沿基準。該測試包含超過3000道多項選擇題和簡答題,涵蓋從語言學到火箭科學、從古典學到生態學等100多個學科領域。

與OpenAI的o1模型相比,深度研究的模型在化學、人文社科和數學領域取得了顯著進步。它通過有效尋找專業信息,展現了類似人類的處理方式。

OpenAI 新功能 “深度研究” 登場,人類終極考試的表現超過 DeepSeek R1-第5張圖片.jpg

注:深度研究在GAIA基準測試中的成績

在GAIA基準測試中,深度研究所使用的模型達到了最前沿水平(State of the Art,SOTA),并登上了外部排行榜首位。

GAIA是一項公開的基準測試,專門用于評估人工智能在現實世界問題上的表現。該測試包含三個難度層級的問題,涵蓋廣泛的實際應用場景。成功完成這些任務需要具備推理能力、多模態交互能力、網絡瀏覽能力以及工具使用熟練度。

在對多個領域的專家級任務進行內部評估時,深度研究被領域專家評定為能夠自動化完成數小時復雜的、手工調查工作。

深度研究解鎖了諸多新的能力,但目前仍處于早期階段,存在一些局限性。根據內部評估,盡管其錯誤率顯著低于現有的ChatGPT模型,但深度研究仍可能在回答中生成虛假信息或做出錯誤推斷。

此外,它可能難以區分權威信息與謠言,并且在置信度校準方面存在不足,常常無法準確傳達不確定性。在發布初期,報告和引用可能會出現一些格式錯誤,且任務啟動可能需要更長時間。不過,OpenAI預計隨著更多使用和時間的推移,這些問題將迅速得到改善。

04 Pro用戶每月最多可用100次

深度研究在ChatGPT中的使用目前對計算資源的需求較高。查詢所需的研究時間越長,所需的推理計算量就越大。目前,OpenAI已推出針對Pro用戶的優化版本,每月最多支持100次查詢。

接下來,Plus和Team用戶將獲得訪問權限,隨后是企業用戶。目前,OpenAI仍在努力為英國、瑞士和歐洲經濟區的用戶提供訪問權限。

所有付費用戶將很快在深度研究的速率限制方面獲得顯著提升。OpenAI計劃在未來推出一個更快速、更具成本效益的版本,該版本由一個較小的模型驅動,但仍能提供高質量的結果。

在未來幾周和幾個月內,OpenAI將致力于技術基礎設施的完善,密切監控當前版本的表現,并進行更嚴格的測試。這符合OpenAI的迭代部署原則。如果所有安全檢查持續符合發布標準,預計將在大約一個月后向Plus用戶推出深度研究。

深度研究目前已在ChatGPT網頁版上線,并計劃在一個月內擴展到移動和桌面應用程序。目前,深度研究能夠訪問開放網絡以及用戶上傳的文件。未來,用戶將能夠連接到更多專業化的數據源,擴展其對訂閱制或內部資源的訪問權限,從而使其輸出更加豐富和個性化。

從更長遠來看,深度研究與Operator的結合將為用戶提供更強大的異步研究和現實世界執行能力。

深度研究能夠進行異步在線研究,而Operator能夠采取現實世界的行動,兩者的結合將使ChatGPT能夠執行越來越復雜的任務。


您暫未設置收款碼

請在主題配置——文章設置里上傳

掃描二維碼手機訪問

文章目錄