浭深http://www.yw28777.cn/Good Luck To You!- 蘋果 高管預測 iPhone 十年內可能被淘汰,Safari 有望引入 AI 服務http://www.yw28777.cn/2025/05/683/<p style="text-indent: 2em;">蘋果服務部門高級副總裁 Eddy Cue 最近在谷歌反壟斷案的聽證會上提出了一種大膽的設想:iPhone 可能在十年內被淘汰。</p><p style="text-indent: 0em; text-align: center;"><img class="ue-image" src="http://www.yw28777.cn/zb_users/upload/2025/05/202505091746788604816775.jpg" title="蘋果 高管預測 iPhone 十年內可能被淘汰,Safari 有望引入 AI 服務-第1張圖片.jpg" alt="蘋果 高管預測 iPhone 十年內可能被淘汰,Safari 有望引入 AI 服務-第1張圖片.jpg"/></p><p style="text-indent: 2em;">Cue 在聽證會上表示:“十年后,你可能不再需要 iPhone,這聽起來很瘋狂,但技術的變革就是這樣的。”他認為,技術迭代推動了競爭的產生,AI 是新一輪技術變革,它為新興公司和新產品創造了機會。</p><p style="text-indent: 2em;">這是蘋果高管首次在公開場合提到 iPhone 可能因 AI 技術而被取代的可能性。Cue 并未具體說明是什么設備會接替 iPhone 的位置,但他明確表示,蘋果需要對未來的技術和可能性保持開放態度。</p><p style="text-indent: 2em;">同時 Cue 也提到了蘋果歷史上成功的一次自我革命:用 iPhone 取代 iPod。蘋果于 2001 年推出了第一代 iPod,在 2019 年推出最后一款 iPod touch 后,最終于 2022 年正式停產。iPod touch 的功能與 iPhone 類似,但沒有通話功能,某種程度上也為 iPhone 的到來做了鋪墊。</p><p style="text-indent: 0em; text-align: center;"><img class="ue-image" src="http://www.yw28777.cn/zb_users/upload/2025/05/202505091746788618822542.jpg" title="蘋果 高管預測 iPhone 十年內可能被淘汰,Safari 有望引入 AI 服務-第2張圖片.jpg" alt="蘋果 高管預測 iPhone 十年內可能被淘汰,Safari 有望引入 AI 服務-第2張圖片.jpg"/></p><p style="text-indent: 2em;">不過 Cue 的言論只是一種前瞻的推測,因為目前 iPhone 仍是蘋果的核心產品,蘋果在未來幾年也準備了不少新東西:</p><p style="text-indent: 2em;">可折疊 iPhone:傳聞稱最快將在明年秋季發布。</p><p style="text-indent: 2em;">全面屏 iPhone:2027 年,iPhone 二十周年時,蘋果有望推出屏下前置攝像頭和 Face ID 的“真·全面屏”iPhone。</p><p style="text-indent: 2em;">除了 iPhone,蘋果其實也在一致探索能夠接替它的革命性產品,只是過程并不順利:多年造車計劃暫停、混合現實設備 Vision Pro 的市場表現低于預期。</p><p style="text-indent: 0em; text-align: center;"><img class="ue-image" src="http://www.yw28777.cn/zb_users/upload/2025/05/202505091746788632121405.jpg" title="蘋果 高管預測 iPhone 十年內可能被淘汰,Safari 有望引入 AI 服務-第3張圖片.jpg" alt="蘋果 高管預測 iPhone 十年內可能被淘汰,Safari 有望引入 AI 服務-第3張圖片.jpg"/></p><p style="text-indent: 2em;">從目前的消息來看,蘋果正在加大對機器人和可穿戴設備的投入,最終目標之一可能是推出一款真正能夠取代 iPhone 的增強現實眼鏡(傳聞中的 Apple Glasses),只是距離落地仍需數年時間。</p><p style="text-indent: 0em;"><strong>Safari 有望引入 AI 功能</strong></p><p style="text-indent: 2em;">Eddy Cue 最近的言論是在谷歌反壟斷案中發表的,他同時透露,隨著用戶逐漸轉向 AI 驅動的搜索服務,Safari 的搜索量在 2025 年 4 月首次出現下降。</p><p style="text-indent: 0em; text-align: center;"><img class="ue-image" src="http://www.yw28777.cn/zb_users/upload/2025/05/202505091746788656113311.jpg" title="蘋果 高管預測 iPhone 十年內可能被淘汰,Safari 有望引入 AI 服務-第4張圖片.jpg" alt="蘋果 高管預測 iPhone 十年內可能被淘汰,Safari 有望引入 AI 服務-第4張圖片.jpg"/></p><p style="text-indent: 2em;">他提到像 ChatGPT、Perplexity 和 Claude 等人工智能工具可能會取代傳統搜索引擎。為此,蘋果需要將 AI 搜索工具整合到 Safari 中。盡管這些 AI 工具可能不會成為默認選項,但它們很可能被加入到功能列表。</p><p style="text-indent: 2em;">此外,彭博社記者 Mark Gurman 同樣報道稱,蘋果正在考慮圍繞 AI 搜索服務重塑 Safari。</p><p style="text-indent: 2em;">蘋果即將在 6 月 10 日 WWDC25 介紹全新的 iOS 19 操作系統,說不定融入 AI 的 Safari 瀏覽器也將登場,大家可以拭目以待。</p><p><br/></p>Fri, 09 May 2025 19:02:21 +0800
- 忘記 Skype,記住 “愛沙尼?亞”http://www.yw28777.cn/2025/05/682/<p style="text-indent: 2em;"><span style="text-indent: 2em;">如今我們談到獨角獸公司,基本都會想到中國和美國這兩個市場。但在互聯網普及之初,歐洲是重要的創業熱土,而其中一個代表性國家的名字中國人可能比較陌生——愛沙尼?亞。</span><br/></p><p style="text-indent: 0em; text-align: center;"><span style="text-indent: 2em;"><img class="ue-image" src="http://www.yw28777.cn/zb_users/upload/2025/05/202505091746771757535298.jpg" title="忘記 Skype,記住“愛沙尼?亞”-第1張圖片.jpg" alt="忘記 Skype,記住“愛沙尼?亞”-第1張圖片.jpg"/></span></p><p style="text-indent: 2em;">愛沙尼亞在獨立之后,把互聯網和數字化作為國家支柱性產業,大力鼓勵相關創業,而這里也的確誕生了諸多“獨角獸”,并且形成了一個創業生態。其中的代表就是曾經風靡全球的Skype。這款誕生于2003年的即時通訊工具一度擁有超過10億的注冊用戶,并被硅谷巨頭高價追捧,但在過去十多年里又一步步式微。近期,其母公司微軟宣布Skype將在2025年5月25日正式停止運營。所以,Skype為什么誕生在愛沙尼亞?為什么在火遍全球后又失去了影響力,逐漸發展到停運的地步?它如何影響了歐洲和全世界?</p><p style="text-indent: 2em;">愛沙尼亞自從1991年脫離蘇聯后,就把發展互聯網放到了國家戰略的高度,推動了從上到下的數字化轉型。這一決策首先基于蘇聯時期的技術基礎,早在1960年蘇聯就設立了愛沙尼亞科學院控制論研究所,愛沙尼亞本土的兩所頂級高校也都有很強的數學、計算機科學實力。1996年愛沙尼亞發起了一個“虎躍計劃”,目標是從基礎教育開始普及互聯網:所有學校配備電腦、接入互聯網;所有老師都學習計算機基礎課程,學會利用互聯網備課,給學生上課都用電子課件。整個計劃很成功,愛沙尼亞的確培養了大量高水平的程序員和極客,而互聯網創業的氛圍也由此孕育,Skype正是其中的代表。</p><p style="text-indent: 0em; text-align: center;"><img class="ue-image" src="http://www.yw28777.cn/zb_users/upload/2025/05/202505091746772284629145.jpg" title="忘記 Skype,記住“愛沙尼?亞”-第2張圖片.jpg" alt="忘記 Skype,記住“愛沙尼?亞”-第2張圖片.jpg"/></p><p style="text-indent: 2em;">它的創始人是瑞典電信運營商Tele2的兩位員工,創始團隊有4位愛沙尼亞程序員。他們創業的核心技術是P2P(peer to peer,點對點網絡),這是一種分布式的網絡架構,也就是這個網絡的每個使用者同時都是數據的發布者和請求者,這樣就避免了數據集中通過單一服務器傳輸可能造成的故障和阻塞。打個比方,傳統的集中式網絡架構相當于所有人借書都需要去圖書館,如果圖書管理員不在,就沒法借書了;而P2P是所有人都可以互相借書和傳遞書訊。Skype的核心功能——網絡通話——就是通過P2P技術實現的,相比于當時主流的長途電話,它不僅流暢穩定,而且信息加密,更關鍵的是通過網絡傳輸,價格接近于零,這使得Skype在2003年上線之后,用戶迅速增長,到了2005年4月,下載量已經突破1億次。看上去,Skype會迅速崛起成為新的互聯網創業神話,但很快,它就被創始團隊賣掉了。</p><p style="text-indent: 2em;">2005年,當時發展迅速的eBay宣布以26億美元收購Skype這款產品及公司,這也是Skype此后一路坎坷的開始。創始團隊曾在采訪中解釋當時的決定:互聯網巨頭已經開始投入資源與Skype爭奪市場;Skype的創始團隊擅長從0到1,但不擅長從1到100;eBay給得太多了。</p><p style="text-indent: 2em;">從eBay的角度看,Skype當時增長迅猛,能夠作為獨立業務推動eBay的未來增長。而且他們認為Skype可以和旗下的另一個產品PayPal互相促進,吸引更多的付費用戶。但事后看,eBay的如意算盤不僅沒有打響,還在這筆交易里吃了大虧。首先,它預想的互相促進沒有實現,Skype和其他業務并沒有產生化學反應;其次,也是更關鍵的,eBay在購買Skype時,只買下了產品和用戶,但沒有買下Skype的核心技術——這個技術被創始團隊打包賣給了另一個公司Joltid,后者以技術授權的方式與Skype合作。換句話說,如果Joltid停止向Skype授權技術,Skype這個產品就會變成一個空?殼。</p><p style="text-indent: 2em;">而這個情況的確發生在eBay收購Skype后的第四年。2007年,金融危機來襲,eBay希望讓Skype上市以緩解壓力,創始團隊則聯合私募基金要求回購Skype,并且威脅其他潛在競購者自己會停止Joltid的技術授權。最終創始團隊和銀湖資本為首的財團以19億美元的價格獲得了65%的股權。又過了4年,微軟斥資85億美元收購Skype,私募基金和創始團隊獲得高額回?報。</p><p style="text-indent: 2em;">微軟之所以接盤Skype,一方面是因為不差錢,另一方面是因為它需要Skype來應對消費端和企業端的即時通訊軟件的競爭。當時,企業端的思科是傳統勁敵;消費端既有Google和蘋果這樣的巨頭,又有WhatsApp這樣快速崛起的創業公司,微軟需要一個強有力的產品讓自己在即時通訊領域保持存在感——到了2011年,Skype的月活用戶已經超過1.5億。</p><p style="text-indent: 2em;">但Skype在并入微軟這個更大的巨頭之后,再次出現水土不服。產品端最大的問題是移動端轉型不利。Skype的招牌功能是在電腦上免費打越洋電話,這個功能在移植到智能手機上時,Skype引以為傲的P2P技術卻遇到了麻煩,它要求Skype程序長期運行,但這會耗費大量電量和流量,而一旦手機系統阻止Skype的后臺進程,用戶就容易收不到來電或消息。</p><p style="text-indent: 2em;">為此,微軟決定用自己的云服務取代P2P架構,而這就動了Skype的根基。一方面,這個調整導致很多用戶在不同設備上收到相同的消息和通知,用戶體驗很差;更重要的是,很多用戶產生了隱私恐慌。與此同時,競爭對手的崛起也讓Skype感受到了實實在在的生存壓力,這其中包括Facebook收購的WhatsApp和微軟自己孵化的Teams。</p><p style="text-indent: 2em;">內憂外患下,Skype又出了一大昏招。2017年,它做了一次大改版,希望挽回頹勢,但這個改版直接把Skype推向深淵,改版后產品口碑一落千丈。借用科技媒體The Verge的報道標題就是:“好像所有人都討厭Skype的新版本”。因為微軟團隊幾乎在Skype上復刻了一個Snapchat,增加了大量社交平臺功能,然而老用戶只是想用Skype來打電話。</p><p style="text-indent: 2em;">一年后,微軟把Skype改回了原來的模樣,但為時已晚,大量用戶已經流失。到了2021年,微軟關停了專門針對企業客戶的Skype for Business,并用Teams取而代之。2023年,微軟最后分享了一次Skype的數據,其用戶數量只剩下3600余萬,Skype的結局幾乎已經確定。</p><p style="text-indent: 2em;">如今Skype即將停止服務,但它的遺產仍在發揮影響。Skype的創始成員及員工紛紛成為創業者,有媒體將他們稱為“Skype黑手黨”,這些人的公司正從方方面面影響著歐洲。兩位創始人中,Niklas Zennstr?m創辦了歐洲風投機構Atomico,投資了知名手游公司Supercell和Rovio,以及瑞典“支付寶”Klarna。Skype最早的幾位程序員中,Jaan Tallinn成了人工智能領域的重要投資者。</p><p style="text-indent: 2em;">回到Skype自身,由于創始團隊過早退出,這款產品在反復出售的過程中成了大公司的工具,喪失了自己的調性與更多可能性。商業就是這樣。</p><p><br/></p>Fri, 09 May 2025 14:21:37 +0800
- 谷歌 發布Gemini 2.5 Pro I/O,AI 編程模型 領域迎新王?http://www.yw28777.cn/2025/05/681/<p style="text-indent: 0em; text-align: center;"><img class="ue-image" src="http://www.yw28777.cn/zb_users/upload/2025/05/202505081746645525863109.jpg" title="谷歌 發布Gemini 2.5 Pro-第1張圖片.jpg" alt="谷歌 發布Gemini 2.5 Pro-第1張圖片.jpg"/></p><p style="text-indent: 2em;">美國當地時間周二,谷歌DeepMind人工智能研究團隊發布了Gemini 2.5 Pro “I/O” ,這是今年3月發布的多模態大語言模型Gemini 2.5 Pro的升級版本。</p><p style="text-indent: 2em;">DeepMind CEO德米斯·哈薩比斯表示,這是“我們有史以來構建的最強編程模型!”</p><p style="text-indent: 0em; text-align: center;"><img class="ue-image" src="http://www.yw28777.cn/zb_users/upload/2025/05/202505081746645537171953.jpg" title="谷歌 發布Gemini 2.5 Pro-第2張圖片.jpg" alt="谷歌 發布Gemini 2.5 Pro-第2張圖片.jpg"/></p><p style="text-indent: 2em;">從谷歌公布的初步基準測試結果來看,哈薩比斯并非夸大其詞。自從2022年底ChatGPT引爆生成式AI熱潮以來,谷歌首次在關鍵的代碼生成評估指標上全面領先,超越所有競爭對手。</p><p style="text-indent: 0em; text-align: center;"><strong><span style="font-size: 20px;">01 最強編程模型上線</span></strong></p><p style="text-indent: 2em;">新版本的模型編號為 “Gemini-2.5-pro-preview-05-06”,取代了此前的03-25版本。</p><p style="text-indent: 2em;">目前,該模型已向Google AI Studio的獨立開發者、Vertex AI云平臺的企業用戶以及Gemini應用的普通用戶開放。谷歌在博客中指出,該模型還為Gemini移動應用中的Canvas等功能提供支持。</p><p style="text-indent: 2em;">Gemini 2.5 Pro I/O已廣泛用于諸如Gemini 95等開發場景。例如,模型能夠自動匹配用戶界面組件的視覺風格。此外,它還支持一系列高效開發工作流,包括將YouTube視頻快速轉換為互動學習應用,或創建響應式視頻播放器、帶動畫的語音轉寫界面等復雜組件,幾乎無需手動編寫CSS。</p><p style="text-indent: 2em;">作為一款專有模型,企業用戶需通過谷歌的云服務平臺付費使用。不過,谷歌并未調整定價或速率限制:目前使用Gemini 2.5 Pro的用戶將自動切換至新模型,價格仍為每百萬輸入token收費1.25美元,每百萬輸出token收費10美元,最多支持20萬token的上下文窗口。</p><p style="text-indent: 2em;">相比之下,Anthropic的Claude 3.7 Sonnet定價為每百萬輸入token收費3美元,每百萬輸出token收費15美元。</p><p style="text-indent: 0em; text-align: center;"><img class="ue-image" src="http://www.yw28777.cn/zb_users/upload/2025/05/202505081746645561143687.jpg" title="谷歌 發布Gemini 2.5 Pro-第3張圖片.jpg" alt="谷歌 發布Gemini 2.5 Pro-第3張圖片.jpg"/></p><p style="text-indent: 2em;">Gemini API與Google AI Studio的高級產品經理洛根·基爾帕特里克(Logan Kilpatrick)在開發者博客中確認,此次更新重點提升了函數調用的準確率與觸發可靠性,有效解決了此前開發者普遍反饋的問題。</p><p style="text-indent: 0em; text-align: center;"><strong><span style="font-size: 20px;">02 單條文本提示即可生成完整應用</span></strong></p><p style="text-indent: 2em;">谷歌此次更新的一大亮點在于,只需通過一條提示即可構建完整、可交互的網頁應用或模擬程序,這正契合了DeepMind希望簡化原型設計與開發流程的愿景。</p><p style="text-indent: 2em;">谷歌表示,用戶可以輸入視覺模式或主題性提示,直接轉化為可運行的代碼,這顯著降低了設計導向型開發者或創新團隊的入門門檻。</p><p style="text-indent: 2em;">雖然谷歌尚未公開新版Gemini 2.5 Pro的底層架構及技術細節,但從實際應用效果來看,其核心目標仍是提供更加高效、直觀的開發體驗。</p><p style="text-indent: 2em;">憑借其在代碼生成與多模態輸入方面的優勢,Gemini 2.5 Pro不再僅是技術實驗室中的“研究模型”,而是正在成為應對真實開發挑戰的實用工具。此次提前發布也表明,DeepMind有意借此響應市場需求,在 I/O大會前持續保持技術領先勢頭。</p><p style="text-indent: 0em; text-align: center;"><strong><span style="font-size: 20px;">03 在人類評審的網頁應用生成任務中登頂</span></strong></p><p style="text-indent: 2em;">在第三方平臺WebDev Arena的排行榜中,Gemini 2.5 Pro Preview(05-06)在生成美觀且實用的網頁應用方面獲得了人類評審的最高分,超越Anthropic的Claude 3.7 Sonnet,登頂榜首。</p><p style="text-indent: 0em; text-align: center;"><img class="ue-image" src="http://www.yw28777.cn/zb_users/upload/2025/05/202505081746645602194884.jpg" title="谷歌 發布Gemini 2.5 Pro-第4張圖片.jpg" alt="谷歌 發布Gemini 2.5 Pro-第4張圖片.jpg"/></p><p style="text-indent: 2em;">谷歌新模型得分為1499.95,遠高于Sonnet 3.7的1377.10。此前版本的Gemini 2.5 Pro(03-25)位列第三,得分為1278.96,這意味著 I/O 版實現了221分的大幅躍升。</p><p style="text-indent: 2em;">正如AI資深用戶 “Lisan al Gaib” 在社交平臺上指出的那樣,即便是OpenAI最近推出的GPT-4o(“o3”)都未能擊敗Sonnet 3.7,可見Gemini 2.5 Pro I/O所取得的重大突破。</p><p style="text-indent: 2em;">Gemini的性能提升主要反映在生成內容的可靠性、美觀性與實用性等方面。</p><p style="text-indent: 0em; text-align: center;"><strong><span style="font-size: 20px;">04 獲得開發者廣泛好評</span></strong></p><p style="text-indent: 2em;">多個知名開發者與平臺負責人已對Gemini 2.5 Pro Preview(05-06在實際生產環境中的表現給予高度評價。</p><p style="text-indent: 2em;">Hyperbolic聯合創始人兼CTO Yuchen Jin寫道:“Gemini 2.5 Pro Preview(05-06)現已成為我的首選編程模型。在多個高難度提示詞測試中,它已超越o3(GPT-4o)和Claude 3.7 Sonnet。以編寫模擬水桶來回晃動的水體效果這個提示為例,其表現完全碾壓另外兩個模型。谷歌,這完全夠格稱為Gemini 3了!”</p><p style="text-indent: 0em; text-align: center;"><img class="ue-image" src="http://www.yw28777.cn/zb_users/upload/2025/05/202505081746645631141885.jpg" title="谷歌 發布Gemini 2.5 Pro-第5張圖片.jpg" alt="谷歌 發布Gemini 2.5 Pro-第5張圖片.jpg"/></p><p style="text-indent: 2em;">AI初創公司Cognition聯合創始人塞拉斯·阿爾貝蒂表示,Gemini 2.5 Pro是首個成功完成復雜后端路由系統重構的AI模型,展現出近似高級開發者的決策能力。</p><p style="text-indent: 2em;">AI編程工具Cursor的CEO邁克爾·特魯爾表示,內部測試顯示工具調用失敗率明顯下降,這是以往飽受詬病的問題。他認為用戶將在真實開發環境中明顯感受到新模型在實用性方面的提升。Cursor已將Gemini 2.5 Pro集成進其編程智能體中,顯示出開發者將其作為構建智能開發流程核心組件的趨勢。</p><p style="text-indent: 2em;">基于瀏覽器的云端協同開發平臺Replit總裁米歇爾·卡塔斯塔稱,Gemini 2.5 Pro是“在性能與響應延遲之間取得最佳平衡的前沿模型”。他的評價暗示,Replit正考慮將其整合進自身工具中,尤其適用于對響應速度與穩定性要求較高的任務。</p><p style="text-indent: 2em;">AI教育工作者、BlueShell私有AI聊天機器人創始人保羅·庫弗特表示:“Gemini 2.5 Pro在代碼和界面生成方面的能力令人印象深刻。”</p><p style="text-indent: 0em; text-align: center;"><img class="ue-image" src="http://www.yw28777.cn/zb_users/upload/2025/05/202505081746645643148629.jpg" title="谷歌 發布Gemini 2.5 Pro-第6張圖片.jpg" alt="谷歌 發布Gemini 2.5 Pro-第6張圖片.jpg"/></p><p style="text-indent: 2em;">AI藝術工具EverArt首席執行官彼得羅·斯基拉諾指出,新版Gemini 2.5 Pro I/O能夠通過一個提示就生成互動模擬游戲,完美還原了“1只大猩猩大戰100人”的社交媒體梗。</p><p style="text-indent: 0em; text-align: center;"><img class="ue-image" src="http://www.yw28777.cn/zb_users/upload/2025/05/202505081746645656678035.jpg" title="谷歌 發布Gemini 2.5 Pro-第7張圖片.jpg" alt="谷歌 發布Gemini 2.5 Pro-第7張圖片.jpg"/></p><p style="text-indent: 2em;">X用戶“RameshR”(@rezmeram)展示了該模型在不到一分鐘內生成的一款互動式俄羅斯方塊風格拼圖游戲,并配有真實音效,他在帖文中寫道:“休閑游戲行業要完蛋了!!”</p><p style="text-indent: 2em;">這些贊譽從不同維度驗證了Gemini 2.5 Pro的實用性提升,也預示著其將在更多開發平臺中獲得廣泛采納。</p><p><br/></p>Thu, 08 May 2025 03:17:07 +0800
- 梁文鋒 和 楊植麟 再“撞車”http://www.yw28777.cn/2025/05/680/<p style="text-indent: 2em;">繼2月論文“撞車”之后,梁文鋒和楊植麟又在另一個大模型賽道上相遇了。</p><p style="text-indent: 2em;">4月30日,DeepSeek上線新模型DeepSeek-Prover-V2,這是一個數學定理證明專用模型。</p><p style="text-indent: 2em;">Prover-V2的參數規模進一步擴展到671B(6710億規模參數),相較于前一代V1.5版本的7B規模增加了近百倍,這讓其在數學測試集上的效率和正確率更高,比如,該模型的miniF2F測試通過率達到88.9%,它還解決了PutnamBench(普特南測試)的49道題。</p><p style="text-indent: 2em;">巧合的是,4月中旬,月之暗面也曾推出一款用于形式化定理證明的大模型Kimina-Prover,這是Kimi團隊和Numina共同研發的大模型,該產品也開源了1.5B和7B參數的模型蒸餾版本。該模型的miniF2F測試通過率為80.7%,PutnamBench測試成績為10道題。</p><p style="text-indent: 2em;">兩者相比較,在miniF2F測試通過率以及普特南測試上,DeepSeek-Prover-V2的表現超過了Kimina-Prover預覽版。</p><p style="text-indent: 2em;">值得注意的是,兩家公司在技術報告中都提到了強化學習。比如DeepSeek的題目為《DeepSeek-Prover-V2:通過子目標分解的強化學習推進形式數學推理》,而月之暗面的題目為《Kimina-Prover Preview:基于強化學習技術的大型形式推理模型》。</p><p style="text-indent: 2em;">在2月的兩篇“撞車”論文中,梁文鋒和楊植麟都在作者行列,兩家公司都關注Transformer架構最核心的注意力機制,即如何讓模型更好地處理長上下文。</p><p style="text-indent: 2em;">作為中國大模型領域最受矚目的創業者,兩人也正在面臨不同的挑戰。</p><p style="text-indent: 2em;">對于梁文鋒而言,在R1模型推出三個多月后,外界對DeepSeek“魔法”的癡迷程度正在下降,阿里巴巴的開源模型正在迅速趕上以及超過DeepSeek,外界熱切期待其發布R2或V4模型,以加強領先優勢。</p><p style="text-indent: 2em;">對于楊植麟和月之暗面,Kimi正在遭受來自字節跳動的豆包和騰訊元寶的挑戰,它也需要保持持續創新。</p><p style="text-indent: 0em; text-align: center;"><strong><span style="font-size: 20px;">01 編程與數學,實現AGI的兩條路徑</span></strong></p><p style="text-indent: 2em;">對于AGI的實現路徑,2024年,DeepSeek創始人梁文鋒在接受《暗涌》采訪時曾說,他們確實押注了三個方向:一是數學和代碼、二是多模態、三是自然語言本身。數學和代碼是AGI天然的試驗場,有點像圍棋,是一個封閉的、可驗證的系統,有可能通過自我學習就能實現很高的智能。另一方面,多模態需要參與到人類真實世界里學習。他們對一切可能性都保持開放。</p><p style="text-indent: 2em;">此次Prover-V2模型的推出,讓DeepSeek的各個模型矩陣保持了同步進化。</p><p style="text-indent: 2em;">Prover系列模型于2024年3月開始被發布,2024年8月被更新為DeepSeek-Prover-V1.5(后簡稱為Prover-V1.5),2025年4月再被更新至DeepSeek-Prover-V2。</p><p style="text-indent: 2em;">DeepSeek代碼系列模型Coder從2024年4月開始更新,6月升級為Coder-V2-0614,7月再次升級,9月,DeepSeek-V2-Chat和DeepSeek-Coder-V2合并,升級后的新模型為DeepSeek-V2.5,2024年12月,該模型更新至V3,今年3月,升級至V3-0324。</p><p style="text-indent: 0em; text-align: center;"><img class="ue-image" src="http://www.yw28777.cn/zb_users/upload/2025/05/202505061746469397119413.jpg" title="梁文鋒 和 楊植麟 再“撞車”-第1張圖片.jpg" alt="梁文鋒 和 楊植麟 再“撞車”-第1張圖片.jpg"/></p><p style="text-indent: 2em;">通用推理大模型,以1月20日發布的R1模型為代表,價格低廉,自然語言推理性能強勁,在數學、代碼、自然語言推理等任務上,性能比肩OpenAI o1正式版。</p><p style="text-indent: 2em;">從Prover-V2的技術報告上看,其與DeepSeek的其他模型進化有關聯,其中,DeepSeek-Prover-V2-671B是以DeepSeek-V3作為基礎模型來做微調,如在冷啟動階段,DeepSeek-V3將復雜問題分解為一系列子目標,而后,已解決子目標的證明被合成到一個思維過程鏈中,結合DeepSeek-V3的逐步推理,為強化學習創建一個初始冷啟動。</p><p style="text-indent: 2em;">算法工程師、知乎用戶“小小將”告訴記者,推理模型在進行推理時,要進行復雜的思考,代碼與數學模型可以檢驗推理大模型能力進展,因為數學與代碼的結果是可驗證的。</p><p style="text-indent: 2em;">他認為,Prover-V2的推出與新模型R2或V4的上線沒有必然聯系,它更像是一個獨立模型的更新。</p><p style="text-indent: 2em;">他預測,R2模型更像是GPT-o1到o3的過程,比如在提高強化學習的能力方面,DeepSeek可以基于V3,提升后訓練效果,因此R2的研發周期可能會比較短。但V4就是一個大版本的更新,其研發周期有可能更長,因為預訓練的工程量以及訓練方法可能都會發生變化。</p><p style="text-indent: 2em;">目前市場已經對DeepSeek的新模型充滿了想象和期待。</p><p style="text-indent: 2em;">市場上傳言,R2模型將基于華為昇騰系列GPU芯片而推出,但一位行業人士說,這個消息不太可靠,在英偉達H20芯片被限之后,昇騰系列芯片在市場上也是一卡難求,“對于昇騰來說,如果用于大模型研發,可能魯棒性沒那么強”。</p><p style="text-indent: 2em;">另有創業公司相關人士告訴記者,華為昇騰芯片用于大模型的訓練,效果一般,原因在于生態系統沒那么完善,但用于大模型的推理與部署,是沒有問題的。</p><p style="text-indent: 0em; text-align: center;"><span style="font-size: 20px;"><strong>02 DeepSeek與Kimi還能保持領先嗎?</strong></span></p><p style="text-indent: 2em;">DeepSeek與月之暗面作為明星初創公司,正在遭受大公司的追趕和超越。</p><p style="text-indent: 2em;">以月之暗面旗下的Kimi為例,據QuestMobile數據,Kimi上線不足1年,在2024年11月,月活突破2000萬,僅次于豆包的5600萬。</p><p style="text-indent: 2em;">QuestMobile數據顯示,截至2025年2月底,AI原生APP月活規模前三名從豆包、Kimi、文小言更迭為DeepSeek、豆包、騰訊元寶,規模分別是1.94億、1.16億、0.42億。</p><p style="text-indent: 2em;">2月中旬,騰訊元寶宣布接入DeepSeek,隨后,在一個多月時間內,騰訊元寶利用超級產品微信引流加上瘋狂買量投流,在用戶數量上已經超過了Kimi,成為排名第三的AI產品。據AppGrowing數據,在今年一季度,騰訊元寶的投流費用為14億元,遠遠超過Kimi的1.5億元規模。</p><p style="text-indent: 0em; text-align: center;"><img class="ue-image" src="http://www.yw28777.cn/zb_users/upload/2025/05/202505061746469410846594.jpg" title="梁文鋒 和 楊植麟 再“撞車”-第2張圖片.jpg" alt="梁文鋒 和 楊植麟 再“撞車”-第2張圖片.jpg"/></p><p style="text-indent: 2em;">目前,Kimi最新的舉動是內測社區功能,增加用戶粘性。</p><p style="text-indent: 2em;">DeepSeek同樣也避免不了被大公司追趕甚至超越的挑戰。近期,阿里巴巴在大模型方面展現出了強勁的競爭力。</p><p style="text-indent: 2em;">4月29日,阿里巴巴發布新一代通義千問模型Qwen3,該模型被稱作首個“混合推理模型”,是“快思考”和“慢思考”集成的一個模型,參數量僅為DeepSeek-R1的1/3,性能全面超越R1、OpenAI o1等同行產品。</p><p style="text-indent: 2em;">此前,蔡崇信評價DeepSeek,它告訴了我們開源的價值。根據公開數據,阿里通義已開源200余個模型,全球下載量超3億次,千問衍生模型數超10萬個,已超越美國Llama,成為全球第一開源模型。</p><p style="text-indent: 2em;">一位AI創業者告訴記者,DeepSeek受到了過多的關注,被賦予過多光環,中國大模型產業需要兩三個世界領先的大模型,而不是一個,這時候應鼓勵這個領域的競爭和創業。</p><p style="text-indent: 2em;">另一個重要玩家是百度。4月25日,百度發布文心4.5 Turbo和深度思考模型X1 Turbo,這兩款模型性能更強大,成本更低,李彥宏更是數次提到DeepSeek,他說,DeepSeek也不是萬能的,它只能處理單一的文本,還不能理解聲音、圖片、視頻等多媒體內容,同時幻覺率比較高,很多場合不能放心使用。</p><p style="text-indent: 2em;">“DeepSeek最大的問題是慢和貴,中國市場上絕大多數大模型API的價格都更低,而且反應速度更快。”李彥宏在發布會上說。</p><p style="text-indent: 2em;">盡管如此,百度仍決定學習DeepSeek,今年2月,百度決定在6月30日開源文心大模型4.5系列。</p><p style="text-indent: 2em;">越來越多的玩家參與大模型開源競賽,但只有技術最先進的玩家才能定義標準。</p><p><br/></p>Tue, 06 May 2025 02:21:53 +0800
- 小米汽車 將 智駕 更名為 輔助駕駛http://www.yw28777.cn/2025/05/679/<p style="text-indent: 0em; text-align: center;"><img class="ue-image" src="http://www.yw28777.cn/zb_users/upload/2025/05/202505061746468374947585.jpg" title="小米汽車 將 智駕 更名為 輔助駕駛.jpg" alt="小米汽車 將 智駕 更名為 輔助駕駛.jpg"/></p><p style="text-indent: 2em;">隨著智駕行業的監管不斷加強,備受關注的小米汽車已經悄然作出改變。</p><p style="text-indent: 2em;">5月4日,小米調整了SU7新車定購頁面中的措辭,將“智駕”更名為“輔助駕駛”。具體來看,小米SU7標準版搭載的Xiaomi Pilot Pro由“小米智駕Pro”更名為“小米輔助駕駛Pro”;小米SU7 Pro、小米SU7 Max搭載的Xiaomi HAD由“小米智駕Max”更名為“小米端到端輔助駕駛”。</p><p style="text-indent: 2em;">小米汽車官網介紹稱,端到端輔助駕駛可實現從車位到車位的輔助駕駛,上車僅需設置導航,ETC/閘機輔助通行,窄路/環島通行、停車場尋位泊車等都可以請輔助駕駛來完成。</p><p style="text-indent: 2em;">4月16日,工信部裝備工業一司組織召開了智能網聯汽車產品準入及軟件在線升級管理工作推進會,強調車企要“明確系統功能邊界和安全響應措施,不得進行夸大和虛假宣傳。”</p><p style="text-indent: 2em;">據了解,當日的推進會圍繞測試、宣傳、功能安全等維度提出多項要求,具體包括規范宣傳,不要擴大宣傳規范技術名詞,不能出現“自動駕駛”“自主駕駛”“智駕”“高階智駕”等名詞,要按照自動化分級標準,使用“(組合)輔助駕駛”一詞等內容。</p><p style="text-indent: 2em;">此后4月21日,中國汽車工業協會也發出關于規范駕駛輔助宣傳與應用的倡議書,呼吁企業規范營銷宣傳行為。企業應嚴格依據《汽車駕駛自動化分級》(GB/T 40429—2021),杜絕虛假宣傳與過度營銷,避免使用模糊或誤導性表述,確保功能命名科學嚴謹,防止駕駛員誤用、濫用風險。對已發布的失實信息應及時澄清并整改,主動承擔企業主體責任和社會責任。</p><p style="text-indent: 2em;">在車企中,華為乾崑智能汽車解決方案BU在4月27日聯合廣汽、上汽、江汽、奧迪、東風猛士、嵐圖、深藍汽車、北汽、阿維塔、賽力斯、奇瑞汽車及中汽中心,共同發布智能輔助駕駛安全倡議,其中提到營銷透明,倡議全行業實事求是地宣傳,明確智能輔助駕駛的功能邊界和使用條件,讓用戶清晰地知道和理解各自車型的真實能力。</p><p><br/></p>Tue, 06 May 2025 02:05:34 +0800
- 英偉達 正設計新特供版AI芯片?http://www.yw28777.cn/2025/05/678/<p style="text-indent: 0em; text-align: center;"><img class="ue-image" src="http://www.yw28777.cn/zb_users/upload/2025/05/202505041746370959154160.jpg" title="英偉達 正設計新特供版AI芯片.jpg" alt="英偉達 正設計新特供版AI芯片.jpg"/></p><p style="text-indent: 2em;">據悉,在針對中國市場的H20芯片遭美國政府禁售后,美國芯片大廠英偉達正加緊開發另一款符合美國出口規定的人工智能(AI)芯片,以繼續保住其在中國的市場份額。</p><p style="text-indent: 2em;">據美媒報道,英偉達已向中國三家企業通報,正調整AI芯片設計,尋求在不觸犯美國出口管制的前提下,繼續向中國供應產品。</p><p style="text-indent: 2em;">報道指出,英偉達首席執行官黃仁勛是在4月中旬訪問北京期間,向客戶透露上述計劃的。報道還說,新款芯片的樣品預計最快將在6月交付測試,該公司也同步研發其最新一代AI芯片Blackwell的“中國專屬版本”。</p><p style="text-indent: 2em;">就在黃仁勛訪問北京前不久,英偉達4月16日在一份事務數據中透露,已接獲美國政府通知,未來將“無限期”禁止向中國等特定國家出口H20芯片,英偉達為此預估將面臨55億美元的潛在損失。</p><p><br/></p>Sun, 04 May 2025 23:02:02 +0800
- 蘋果 新廣告片演示 AI 功能,國行 iPhone 離 Apple Intelligence 有多遠?http://www.yw28777.cn/2025/05/677/<p style="text-indent: 2em;">蘋果去年推出了 Apple Intelligence,一系列 AI 驅動的新功能,盡管個性化 Siri 等功能推遲發布,以及面向國行 iPhone 的 Apple 智能尚未上線,但對于已經支持的地區,目前究竟有哪些 AI 功能可以在 iPhone 上使用到呢?</p><p style="text-indent: 0em; text-align: center;"><img class="ue-image" src="http://www.yw28777.cn/zb_users/upload/2025/05/202505041746370372181652.jpg" title="蘋果 新廣告片演示 AI 功能,國行 iPhone 離 Apple Intelligence 有多遠?-第1張圖片.jpg" alt="蘋果 新廣告片演示 AI 功能,國行 iPhone 離 Apple Intelligence 有多遠?-第1張圖片.jpg"/></p><p style="text-indent: 2em;">近日,蘋果在其 YouTube 頻道發布了一段全新視頻,以“上手體驗”的形式,詳細介紹了 Apple Intelligence 的幾大亮點功能:</p><p style="text-indent: 2em;"><strong>照片清理(Photo Clean Up)</strong>:通過智能算法,用戶可輕松移除照片中的雜物或干擾元素,讓畫面更干凈、專注。</p><p style="text-indent: 2em;"><strong>創意表情(Genmoji)</strong>:用戶可以根據自己的想象,快速生成獨一無二的個性化表情符號,為溝通增添趣味。</p><p style="text-indent: 2em;"><strong>圖像生成(Image Playground)</strong>:只需幾秒鐘,用戶即可通過文字描述生成定制化的圖像,釋放無限創意。</p><p style="text-indent: 2em;"><strong>郵件摘要(Mail Summarize)</strong>:面對冗長的郵件,系統能自動提煉核心內容,幫助用戶快速把握重點。</p><p style="text-indent: 2em;"><strong>寫作助手(Writing Tools)</strong>:無論是調整文本語氣,還是將零散的想法整理成完整計劃,寫作助手都能提供智能支持,甚至結合 ChatGPT 實現更高效的創作。</p><p style="text-indent: 2em;"><strong>視覺智能(Visual Intelligence)</strong>:通過設備攝像頭,用戶可識別周圍的地點、物體或文字,獲取即時信息。結合 ChatGPT 的問答功能,這一工具還能為用戶提供靈感與解答。</p><p style="text-indent: 2em;">視頻通過生動的場景演示,讓用戶直觀感受到 Apple Intelligence 如何融入日常生活,簡化操作、激發創意。</p><p style="text-indent: 2em;">這并非蘋果近期唯一一次為 Apple Intelligence 造勢。上個月,蘋果曾發布一支廣告,專門聚焦照片清理功能,強調其在提升用戶體驗上的獨特價值。</p><p style="text-indent: 2em;">雖然現有功能已經足夠吸引眼球,但國內 iPhone 用戶期待的 Apple 智能仍未公布具體的上線時間。</p><p style="text-indent: 0em; text-align: center;"><img class="ue-image" src="http://www.yw28777.cn/zb_users/upload/2025/05/202505041746370430378404.jpg" title="蘋果 新廣告片演示 AI 功能,國行 iPhone 離 Apple Intelligence 有多遠?-第2張圖片.jpg" alt="蘋果 新廣告片演示 AI 功能,國行 iPhone 離 Apple Intelligence 有多遠?-第2張圖片.jpg"/></p><p style="text-indent: 2em;">根據早先的消息,蘋果最快會在五月份(iOS 18.5 版本)推出這一功能。然而從目前的 iOS 18.5 Beta 測試版來看,這項功能并未開啟測試。最近有消息指出,蘋果可能將 iOS 18.6 作為國內上線 AI 功能的“備選版本”。</p><p style="text-indent: 0em; text-align: center;"><img class="ue-image" src="http://www.yw28777.cn/zb_users/upload/2025/05/202505041746370448109681.jpg" title="蘋果 新廣告片演示 AI 功能,國行 iPhone 離 Apple Intelligence 有多遠?-第3張圖片.jpg" alt="蘋果 新廣告片演示 AI 功能,國行 iPhone 離 Apple Intelligence 有多遠?-第3張圖片.jpg"/></p><p style="text-indent: 2em;">如果蘋果 AI 功能未能在 iOS 18.5 推出,極有可能會選擇在 6 月 10 日凌晨的 WWDC25 主題演講中公布具體的上線時間。而且這項功能大概率不會推遲到 iOS 19。</p><p style="text-indent: 2em;">對于國行 iPhone 15 Pro 以及 iPhone 16 系列用戶來說,Apple 智能的到來或許已經近在眼前!</p><p><br/></p>Sun, 04 May 2025 22:52:09 +0800
- 黃仁勛 加薪了,十年來首次!http://www.yw28777.cn/2025/05/676/<p style="text-indent: 0em; text-align: center;"><img class="ue-image" src="http://www.yw28777.cn/zb_users/upload/2025/05/202505021746175970827916.jpg" title="黃仁勛 加薪了,十年來首次!.jpg" alt="黃仁勛 加薪了,十年來首次!.jpg"/></p><p style="text-indent: 2em;">根據英偉達于當地時間5月1日遞交給美國證交所(SEC)的一份新文件,英偉達 CEO黃仁勛十年來首次加薪了。2025年,黃仁勛的薪酬將增至4990萬美元。</p><p style="text-indent: 2em;">截至5月1日,黃仁勛以979億美元的個人凈資產在彭博富豪榜上位列17。</p><p style="text-indent: 2em;">自2022年年底至去年年底,英偉達股價上漲超過9倍。黃仁勛持有該公司約3.5%的股份,價值約940億美元。</p><p style="text-indent: 2em;">但這是黃仁勛十年來首次加薪。他的薪酬和浮動現金均上漲了約50%。2025年,黃仁勛的基本工資將增至150萬美元,較2024年增長49%。他的浮動現金也比2024年增加了100萬美元,增幅為50%。股票獎勵增至3880萬美元,總薪酬達到4990萬美元。</p><p style="text-indent: 2em;">英偉達薪酬委員會在文件中稱,考慮到內部薪酬與其他高管基本工資的公平性,黃仁勛的加薪是合理的,并且這是黃仁勛基本工資十年來首次增長。</p><p style="text-indent: 2em;">文件還顯示,黃仁勛2025年的安保成本也上漲了。該公司在文件中稱,黃仁勛2025年的薪酬還包括350萬美元的住宅安保和咨詢費以及司機服務費,高于去年的220萬美元。</p><p style="text-indent: 2em;">人工智能過去幾年推動了英偉達業績的蓬勃發展。英偉達也成為了全球最有價值的公司之一,還曾登上了美股市值榜榜首。但近期受到多重因素的影響,英偉達市值較去年的高位蒸發了近1萬億美元。截至5月1日美股收盤,英偉達最新市值約2.7萬億美元。</p><p style="text-indent: 2em;">今年2月,英偉達公布2025財年營收增長114%,達1305億美元。該公司將于5月28日公布新一季度財報。</p><p><br/></p>Fri, 02 May 2025 16:50:54 +0800
- DeepSeek 公布 Prover-V2 技術報告,專為數學AI編程語言打造,定理證明達到業內最佳http://www.yw28777.cn/2025/05/675/<p style="text-indent: 0em; text-align: center;"><img class="ue-image" src="http://www.yw28777.cn/zb_users/upload/2025/05/202505011746099178595329.jpg" title="DeepSeek 公布 Prover-V2 技術報告-第1張圖片.jpg" alt="DeepSeek 公布 Prover-V2 技術報告-第1張圖片.jpg"/></p><p style="text-indent: 2em;">繼昨日放出新開源模型 Prover V2 之后,DeepSeek 在今天又公布了它的技術報告。</p><p style="text-indent: 2em;">這份報告長達 34 頁,披露了更多該模型的重要技術細節和基準測試表現,讓我們有機會進一步了解它的創新之處。</p><p style="text-indent: 2em;">DeepSeek Prover V2 系列模型有兩個尺寸:7B 和 671B 參數。</p><p style="text-indent: 2em;">DeepSeek-Prover-V2-671B 在 DeepSeek-V3-Base 基礎上進行訓練,推理性能更強。</p><p style="text-indent: 2em;">DeepSeek-Prover-V2-7B 則基于 DeepSeek-Prover-V1.5-Base 構建,上下文長度得到了擴展,最高可達 32K token。</p><p style="text-indent: 2em;">其中,DeepSeek-Prover-V2-671B 在神經定理證明(neural theorem proving)領域超越了之前的模型:MiniF2F 測試集在 Pass@32 下達到了 82.4% 的準確率。</p><p style="text-align: center; text-indent: 0em;"><img class="ue-image" src="http://www.yw28777.cn/zb_users/upload/2025/05/202505011746099050158688.jpg" title="DeepSeek 公布 Prover-V2 技術報告-第2張圖片.jpg" alt="DeepSeek 公布 Prover-V2 技術報告-第2張圖片.jpg"/></p><p style="text-indent: 0em; text-align: center;"><span style="font-size: 12px;">DeepSeek-Prover-V2 系列模型的基準測試成績(來源:DeepSeek)</span></p><p style="text-indent: 2em;">兩個模型都已經開源,可以在開源社區 Hugging Face 上找到。技術論文則是在 GitHub 上。</p><p style="text-indent: 2em;">據論文介紹,DeepSeek Prover V2 是一個專為 Lean 4 形式定理證明設計的開源大型語言模型。其最大創新點在于,能將非形式化的數學推理能力與嚴格的形式化證明過程結合在一起,實現了兩種思維模式的有效融合。</p><p style="text-indent: 2em;">你可以想象一下,當我們要解決一道數學題時,腦海中往往先有一個大致的思路,然后再一步步填充細節。這種從整體到局部、從思路到步驟的過程,對人類來說很自然,但對AI卻是一項艱巨的挑戰。</p><p style="text-indent: 2em;">在 AI 發展歷程中,GPT 和 Claude 等大語言模型(LLM,Large Language Model)已經展示出令人印象深刻的數學問題求解能力。它們能夠通過“思維鏈”(CoT,Chain-of-Thought)方法,像人類一樣逐步思考問題,甚至能解決一些競賽級別的難題。</p><p style="text-indent: 2em;">然而,在更為嚴格的數學領域——形式化定理證明方面,AI 的表現卻相對遜色。</p><p style="text-indent: 2em;">原因在于兩種思維模式的本質差異:自然語言推理是靈活的、啟發式的,允許一定程度的模糊性和跳躍性思維;而形式化證明則要求百分百的精確性和嚴謹性,每一個推理步驟都必須經過嚴格驗證,不允許任何隱含假設和細節省略。</p><p style="text-indent: 2em;">就像兩種不同的語言,雖然表達的是同一個數學世界,但規則和要求卻大相徑庭。</p><p style="text-indent: 2em;">為了解決這一挑戰,DeepSeek-Prover-V2 采用了一種創新的“遞歸定理證明流程”,這一流程的靈感源自人類數學家解決復雜問題的方法——將困難問題分解為一系列更容易解決的子問題。</p><p style="text-indent: 0em; text-align: center;"><img class="ue-image" src="http://www.yw28777.cn/zb_users/upload/2025/05/202505011746099073161218.jpg" title="DeepSeek 公布 Prover-V2 技術報告-第3張圖片.jpg" alt="DeepSeek 公布 Prover-V2 技術報告-第3張圖片.jpg"/></p><p style="text-indent: 0em; text-align: center;"><span style="font-size: 12px;">遞歸定理證明流程概括(來源:DeepSeek)</span></p><p style="text-indent: 2em;">首先,研究團隊利用 DeepSeek-V3 模型擔任“分解專家”的角色,構建定理證明系統的基礎框架。</p><p style="text-indent: 2em;">當面對一個復雜的數學定理時,DeepSeek-V3 會用自然語言分析和理解問題,提出高層次的證明思路,將整個證明分解為一系列較小的子目標,最后將每個子目標翻譯成嚴格的 Lean 4 形式語言表達,由 have…sorry 語句組成,也就是需要解決的子目標。</p><p style="text-indent: 2em;">這種方法也是人類所用的證明構建方式,即將復雜定理逐步簡化為一系列更易管理的引理。</p><p style="text-indent: 2em;">一旦復雜問題被分解為多個子目標,研究團隊就會使用更小的 7B 參數模型作為解題專家,逐一攻克這些子目標。這種方法不僅提高了效率,還大幅降低了計算資源的消耗。</p><p style="text-indent: 2em;">DeepSeek 采用遞歸求解策略系統地解決每個中間證明步驟。他們從 have 語句中提取子目標表達式,用它們替代原始問題中的目標,并將前面的子目標作為前提條件。</p><p style="text-indent: 2em;">這種構建使后續子目標能夠利用早期步驟的中間結果,從而促進更局部化的依賴結構,有助于開發更簡單的引理。</p><p style="text-indent: 2em;">為了減少大量證明搜索的計算開銷,使用專門優化的小型 7B 證明模型處理分解后的引理。成功解決所有分解步驟后,原始定理的完整證明就可以自動推導出來。</p><p style="text-indent: 0em; text-align: center;"><img class="ue-image" src="http://www.yw28777.cn/zb_users/upload/2025/05/202505011746099099173460.jpg" title="DeepSeek 公布 Prover-V2 技術報告-第4張圖片.jpg" alt="DeepSeek 公布 Prover-V2 技術報告-第4張圖片.jpg"/></p><p style="text-indent: 0em; text-align: center;"><span style="font-size: 12px;">如何將分解后的子目標轉化為一系列引理語句(來源:DeepSeek)</span></p><p style="text-indent: 2em;">在這個過程中,證明模型的訓練需要大型形式語言問題集,但從人類編寫文本形式化獲得的訓練信號通常較為稀疏,因為大部分計算嘗試都不會產生成功的證明,因此不提供積極的獎勵信號。</p><p style="text-indent: 2em;">為了產生更密集的訓練信號,DeepSeek 利用子目標擴展用于模型訓練的形式語句范圍,生成兩類子目標定理:一類將前面的子目標作為前提條件,另一類則不包含前提條件。</p><p style="text-indent: 2em;">這兩類子目標被整合到專家迭代階段,建立一個課程(curriculum),逐步引導證明模型系統地解決精心策劃的一系列挑戰性問題。</p><p style="text-indent: 2em;">隨后,研究團隊挑選了一些 7B 證明模型無法“端到端(完全)解決”,但“所有子目標均已成功解決”的挑戰性問題。通過組合所有子目標的證明,他們構建了原始問題的完整形式證明。這個證明再與 DeepSeek-V3 的自然語言推理過程配對,創建了“冷啟動推理數據”。</p><p style="text-indent: 2em;">“這使我們能夠收集數百個高質量的合成冷啟動數據,作為訓練 DeepSeek-Prover-V2 的基礎。”論文寫道。</p><p style="text-indent: 2em;">這些冷啟動數據之所以珍貴,是因為它們同時包含了兩種形式的數學推理:直觀的自然語言思考鏈和嚴格的形式化證明步驟。就像是給 AI 提供了一本內容豐富的“雙語教材”,幫助它學習如何在兩種表達方式之間自如轉換。</p><p style="text-indent: 2em;">有了冷啟動數據后,研究團隊通過面向推理的強化學習(Reasoning-oriented Reinforcement Learning)進一步優化模型性能。在這個階段,DeepSeek-Prover-V2 會學習如何更好地連接非形式推理與形式證明構建,特別注重保持證明結構與初始分解思路的一致性。</p><p style="text-indent: 2em;">這個過程類似于學生在掌握基本思路后,通過不斷練習和反饋來提升解題能力,逐漸形成自己的解題風格和策略。</p><p style="text-indent: 2em;">在訓練階段,DeepSeek-Prover-V2 采用了兩階段訓練策略,建立了兩種互補的證明生成模式:</p><p style="text-indent: 2em;">高效非鏈式思維(non-CoT)模式:快速生成簡潔的形式 Lean 證明代碼,不包含明確的中間推理步驟。</p><p style="text-indent: 2em;">高精度鏈式思維(CoT)模式:系統地闡述中間推理步驟,強調透明度和邏輯進展,構建最終形式證明。</p><p style="text-indent: 2em;">訓練過程中,研究團隊使用“專家迭代”方法不斷提升模型能力。每次迭代中,用當前最佳模型(策略)嘗試解決之前未能解決的問題,成功的證明被添加到訓練數據中,用于改進模型。</p><p style="text-indent: 2em;">這個迭代循環持續進行,使模型能夠逐步提高解決難題的能力。</p><p style="text-indent: 2em;">此外,在強化學習階段,DeepSeek 使用了“群體相對策略優化”的算法,相比傳統 PPO 效果更好、效率更高。</p><p style="text-indent: 2em;">性能方面,DeepSeek-Prover-V2 在多個主流基準測試中都取得了不錯的成績。</p><p style="text-indent: 2em;">在評估 AI 形式證明能力的標準測試集 MiniF2F 中,DeepSeek-Prover-V2-671B 創造了新記錄。在嘗試 32 次(Pass@32)的情況下達到了 82.4% 的準確率,當增加到 8192 次(Pass@8192)時,表現提高到了 88.9%。</p><p style="text-indent: 0em; text-align: center;"><img class="ue-image" src="http://www.yw28777.cn/zb_users/upload/2025/05/202505011746099136108763.jpg" title="DeepSeek 公布 Prover-V2 技術報告-第5張圖片.jpg" alt="DeepSeek 公布 Prover-V2 技術報告-第5張圖片.jpg"/></p><p style="text-indent: 0em; text-align: center;"><span style="font-size: 12px;">在 MiniF2F 測試集上的表現(來源:DeepSeek)</span></p><p style="text-indent: 2em;">即使是參數較少的 DeepSeek-Prover-V2-7B 也超越了以往所有開源定理證明模型。</p><p style="text-indent: 2em;">在評估大學水平數學能力的 ProofNet 和 PutnamBench 測試中,DeepSeek-Prover-V2-671B 同樣表現出色。在 ProofNet 測試集上,它以 Pass@1024 指標達到了 37.1% 的解題率。在極具挑戰性的 PutnamBench 上成功解決了 658 個問題中的 49 個。</p><p style="text-indent: 2em;">更加令人驚訝的是,研究團隊發現較小的 7B 模型在某些特定問題上甚至超越了 671B 的大模型,成功解決了 13 個大模型未能攻克的問題,將總解題數提升至 62 題。</p><p style="text-indent: 2em;">在更全面的 CombiBench 測試中,DeepSeek-Prover-V2 在 77 個問題中解決了 12 個。雖然這一數字看似不高,但考慮到模型主要在數論和代數領域訓練,這一表現已經展示了其良好的跨領域泛化能力。</p><p style="text-indent: 2em;">在 15 個來自 AIME 24 和 25 競賽的數學問題上,DeepSeek-Prover-V2-671B 成功解決了 6 個,而其通用語言模型 DeepSeek-V3 則解決了 8 個。</p><p style="text-indent: 2em;">研究團隊認為這一對比結果很有趣,因為它表明形式數學證明與非形式數學推理之間的能力差距正在顯著縮小。</p><p style="text-indent: 2em;">最后,DeepSeek 團隊計劃將創造 DeepSeek-Prover-V2-671B 的經驗擴展稱一個類似 AlphaProof 的系統,最終目標是挑戰國際數學奧林匹克級別的數學問題。</p><p style="text-indent: 2em;">至于傳聞中的下一代 V4/R2 模型,說不定也會用上相關的技術進展。</p><p><br/></p>Thu, 01 May 2025 19:29:54 +0800
- 阿里云 發布 Qwen3,拉開新一輪開源模型競賽的序幕http://www.yw28777.cn/2025/04/674/<p style="text-indent: 0em; text-align: center;"><img class="ue-image" src="http://www.yw28777.cn/zb_users/upload/2025/04/202504301745942610207519.jpg" title="阿里云 發布 Qwen3,拉開新一輪開源模型競賽的序幕-第1張圖片.jpg" alt="阿里云 發布 Qwen3,拉開新一輪開源模型競賽的序幕-第1張圖片.jpg"/></p><p style="text-indent: 2em;">2025 年已經過去 1/3,如果用關鍵詞來概括 AI 領域的發展你會想到什么?這是我想到的:開源、創新加速加速加速。</p><p style="text-indent: 2em;">2 月是「DeepSeek」的,R1 以所有人意想不到的方式,讓全球執牛耳的 AI 開發者、創業者、投資人把目光鎖定在「DeepSeek」「中國」「開源」上。</p><p style="text-indent: 2em;">4 月是「開源模型」的,發令槍是 Meta 喊的。被 DeepSeek 蓋過風頭后,2025 年 2 月 19 日,坐不住的 Meta 率先官宣——首個生成式 AI 開發者大會 LlamaCon 將于當地 4 月 29 日(北京時間 4 月 30 日)舉行,頗有重新奪回「AI 開源界老大」江湖地位的意欲。</p><p style="text-indent: 2em;">但 AI 領域的產品發布節奏就是很微妙,什么時候發布似乎取決于對手的動作,作為一種心照不宣的默契,Meta 一聲槍響讓 4 月底成為開源模型的主場。</p><p style="text-indent: 2em;">整個 4 月甚至更早,AI 開發者們都在各大社交平臺「蹲」開源領域「三大頭牌」的新發布:DeepSeek-R2、Qwen3 以及 Llama4。Llama4 由于本月初的發布低于預期,似乎少了一些熱度。</p><p style="text-indent: 2em;">目前看起來,4 月底最受關注的還是中國隊,R2 呼之欲出,Qwen3 終于來了。</p><p style="text-indent: 2em;">4 月 29 日凌晨 5 點,阿里巴巴開源新一代通義千問模型 Qwen3,參數量僅為 DeepSeek-R1 的 1/3,成本大幅下降,性能全面超越 R1、OpenAI-o1 等全球頂尖模型,登頂全球最強開源模型。X 平臺的開發者網友甚至把今天定義為「Happy Qwen3 Day」,不僅因為 Qwen3 全面超越 R1,更因為 Qwen3 家族的多尺寸、內置 MCP 支持、支持混合推理等實用性的功能點。</p><p style="text-indent: 2em;">官方技術報告進一步給出了 Qwen3 的幾大亮點:</p><p style="text-indent: 2em;">「探索智能上限」再突破:通過擴大預訓練和強化學習的規模,實現了更高層次的智能;</p><p style="text-indent: 2em;">國內首個「混合推理模型」:無縫集成了思考模式與非思考模式,為用戶提供了靈活控制思考預算的能力;</p><p style="text-indent: 2em;">增強了 Agent 能力:正從專注于訓練模型的時代過渡到以訓練 Agent 為中心的時代。</p><p style="text-indent: 2em;">對于 Qwen3,個人用戶現在就可以在「通義」APP 或 chat.qwen.ai 網頁直接體驗,夸克也即將全線接入 Qwen3。開發者和企業則可以免費在魔搭社區、HuggingFace 等平臺下載模型并商用,或通過阿里云百煉調用 Qwen3 的 API 服務。</p><p style="text-indent: 2em;">憋了這么久的 Qwen3 到底怎么樣?又代表哪些模型發展的趨勢?</p><p style="text-indent: 0em; text-align: center;"><strong><span style="font-size: 20px;">01 Qwen3,登頂全球最強開源模型</span></strong></p><p style="text-indent: 2em;">Qwen3 包含 2 個 MoE 和 6 個密集模型,阿里云開源了兩個 MoE 模型的權重,六個 Dense 模型也已開源,包括 Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B 和 Qwen3-0.6B,均在 Apache 2.0 許可下開源。</p><p style="text-indent: 0em; text-align: center;"><img class="ue-image" src="http://www.yw28777.cn/zb_users/upload/2025/04/202504301745942633854589.jpg" title="阿里云 發布 Qwen3,拉開新一輪開源模型競賽的序幕-第2張圖片.jpg" alt="阿里云 發布 Qwen3,拉開新一輪開源模型競賽的序幕-第2張圖片.jpg"/></p><p style="text-indent: 0em; text-align: center;"><span style="font-size: 12px;">Qwen3 開源模型家族</span></p><p style="text-indent: 2em;">其中,旗艦型號 Qwen3-235B-A22B 參數量僅為 DeepSeek-R1 的 1/3,成本大幅下降,性能全面超越 R1、OpenAI-o1 等全球頂尖模型,登頂全球最強開源模型。</p><p style="text-indent: 2em;">此外,據阿里云官方介紹,Qwen3 是國內首個「混合推理模型」。「快思考」與「慢思考」集成進同一個模型,對簡單需求可低算力「秒回」答案,對復雜問題可多步驟「深度思考」,大大節省算力消耗。</p><p style="text-indent: 2em;">Qwen3 在推理、指令遵循、工具調用、多語言能力等方面均大幅增強,創下所有國產模型及全球開源模型的性能新高:在奧數水平的 AIME25 測評中,Qwen3 斬獲 81.5 分,刷新開源紀錄;在考察代碼能力的 LiveCodeBench 評測中,Qwen3 突破 70 分大關,表現甚至超過 Grok3;在評估模型人類偏好對齊的 ArenaHard 測評中,Qwen3 以 95.6 分超越 OpenAI-o1 及 DeepSeek-R1。</p><p style="text-indent: 2em;">性能大幅提升的同時,Qwen3 的部署成本還大幅下降,僅需 4 張 H20 即可部署千問 3 滿血版,顯存占用僅為性能相近模型的三分之一。</p><p style="text-indent: 0em; text-align: center;"><img class="ue-image" src="http://www.yw28777.cn/zb_users/upload/2025/04/202504301745942653616693.jpg" title="阿里云 發布 Qwen3,拉開新一輪開源模型競賽的序幕-第3張圖片.jpg" alt="阿里云 發布 Qwen3,拉開新一輪開源模型競賽的序幕-第3張圖片.jpg"/></p><p style="text-indent: 0em; text-align: center;"><span style="font-size: 12px;">Qwen3 性能|圖片來源:阿里云</span></p><p style="text-indent: 2em;">此外,小型 MoE 模型Qwen3-30B-A3B 的激活參數數量是 QwQ-32B 的 10%,表現更勝一籌,甚至像 Qwen3-4B 這樣的小模型也能匹敵 Qwen2.5-72B-Instruct 的性能。</p><p style="text-indent: 2em;">據介紹,Qwen3-235B-A22B 是一個擁有 2350 多億總參數和 220 多億激活參數的大模型;Qwen3-30B-A3B 則是一個擁有約 300 億總參數和 30 億激活參數的小型 MoE 模型。</p><p style="text-indent: 2em;">得益于在預訓練、大規模強化學習和推理模式整合方面取得的顯著進展,Qwen3 主打「思考更深、行動更快」,更好地構建 AI 應用。Qwen3 預訓練數據量達 36T,并在后訓練階段多輪強化學習,將非思考模式無縫整合到思考模型中。</p><p style="text-indent: 2em;">值得注意的是,這次 Qwen3 的發布,主打混合推理,但是需要思考的長度最短也是 1024tokens,否則如果問題所需要的推理預算用不滿 1024tokens,根本感受不到可以調節精度的混合推理模型的好。也就無法發揮用 Qwen3 不同程度的思考,靈活滿足 AI 應用和不同場景對性能和成本的多樣需求。</p><p style="text-indent: 0em; text-align: center;"><img class="ue-image" src="http://www.yw28777.cn/zb_users/upload/2025/04/202504301745942675271319.jpg" title="阿里云 發布 Qwen3,拉開新一輪開源模型競賽的序幕-第4張圖片.jpg" alt="阿里云 發布 Qwen3,拉開新一輪開源模型競賽的序幕-第4張圖片.jpg"/></p><p style="text-indent: 0em; text-align: center;"><strong><span style="font-size: 20px;">02 大模型全面轉向「混合推理模型」和「Agent」</span></strong></p><p style="text-indent: 2em;">在 Qwen3 發布的前一天,X 平臺已有「行業人士」——日本的大模型廠商 SakanaAI 的一位工程師敏銳地捕捉到了 Qwen3 的重點。當天,在 AI 領域最重要的學術會議之一 ICLR 2025 的一個工作坊上,阿里云通義實驗室通義千問負責人林俊旸透露了 Qwen 的下一步方向:推理模型和非推理模型的統一,以及面向 agent 的大模型。</p><p style="text-indent: 0em; text-align: center;"><img class="ue-image" src="http://www.yw28777.cn/zb_users/upload/2025/04/202504301745942703336789.jpg" title="阿里云 發布 Qwen3,拉開新一輪開源模型競賽的序幕-第5張圖片.jpg" alt="阿里云 發布 Qwen3,拉開新一輪開源模型競賽的序幕-第5張圖片.jpg"/></p><p style="text-indent: 2em;">這正是今天發布的 Qwen3 最大的兩個特點,同時也是大模型廠商們正在集體發生的轉向。</p><p style="text-indent: 2em;">2025 年 2 月 25 日,Anthropic 發布了最新的旗艦模型 Claude 3.7 Sonnet,同時也稱作是市場上首個混合推理模型。這意味著 Claude 3.7 Sonnet 能夠生成即時的響應(快思考),也可以進行延展的、逐步的思考(慢思考)。API 用戶還可以細粒度地控制模型的思考時長;當給定更長的思考時間,理論上會有更高質量的答案。</p><p style="text-indent: 2em;">Anthropic 表示,混合推理模型的架構代表下一代前沿模型,可以讓模型像人類用同一個大腦一樣,既能快速反應又能深度思考,這既能為用戶創造更無縫的體驗,也能讓用戶通過 API 使用 Claude 3.7 Sonnet 時,可以控制思考的預算。比如:可以告訴 Claude 最多思考 N 個 token,N 的取值可以達到其輸出限制的 128K token,從而在回答質量與速度(及成本)之間進行權衡。</p><p style="text-indent: 2em;">「混合推理架構」也得到了 OpenAI 的青睞。Sam Altman 在更早的時間看到,當前的模型和產品供應已經變得非常復雜,希望 AI 能「開箱即用」、簡化產品供應,「我們和你一樣討厭模型選擇器,想要回歸神奇的統一智能,之后,我們的一個重要目標是通過創建能夠使用我們所有工具、知道何時需要長時間思考或不需要的系統,統一 o 系列模型和 GPT 系列模型,整體上能廣泛適用于各種任務。」</p><p style="text-indent: 2em;">就像在 DeepSeek-R1 里一樣,點選「深度思考」背后調用的是推理模型 R1 做的長推理,不選則調用的是基座模型 V3 即時生成的答案。現在,模型廠商把「思考的顆粒度」這個選擇權更靈活、廣泛地交給用戶來控制推理預算。</p><p style="text-indent: 2em;">在 Qwen3 中,可以滑動「思考預算」的按鈕,來控制思考的最大長度,從而匹配合適的推理質量和成本。</p><p style="text-indent: 0em; text-align: center;"><img class="ue-image" src="http://www.yw28777.cn/zb_users/upload/2025/04/202504301745942727141033.jpg" title="阿里云 發布 Qwen3,拉開新一輪開源模型競賽的序幕-第6張圖片.jpg" alt="阿里云 發布 Qwen3,拉開新一輪開源模型競賽的序幕-第6張圖片.jpg"/></p><p style="text-indent: 2em;">在思考模式下,Qwen3 模型會逐步推理,經過深思熟慮后給出最終答案,適合需要深入思考的復雜問題。在非思考模式下,模型提供快速、近乎即時的響應,適用于那些對速度要求高于深度的簡單問題。這種靈活性使用戶能夠根據具體任務控制模型進行「思考」的程度。這兩種模式的結合大大增強了模型實現穩定且高效的「思考預算」控制能力,在成本效益和推理質量之間實現更優的平衡。</p><p style="text-indent: 2em;">另一個模型廠商的轉向則是 Agent。隨著 Manus 驗證了 Claude 3.5 Sonnet 達到了通用 agent 的一些能力,加上模型調用工具、實現 agent 能力的統一協議——MCP 在越來越大的范圍內被擁抱,下一代模型要面向 agent、面向實際場景來優化。</p><p style="text-indent: 0em; text-align: center;"><img class="ue-image" src="http://www.yw28777.cn/zb_users/upload/2025/04/202504301745942741818151.jpg" title="阿里云 發布 Qwen3,拉開新一輪開源模型競賽的序幕-第7張圖片.jpg" alt="阿里云 發布 Qwen3,拉開新一輪開源模型競賽的序幕-第7張圖片.jpg"/></p><p style="text-indent: 2em;">就 Qwen3 來說,正在邁向以訓練 Agent 為中心的階段,當前 Qwen3 優化了 Agent 和 代碼能力,同時也加強了對 MCP 的支持。據稱,Qwen3 原生支持 MCP 協議,并具備強大的工具調用(function calling)能力,結合封裝了工具調用模板和工具調用解析器的 Qwen-Agent 框架,將大大降低編碼復雜性,實現高效的手機及電腦 Agent 操作等任務。</p><p style="text-indent: 2em;">在該示例中,Qwen3 思考并自主調用工具到 Github 數開源模型獲得的 star,繼續思考并調用繪圖工具制作圖片,并調用工具保存。03 開源模型新一輪競賽開啟</p><p style="text-indent: 2em;">Qwen3 的發布,意味著開源模型領域新一輪「三國殺」已然開始。</p><p style="text-indent: 2em;">事實上,隨著 DeepSeek 的橫空出世,加上 OpenAI、字節等大廠調整對開源的態度,開源已然成為大模型賽道的大勢所趨。而 Llama、Qwen 和 DeepSeek,正是目前開源領域最有競爭力的玩家。</p><p style="text-indent: 0em; text-align: center;"><img class="ue-image" src="http://www.yw28777.cn/zb_users/upload/2025/04/202504301745942759589365.jpg" title="阿里云 發布 Qwen3,拉開新一輪開源模型競賽的序幕-第8張圖片.jpg" alt="阿里云 發布 Qwen3,拉開新一輪開源模型競賽的序幕-第8張圖片.jpg"/></p><p style="text-indent: 0em; text-align: center;"><span style="font-size: 12px;">Hugging Face 聯合創始人、CEO Clement Delangue 發推暗示 DeepSeek 即將帶來新發布。|截圖來源:X</span></p><p style="text-indent: 2em;">而此前 OpenAI 和 DeepSeek 的成功已經證明,互聯網時代的生態、用戶和產品壁壘,今天在 AI 時代并沒有互聯網時代那樣牢不可摧,模型能力才是基礎大模型公司的核心競爭力。而 Llama、Qwen 和 DeepSeek 的勝者,有可能在下一個發布周期到來前(至少在 OpenAI 的開源模型發布前),成為整個 AI 行業的引領者。</p><p style="text-indent: 2em;">雖然新一代模型能力的強弱,還要等待 Llama 和 DeepSeek 的發布,但值得關注的是,這三家開源模型廠商的生態策略亦有差異,這點從模型的側重點就能看出端倪。</p><p style="text-indent: 2em;">DeepSeek 和 Meta 的側重點也有不同,但一個共同點都是不太重視 ToB,至少是在服務生態的建設上并不成功。而這點也是 Qwen 和其背后的阿里云最重視的部分。</p><p style="text-indent: 2em;">極客公園曾在此前的文章里寫過,脫胎于阿里云 Qwen,是最有以開源模型技術領先性、廣泛全面開源的策略,追求生態建設的架勢。阿里的 AI 戰略里除了追求 AGI,也同樣重視 AI 基礎設施建設,以及更上層的與阿里的電商、釘釘、夸克等 AI 應用的結合。</p><p style="text-indent: 2em;">此前,阿里云智能集團資深副總裁、公共云事業部總裁劉偉光表示,「阿里云是全世界唯一一家積極研發基礎大模型并全方位開源、全方位貢獻的云計算廠商。」</p><p style="text-indent: 2em;">而 Qwen 模型下載量和衍生模型數量這兩個衡量的生態的指標也同樣領先。根據阿里云官方的最新數據,阿里通義已開源 200 余個模型,全球下載量超 3 億次,千問衍生模型數超 10 萬個,已經超越 Llama 位居全球開源模型的第一。</p><p style="text-indent: 2em;">而新模型選擇在進一步優化推理成本、混合推理和 Agent 上發力,顯然 Qwen 瞄準的是開發者和 B 端用戶的部署需求。這也將成為 Qwen 與 DeepSeek、Llama、OpenAI 等競爭對手最大的不同,也是阿里能否贏得 AI 時代的一張船票的關鍵所在。</p><p><br/></p>Tue, 29 Apr 2025 23:47:43 +0800