国内精品免费视频-国内精品视频成人一区二区-国内精品视频免费观看-国内精品视频在线播放一区-日本狠狠操-日本狠狠干

目錄

DeepSeek GitHub 星數(shù)超越 OpenAI,僅用時兩個月

人工智能AI2025-02-07
我們正在見證歷史:DeepSeek 項目在全球最大代碼托管平臺 GitHub 上的 Star 量超過了 OpenAI。截至本周五下午兩點,DeepSeek 旗下熱度最高的項目 DeepSeek-V3 大模型 Star 量已達 7.77 萬,超越了同平臺中 OpenAI 最熱門項目。DeepSeek 項目的星數(shù)還在以肉眼可見的速度增長。去年 12 月 26 日...

DeepSeek GitHub 星數(shù)超越 OpenAI,僅用時兩個月-第1張圖片.jpg

我們正在見證歷史:DeepSeek 項目在全球最大代碼托管平臺 GitHub 上的 Star 量超過了 OpenAI。

截至本周五下午兩點,DeepSeek 旗下熱度最高的項目 DeepSeek-V3 大模型 Star 量已達 7.77 萬,超越了同平臺中 OpenAI 最熱門項目。

DeepSeek GitHub 星數(shù)超越 OpenAI,僅用時兩個月-第2張圖片.jpg

DeepSeek 項目的星數(shù)還在以肉眼可見的速度增長。

去年 12 月 26 日,DeepSeek AI 開源了其最新混合專家(MoE)大語言模型 DeepSeek-V3,它立即成為通用語言模型的性能標桿,受到了全球 AI 社區(qū)熱議。

DeepSeek-V3 模型引入了動態(tài)注意力機制(Dynamic Attention Mechanism),通過實時調(diào)整注意力權(quán)重優(yōu)化文本生成質(zhì)量。其 MoE 架構(gòu)共包含 6710 億參數(shù),但每 Token 僅激活 370 億參數(shù),大幅降低了計算成本,訓練成本僅為同類閉源模型的 1/20。

據(jù)技術(shù)報告介紹,DeepSeek-V3 的預訓練過程只花費 266.4 萬 H800 GPU Hours,再加上上下文擴展與后訓練的訓練共為 278.8 H800 GPU Hours(訓練成本 557.6 萬美元)。相較之下,Llama 3 的訓練預算約為 3930 萬 H100 GPU Hours。

DeepSeek GitHub 星數(shù)超越 OpenAI,僅用時兩個月-第3張圖片.jpg

隨后在 1 月 23 日,DeepSeek 以 V3 為基礎(chǔ)使用強化學習(Reinforcement Learning)驅(qū)動重構(gòu)訓練范式,提出了 DeepSeek-R1,徹底改變了開源 AI 世界。

DeepSeek R1 性能完全對標 OpenAI o1,與 DeepSeek V3 相比性能有大幅提升,其論文指出純強化學習可以賦予 LLM 強推理能力,而無需大量監(jiān)督微調(diào),震動了 AI 業(yè)界。

從技術(shù)角度來看,DeepSeek 展示了國內(nèi)科研團隊的創(chuàng)新能力,并在 Scaling Laws 之后揭開了大模型發(fā)展的新范式,大幅降低了 AI 對算力的依賴,并用自我進化的方式平衡了數(shù)據(jù)優(yōu)勢。

R1 還支持將推理能力遷移至更小模型,為邊緣計算和即時應用開辟了大量的可能性。

DeepSeek GitHub 星數(shù)超越 OpenAI,僅用時兩個月-第4張圖片.jpg

由于 OpenAI 自 GPT-3 起并未開源其基礎(chǔ) AI 大模型,目前 OpenAI 的熱門開源項目包括 openai-cookbook,即使用 OpenAI API 完成常見任務(wù)的示例代碼和指南;以及 Whisper,這是一個 2022 年 9 月開源的通用語音識別模型。

除此之外,同屬開源大模型的 Llama 系列最高星數(shù)達到了 5.75 萬,阿里云的 Qwen2.5 有 1.49 萬 Star,零一萬物的 Yi 有 7800 Star。

DeepSeek GitHub 星數(shù)超越 OpenAI,僅用時兩個月-第5張圖片.jpg

DeepSeek V3 和 R1 的推出仿佛為全球大模型社區(qū)打了一針強心劑,在 AI 研究領(lǐng)域,圍繞 R1 核心強化學習方法 GRPO 的進一步研究已經(jīng)出現(xiàn)。

DeepSeek 開源的策略也為應用創(chuàng)造了大量機會。目前雖然 DeepSeek App 官方報告正在受到高頻次網(wǎng)絡(luò)攻擊,但僅在國內(nèi)就有阿里云、華為云、騰訊云、百度智能云、360 數(shù)字安全、云軸科技等多個平臺宣布上線了 DeepSeek 大模型,方便各路開發(fā)者調(diào)用。

在海外,英偉達、亞馬遜和微軟云服務(wù)也宣布接入了 DeepSeek R1。

DeepSeek 系列模型被公認為是目前最先進的大語言模型之一,隨著技術(shù)開源的推動,我們或許將見證生成式 AI 更快的發(fā)展。


您暫未設(shè)置收款碼

請在主題配置——文章設(shè)置里上傳

掃描二維碼手機訪問

文章目錄