国内精品免费视频-国内精品视频成人一区二区-国内精品视频免费观看-国内精品视频在线播放一区-日本狠狠操-日本狠狠干

首頁人工智能AI 正文

目錄

最新全球模型榜單：阿里 Qwen2.5-Max 超 DeepSeek V3！又一國產大模型海外出圈！

人工智能AI2025-02-05

2月4日凌晨，Chatbot Arena LLM Leaderboard更新了最新一期的榜單，不久前發布的Qwen2.5-Max直接沖進前十，超越DeepSeek V3, o1-mini和Claude-3.5-Sonnet等模型，以1332分位列全球第七名！同時，Qwen2.5-Max在數學和編程上排名第一，在Hard prompts方面排名第二。Qwen-...

最新全球模型榜單：阿里 Qwen2.5-Max 超 DeepSeek V3-第1張圖片.png

2月4日凌晨，Chatbot Arena LLM Leaderboard更新了最新一期的榜單，不久前發布的Qwen2.5-Max直接沖進前十，超越DeepSeek V3, o1-mini和Claude-3.5-Sonnet等模型，以1332分位列全球第七名！同時，Qwen2.5-Max在數學和編程上排名第一，在Hard prompts方面排名第二。

最新全球模型榜單：阿里 Qwen2.5-Max 超 DeepSeek V3-第2張圖片.png

Qwen-Max是阿里云通義團隊對MoE模型的最新探索成果，新模型展現出極強勁的綜合性能。在Arena-Hard、LiveBench、LiveCodeBench、GPQA-Diamond及MMLU-Pro等主流基準測試中，Qwen2.5-Max比肩Claude-3.5-Sonnet，并幾乎全面超越了GPT-4o、DeepSeek-V3及Llama-3.1-405B。

ChatBot Arena官方賬號 lmarena.ai 對其評價稱，阿里巴巴的Qwen2.5-Max在多個領域表現強勁，特別是在專業技術向的（編程、數學、有難度的提示詞等）方面。

據了解，Chatbot Arena是由LMSYS Org推出的大模型性能測試平臺，目前集成了190多種模型。該榜單采用匿名方式將大模型兩兩組隊，交給用戶進行盲測，用戶根據真實對話體驗對模型能力進行投票。因此Chatbot Arena LLM Leaderboard成為全球頂級大模型的最重要競技場。

此前，Qwen2.5-72B-Instruct發布后也曾闖入Chatbot Arena榜單全球前十，是得分較高的中國大模型；Qwen2-VL-72B-Instruct闖入Vision榜單第九，是成績優異的開源模型。

目前，企業可在阿里云百煉調用Qwen2.5-Max模型的API，開發者也可在Qwen Chat平臺中免費體驗Qwen2.5-Max。

Qwen2.5-Max發布后，在海外開發者中引發了大量關注。有網友在對比DeepSeek-V3 和 Qwen 2.5后，高度贊揚了Qwen2.5-Max的出色表現。

通義團隊方面表示，持續提升數據規模和模型參數規模能夠有效提升模型的智能水平。通義團隊對下一個版本的Qwen2.5-Max充滿信心，也將持續探索，除了在預訓練的scaling 上繼續探索外，還將大力投入強化學習的scaling，希望能實現超越人類的智能，驅動AI探索未知之境。

標簽阿里大模型通義千問

上一篇：OpenAI 新功能 “深度研究” 登場，人類終極考試的表現超過 DeepSeek R1

下一篇：OpenAI 全面開放 ChatGPT 搜索功能

相關文章

Claude 全盤操控商店運營實驗：1個月凈資產縮水20%，Anthropic 仍看好AI接管經濟前景

Claude 全盤操控商店運營實驗：1個月凈資產縮水20%，Anthropic 仍看好AI接管經濟前景

小米入局 AI眼鏡賽道：是中國版Meta，還是下一個閃極？

小米入局 AI眼鏡賽道：是中國版Meta，還是下一個閃極？

公司賣了5億，員工半年實現財富自由

公司賣了5億，員工半年實現財富自由

《OpenAI檔案》披露奧特曼的AI帝國：80家關聯公司，股權價值200億美元

《OpenAI檔案》披露奧特曼的AI帝國：80家關聯公司，股權價值200億美元

谷歌研究稱 AI 存在“畏死”情緒，導致推理能力明顯下降

谷歌研究稱 AI 存在“畏死”情緒，導致推理能力明顯下降

Meta 開始測試 AI 自動生成視頻廣告功能

Meta 開始測試 AI 自動生成視頻廣告功能

您暫未設置收款碼

請在主題配置——文章設置里上傳

掃描二維碼手機訪問

文章目錄