国内精品免费视频-国内精品视频成人一区二区-国内精品视频免费观看-国内精品视频在线播放一区-日本狠狠操-日本狠狠干

目錄

最新全球模型榜單:阿里 Qwen2.5-Max 超 DeepSeek V3!又一國(guó)產(chǎn)大模型海外出圈!

人工智能AI2025-02-05
2月4日凌晨,Chatbot Arena LLM Leaderboard更新了最新一期的榜單,不久前發(fā)布的Qwen2.5-Max直接沖進(jìn)前十,超越DeepSeek V3, o1-mini和Claude-3.5-Sonnet等模型,以1332分位列全球第七名!同時(shí),Qwen2.5-Max在數(shù)學(xué)和編程上排名第一,在Hard prompts方面排名第二。Qwen-...

最新全球模型榜單:阿里 Qwen2.5-Max 超 DeepSeek V3-第1張圖片.png

2月4日凌晨,Chatbot Arena LLM Leaderboard更新了最新一期的榜單,不久前發(fā)布的Qwen2.5-Max直接沖進(jìn)前十,超越DeepSeek V3, o1-mini和Claude-3.5-Sonnet等模型,以1332分位列全球第七名!同時(shí),Qwen2.5-Max在數(shù)學(xué)和編程上排名第一,在Hard prompts方面排名第二。

最新全球模型榜單:阿里 Qwen2.5-Max 超 DeepSeek V3-第2張圖片.png

Qwen-Max是阿里云通義團(tuán)隊(duì)對(duì)MoE模型的最新探索成果,新模型展現(xiàn)出極強(qiáng)勁的綜合性能。在Arena-Hard、LiveBench、LiveCodeBench、GPQA-Diamond及MMLU-Pro等主流基準(zhǔn)測(cè)試中,Qwen2.5-Max比肩Claude-3.5-Sonnet,并幾乎全面超越了GPT-4o、DeepSeek-V3及Llama-3.1-405B。

ChatBot Arena官方賬號(hào) lmarena.ai 對(duì)其評(píng)價(jià)稱(chēng),阿里巴巴的Qwen2.5-Max在多個(gè)領(lǐng)域表現(xiàn)強(qiáng)勁,特別是在專(zhuān)業(yè)技術(shù)向的(編程、數(shù)學(xué)、有難度的提示詞等)方面。

據(jù)了解,Chatbot Arena是由LMSYS Org推出的大模型性能測(cè)試平臺(tái),目前集成了190多種模型。該榜單采用匿名方式將大模型兩兩組隊(duì),交給用戶(hù)進(jìn)行盲測(cè),用戶(hù)根據(jù)真實(shí)對(duì)話(huà)體驗(yàn)對(duì)模型能力進(jìn)行投票。因此Chatbot Arena LLM Leaderboard成為全球頂級(jí)大模型的最重要競(jìng)技場(chǎng)。

此前,Qwen2.5-72B-Instruct發(fā)布后也曾闖入Chatbot Arena榜單全球前十,是得分較高的中國(guó)大模型;Qwen2-VL-72B-Instruct闖入Vision榜單第九,是成績(jī)優(yōu)異的開(kāi)源模型。

目前,企業(yè)可在阿里云百煉調(diào)用Qwen2.5-Max模型的API,開(kāi)發(fā)者也可在Qwen Chat平臺(tái)中免費(fèi)體驗(yàn)Qwen2.5-Max。

Qwen2.5-Max發(fā)布后,在海外開(kāi)發(fā)者中引發(fā)了大量關(guān)注。有網(wǎng)友在對(duì)比DeepSeek-V3 和 Qwen 2.5后,高度贊揚(yáng)了Qwen2.5-Max的出色表現(xiàn)。

通義團(tuán)隊(duì)方面表示,持續(xù)提升數(shù)據(jù)規(guī)模和模型參數(shù)規(guī)模能夠有效提升模型的智能水平。通義團(tuán)隊(duì)對(duì)下一個(gè)版本的Qwen2.5-Max充滿(mǎn)信心,也將持續(xù)探索,除了在預(yù)訓(xùn)練的scaling 上繼續(xù)探索外,還將大力投入強(qiáng)化學(xué)習(xí)的scaling,希望能實(shí)現(xiàn)超越人類(lèi)的智能,驅(qū)動(dòng)AI探索未知之境。


您暫未設(shè)置收款碼

請(qǐng)?jiān)谥黝}配置——文章設(shè)置里上傳

掃描二維碼手機(jī)訪(fǎng)問(wèn)

文章目錄