阿里巴巴Qwen3八款齊發(fā)，問鼎全球最強開源模型，DeepSeek R2壓力山大？

發(fā)布時間：2025-04-29 08:01 來源：鈦媒體APP 作者：鈦媒體APP

在萬眾矚目之下，阿里巴巴旗下的通義千問系列迎來了最新成員——Qwen3，這款開源模型一經(jīng)發(fā)布便迅速登頂全球最強開源模型榜單，引發(fā)了業(yè)界的廣泛關注。

4月29日凌晨，阿里巴巴正式推出了Qwen3（簡稱千問3），其旗艦模型Qwen3-235B-A22B憑借僅為DeepSeek-R1三分之一的參數(shù)量，實現(xiàn)了總參數(shù)量235B、激活僅需22B的驚人效率。在性能上，千問3全面超越了R1、OpenAI-o1等頂尖模型，成為新晉的全球最強開源模型。

千問3在預訓練數(shù)據(jù)量上達到了36T的驚人規(guī)模，并在后訓練階段通過多輪強化學習，將快思考與慢思考模式無縫融合。這一創(chuàng)新不僅使得千問3在推理、指令遵循、工具調(diào)用、多語言能力等方面均取得了顯著增強，還創(chuàng)下了國產(chǎn)模型及全球開源模型性能的新高度。

此次發(fā)布的千問3系列共計八款模型，涵蓋了從0.6B到235B的不同參數(shù)量級別，包括兩款30B、235B的MoE模型以及六款密集模型。每款模型均在其同尺寸類別中取得了SOTA（最佳性能）的優(yōu)異成績。

其中，千問3的30B參數(shù)MoE模型實現(xiàn)了模型性能的十倍杠桿提升，僅需激活3B參數(shù)即可媲美上一代Qwen2.5-32B模型的性能。而千問3的密集模型也在性能上繼續(xù)突破，如32B版本的千問3模型在性能上甚至超越了Qwen2.5-72B模型。

4月作為大模型集中發(fā)布的一個月，業(yè)界競爭異常激烈。OpenAI發(fā)布了GPT-4.1 o3、o4 mini系列模型，谷歌則推出了Gemini 2.5 Flash Preview混合推理模型。同時，國內(nèi)也涌現(xiàn)出了如豆包的1.5·深度思考模型等優(yōu)秀作品。盡管有傳言稱DeepSeek R2模型即將發(fā)布，但目前仍缺乏確鑿的證據(jù)。

然而，千問3的“先發(fā)制人”策略使其在這場競爭中占據(jù)了先機。作為國內(nèi)首個混合推理思考模型，千問3不僅增強了Agent能力，還支持MCP協(xié)議，大大節(jié)省了算力消耗。其混合推理模式使得模型在面對簡單需求時能夠快速響應，而在處理復雜問題時則能夠進行多步驟的深度思考。

在性能評測中，千問3同樣表現(xiàn)出色。在奧數(shù)水平的AIME25測評中，千問3斬獲了81.5分的高分，刷新了開源紀錄。在考察代碼能力的LiveCodeBench評測中，千問3也突破了70分大關，表現(xiàn)甚至超過了Grok3。在評估模型人類偏好對齊的ArenaHard評測中，千問3更是以95.6分的高分超越了OpenAI-o1及DeepSeek-R1。

除了性能上的顯著提升外，千問3的部署成本也大幅下降。僅需4張H20即可部署千問3滿血版，且顯存占用僅為性能相近模型的三分之一。這一優(yōu)勢使得千問3在企業(yè)大規(guī)模部署和個人開發(fā)者使用方面均具備極高的吸引力。

千問3還支持多達119種語言和方言，并在Apache 2.0許可下開源。目前，這些模型已在Hugging Face、ModelScope和Kaggle等平臺上開放使用。阿里巴巴還推薦使用SGLang和vLLM等框架進行部署，同時支持Ollama、LMStudio、MLX、llama.cpp和KTransformers等多種本地使用工具。

在智能體Agent和大模型應用落地方面，千問3同樣表現(xiàn)出色。在評估模型Agent能力的BFCL評測中，千問3創(chuàng)下了70.8的新高，超越了Gemini2.5-Pro、OpenAI-o1等頂尖模型。同時，千問3原生支持MCP協(xié)議，并具備強大的工具調(diào)用能力，大大降低了編碼復雜性，實現(xiàn)了高效的手機及電腦Agent操作等任務。

在預訓練方面，Qwen3的數(shù)據(jù)集相比Qwen2.5有了顯著擴展。Qwen3使用了約36萬億個token的數(shù)據(jù)進行預訓練，幾乎是Qwen2.5的兩倍。為了構建這一龐大的數(shù)據(jù)集，千問團隊不僅從網(wǎng)絡上收集數(shù)據(jù)，還從PDF文檔中提取信息，并利用專家模型合成數(shù)學和代碼數(shù)據(jù)。

后訓練方面，千問團隊實施了一個四階段的訓練流程，包括長思維鏈冷啟動、長思維鏈強化學習、思維模式融合以及通用強化學習。這一流程使得千問3在具備思考推理能力的同時，也能夠快速響應簡單需求。