在萬眾矚目之下,阿里巴巴旗下的通義千問系列迎來了最新成員——Qwen3,這款開源模型一經(jīng)發(fā)布便迅速登頂全球最強開源模型榜單,引發(fā)了業(yè)界的廣泛關注。
4月29日凌晨,阿里巴巴正式推出了Qwen3(簡稱千問3),其旗艦模型Qwen3-235B-A22B憑借僅為DeepSeek-R1三分之一的參數(shù)量,實現(xiàn)了總參數(shù)量235B、激活僅需22B的驚人效率。在性能上,千問3全面超越了R1、OpenAI-o1等頂尖模型,成為新晉的全球最強開源模型。
千問3在預訓練數(shù)據(jù)量上達到了36T的驚人規(guī)模,并在后訓練階段通過多輪強化學習,將快思考與慢思考模式無縫融合。這一創(chuàng)新不僅使得千問3在推理、指令遵循、工具調(diào)用、多語言能力等方面均取得了顯著增強,還創(chuàng)下了國產(chǎn)模型及全球開源模型性能的新高度。
此次發(fā)布的千問3系列共計八款模型,涵蓋了從0.6B到235B的不同參數(shù)量級別,包括兩款30B、235B的MoE模型以及六款密集模型。每款模型均在其同尺寸類別中取得了SOTA(最佳性能)的優(yōu)異成績。
其中,千問3的30B參數(shù)MoE模型實現(xiàn)了模型性能的十倍杠桿提升,僅需激活3B參數(shù)即可媲美上一代Qwen2.5-32B模型的性能。而千問3的密集模型也在性能上繼續(xù)突破,如32B版本的千問3模型在性能上甚至超越了Qwen2.5-72B模型。
4月作為大模型集中發(fā)布的一個月,業(yè)界競爭異常激烈。OpenAI發(fā)布了GPT-4.1 o3、o4 mini系列模型,谷歌則推出了Gemini 2.5 Flash Preview混合推理模型。同時,國內(nèi)也涌現(xiàn)出了如豆包的1.5·深度思考模型等優(yōu)秀作品。盡管有傳言稱DeepSeek R2模型即將發(fā)布,但目前仍缺乏確鑿的證據(jù)。
然而,千問3的“先發(fā)制人”策略使其在這場競爭中占據(jù)了先機。作為國內(nèi)首個混合推理思考模型,千問3不僅增強了Agent能力,還支持MCP協(xié)議,大大節(jié)省了算力消耗。其混合推理模式使得模型在面對簡單需求時能夠快速響應,而在處理復雜問題時則能夠進行多步驟的深度思考。
在性能評測中,千問3同樣表現(xiàn)出色。在奧數(shù)水平的AIME25測評中,千問3斬獲了81.5分的高分,刷新了開源紀錄。在考察代碼能力的LiveCodeBench評測中,千問3也突破了70分大關,表現(xiàn)甚至超過了Grok3。在評估模型人類偏好對齊的ArenaHard評測中,千問3更是以95.6分的高分超越了OpenAI-o1及DeepSeek-R1。
除了性能上的顯著提升外,千問3的部署成本也大幅下降。僅需4張H20即可部署千問3滿血版,且顯存占用僅為性能相近模型的三分之一。這一優(yōu)勢使得千問3在企業(yè)大規(guī)模部署和個人開發(fā)者使用方面均具備極高的吸引力。
千問3還支持多達119種語言和方言,并在Apache 2.0許可下開源。目前,這些模型已在Hugging Face、ModelScope和Kaggle等平臺上開放使用。阿里巴巴還推薦使用SGLang和vLLM等框架進行部署,同時支持Ollama、LMStudio、MLX、llama.cpp和KTransformers等多種本地使用工具。
在智能體Agent和大模型應用落地方面,千問3同樣表現(xiàn)出色。在評估模型Agent能力的BFCL評測中,千問3創(chuàng)下了70.8的新高,超越了Gemini2.5-Pro、OpenAI-o1等頂尖模型。同時,千問3原生支持MCP協(xié)議,并具備強大的工具調(diào)用能力,大大降低了編碼復雜性,實現(xiàn)了高效的手機及電腦Agent操作等任務。
在預訓練方面,Qwen3的數(shù)據(jù)集相比Qwen2.5有了顯著擴展。Qwen3使用了約36萬億個token的數(shù)據(jù)進行預訓練,幾乎是Qwen2.5的兩倍。為了構建這一龐大的數(shù)據(jù)集,千問團隊不僅從網(wǎng)絡上收集數(shù)據(jù),還從PDF文檔中提取信息,并利用專家模型合成數(shù)學和代碼數(shù)據(jù)。
后訓練方面,千問團隊實施了一個四階段的訓練流程,包括長思維鏈冷啟動、長思維鏈強化學習、思維模式融合以及通用強化學習。這一流程使得千問3在具備思考推理能力的同時,也能夠快速響應簡單需求。
目前,個人用戶已經(jīng)可以通過通義APP直接體驗千問3的強大功能,而夸克也即將全線接入千問3。阿里巴巴通義已經(jīng)開源了200余個模型,全球下載量超過3億次,千問衍生模型數(shù)更是超過10萬個,成功超越了美國的Llama,成為全球第一的開源模型。