阿里巴巴集團(tuán)于本周二震撼發(fā)布其旗艦人工智能模型Qwen 3,標(biāo)志著AI技術(shù)邁入全新紀(jì)元。此次升級聚焦于混合推理能力,為用戶帶來前所未有的智能體驗(yàn)。
Qwen3系列中的旗艦版Qwen3-235B-A22B,雖擁有高達(dá)2350億參數(shù),但運(yùn)行時僅需激活220億參數(shù),這一設(shè)計巧妙地降低了運(yùn)營成本,同時性能超越DeepSeek-R1和OpenAI-o1等業(yè)界領(lǐng)先模型,成為全球最強(qiáng)大的開源AI模型。
在中國AI領(lǐng)域競爭日益激烈的背景下,本土初創(chuàng)企業(yè)DeepSeek的迅速崛起尤為引人注目。今年早些時候,DeepSeek宣布能以更低成本提供高性能模型,挑戰(zhàn)西方競爭對手。受此驅(qū)動,中國AI市場熱度持續(xù)攀升。
上周五,中國搜索引擎巨頭百度也不甘落后,推出了Ernie 4.5 Turbo和推理優(yōu)化版Ernie X1 Turbo模型,進(jìn)一步加劇了市場競爭。
阿里巴巴新推出的Qwen 3將傳統(tǒng)AI任務(wù)與先進(jìn)動態(tài)推理技術(shù)相結(jié)合,為應(yīng)用與軟件開發(fā)者提供了一個更加靈活高效的平臺。相比年初緊急發(fā)布的Qwen 2.5-Max,Qwen 3在性能上實(shí)現(xiàn)了顯著提升。
Qwen 3基于36萬億字節(jié)的龐大數(shù)據(jù)集進(jìn)行訓(xùn)練,并在后續(xù)階段經(jīng)歷多輪強(qiáng)化學(xué)習(xí)。它巧妙融合了快速思考與慢速思考模式,在推理、指令遵循、工具利用及多語言能力等方面實(shí)現(xiàn)顯著提升,為全球開源模型樹立了新的性能標(biāo)桿。
Qwen 3系列涵蓋八種模型,包括兩個參數(shù)分別為300億和2350億的混合專家(MoE)模型,以及六個參數(shù)從0.6億至32億不等的密集模型。每種模型均在其尺寸類別內(nèi)實(shí)現(xiàn)了開源模型中的頂尖性能。
尤為Qwen3的300億參數(shù)MoE模型在效率上實(shí)現(xiàn)了十倍提升,僅需激活30億參數(shù)即可媲美上一代Qwen2.5-32B模型的性能。同時,Qwen3的密集模型繼續(xù)突破極限,以一半?yún)?shù)數(shù)量實(shí)現(xiàn)高性能。例如,Qwen3的320億版本在多個層級上超越了Qwen2.5-72B模型的性能。
四月成為大型模型發(fā)布的密集期。OpenAI推出了GPT-4.1 o3和o4 mini系列模型,谷歌發(fā)布了Gemini 2.5 Flash Preview混合推理模型,而Doubao則宣布了1.5·Deep Thinking模型。行業(yè)內(nèi)其他主要玩家也開源或更新了眾多模型。關(guān)于DeepSeek R2即將發(fā)布的傳聞甚囂塵上,盡管這些報道大多仍屬猜測。
無論DeepSeek R2是否發(fā)布,Qwen3已搶占先機(jī),成為大型模型“普及化”的真正起點(diǎn)。
作為中國首款混合推理模型,Qwen 3支持兩種獨(dú)特的推理模式:慢速思考模式適合處理復(fù)雜問題,通過逐步推理得出最終答案;而快速思考模式則適用于簡單問題,能夠迅速給出回應(yīng)。Qwen 3的所有模型均為混合推理模型,這一創(chuàng)新設(shè)計將“快速思考”與“慢速思考”融為一體,根據(jù)任務(wù)需求靈活切換思考模式,顯著降低了計算資源消耗。
Qwen 3的API允許用戶自定義“思考預(yù)算”(即用于深度推理的最大令牌數(shù)),從而滿足不同場景下AI應(yīng)用的多樣性能和成本需求。例如,40億參數(shù)的模型適合移動設(shè)備,80億參數(shù)的模型可順暢部署于計算機(jī)和汽車系統(tǒng),而320億參數(shù)的模型則備受大型企業(yè)青睞。
在衡量數(shù)學(xué)解題能力的AIME25評估中,Qwen 3以81.5分的優(yōu)異成績刷新了開源模型的記錄。在評估編碼能力的LiveCodeBench測試中,Qwen 3突破70分大關(guān),超越Grok3。在評估與人類偏好一致性的ArenaHard評估中,Qwen 3以95.6分的驚人成績超越OpenAI-o1和DeepSeek-R1。
盡管性能大幅提升,Qwen 3的部署成本卻大幅降低。其全功率版本僅需四臺H20 GPU即可部署,內(nèi)存使用量僅為類似性能模型的三分之一。
Qwen-3模型支持119種語言和方言,目前這些模型已在Apache 2.0許可下開源,并可在Hugging Face、ModelScope和Kaggle等平臺上獲取。阿里巴巴還推薦使用SGLang和vLLM等框架進(jìn)行模型部署,同時支持Ollama、LMStudio、MLX、llama.cpp和KTransformers等工具進(jìn)行本地使用。
Qwen-3還專注于智能代理和大型語言模型的應(yīng)用。在評估代理能力的BFCL測試中,Qwen-3以70.8分的新高分超越Gemini2.5-Pro和OpenAI-o1等頂級模型,顯著降低了代理有效利用工具的門檻。
Qwen-3原生支持MCP協(xié)議,具備強(qiáng)大的函數(shù)調(diào)用能力。結(jié)合包含預(yù)建工具調(diào)用模板和解析器的Qwen-Agent框架,它極大地降低了編碼復(fù)雜性,使代理能夠在手機(jī)和計算機(jī)上高效運(yùn)行。
Qwen-3的預(yù)訓(xùn)練數(shù)據(jù)集相比Qwen-2.5顯著擴(kuò)大。Qwen-2.5基于18萬億令牌進(jìn)行預(yù)訓(xùn)練,而Qwen-3則接近翻倍,達(dá)到約36萬億令牌。為構(gòu)建這一龐大數(shù)據(jù)集,Qwen團(tuán)隊(duì)不僅從互聯(lián)網(wǎng)上收集數(shù)據(jù),還從PDF文檔中提取信息,并利用Qwen-2.5-VL和Qwen-2.5等模型提高提取內(nèi)容的質(zhì)量。
為增加數(shù)學(xué)和編碼數(shù)據(jù)的數(shù)量,Qwen團(tuán)隊(duì)利用Qwen-2.5-Math和Qwen-2.5-Coder等專門模型合成數(shù)據(jù),包括教科書、問答對和代碼片段等多種格式。
預(yù)訓(xùn)練過程分為三個階段。第一階段(S1)在超過30萬億令牌上進(jìn)行,上下文長度為4K令牌,為模型奠定了語言技能和基礎(chǔ)知識。第二階段(S2)通過增加STEM、編程和推理任務(wù)等知識密集型數(shù)據(jù)的比例來改進(jìn)數(shù)據(jù)集,并額外預(yù)訓(xùn)練5萬億令牌。在最終階段,Qwen團(tuán)隊(duì)使用高質(zhì)量長上下文數(shù)據(jù)將上下文長度擴(kuò)展至32K令牌,確保模型能有效處理更長輸入。
得益于模型架構(gòu)的改進(jìn)、訓(xùn)練數(shù)據(jù)的增加以及訓(xùn)練方法的優(yōu)化,Qwen3 Dense基礎(chǔ)模型的性能可與參數(shù)更多的Qwen2.5基礎(chǔ)模型相媲美。例如,Qwen3-1.7B/4B/8B/14B/32B-Base的性能與Qwen2.5-3B/7B/14B/32B/72B-Base相當(dāng)。尤其在STEM、編碼和推理等領(lǐng)域,Qwen3 Dense基礎(chǔ)模型甚至超越了規(guī)模更大的Qwen2.5模型。
至于Qwen3 MoE基礎(chǔ)模型,它們在性能上與Qwen2.5 Dense基礎(chǔ)模型相當(dāng),但激活參數(shù)僅占10%,從而顯著節(jié)省了訓(xùn)練和推理成本。
在后續(xù)訓(xùn)練中,為開發(fā)兼具推理和快速響應(yīng)能力的混合模型,Qwen團(tuán)隊(duì)實(shí)施了四階段訓(xùn)練過程,包括:長推理鏈的冷啟動、長推理鏈的強(qiáng)化學(xué)習(xí)、推理模式的整合以及一般強(qiáng)化學(xué)習(xí)。