隨著2024年的尾聲漸近,全球大模型技術(shù)的競(jìng)爭(zhēng)格局再次成為焦點(diǎn)。近日,智源研究院公布了下半年的大模型綜合評(píng)測(cè)結(jié)果,覆蓋了超過100個(gè)開源與閉源模型,涉及文本、語(yǔ)音、圖像和視頻等多個(gè)領(lǐng)域,為業(yè)界提供了一份詳盡的技術(shù)參考。
此次評(píng)測(cè)中,智源研究院不僅評(píng)估了模型的常規(guī)能力,還進(jìn)一步擴(kuò)展了任務(wù)解決能力的內(nèi)涵,新增了數(shù)據(jù)處理、高級(jí)編程和工具調(diào)用等相關(guān)任務(wù)。同時(shí),評(píng)測(cè)首次引入了面向真實(shí)金融量化交易場(chǎng)景的應(yīng)用能力評(píng)估,以及基于模型辯論的對(duì)比評(píng)估方式,對(duì)模型的邏輯推理、觀點(diǎn)理解和語(yǔ)言表達(dá)等核心能力進(jìn)行了深入分析。
在語(yǔ)言模型方面,盡管針對(duì)一般中文場(chǎng)景的開放式問答或生成任務(wù),模型能力已趨于穩(wěn)定,但在復(fù)雜場(chǎng)景任務(wù)中,國(guó)內(nèi)頭部語(yǔ)言模型與國(guó)際一流水平仍存在差距。評(píng)測(cè)結(jié)果顯示,OpenAI的o1-mini-2024-09-12和Google的Gemini-1.5-pro-latest分別位列第一和第二,阿里巴巴的Qwen-max-0919和字節(jié)跳動(dòng)的Doubao-pro-32k-preview緊隨其后,分列第三和第四。
文生圖多模態(tài)模型方面,相較于今年上半年,參評(píng)的頭部模型已具備中文文字生成能力,但整體仍存在復(fù)雜場(chǎng)景人物變形的情況。針對(duì)常識(shí)或知識(shí)性推理任務(wù),模型在小于3的數(shù)量關(guān)系任務(wù)上有所提升,但大于3的數(shù)量關(guān)系依然無(wú)法處理。評(píng)測(cè)結(jié)果顯示,騰訊的Hunyuan Image位列第一,字節(jié)跳動(dòng)的Doubao image v2.1和Ideogram 2.0分居第二和第三。
文生視頻多模態(tài)模型在畫質(zhì)、動(dòng)態(tài)性和鏡頭語(yǔ)言等方面均有所提升,但仍存在大幅度動(dòng)作變形、無(wú)法理解物理規(guī)律等問題。評(píng)測(cè)結(jié)果顯示,快手的可靈1.5(高品質(zhì))、字節(jié)跳動(dòng)的即夢(mèng)P2.0 pro、愛詩(shī)科技的PixVerse V3等模型位列前五。
語(yǔ)音語(yǔ)言模型方面,得益于文本大模型的進(jìn)步,模型能力得到了顯著提升,但在具體任務(wù)上與專家模型仍存在差距。評(píng)測(cè)結(jié)果顯示,阿里巴巴的Qwen2-Audio位居第一,香港中文大學(xué)與微軟合作的WavLLM、清華大學(xué)與字節(jié)跳動(dòng)合作的Salmon分別位列第二和第三。
智源研究院還聯(lián)合海淀區(qū)教師進(jìn)修學(xué)校新編了K12全學(xué)段、多學(xué)科試卷,以考察大模型與人類學(xué)生的能力差異。評(píng)測(cè)發(fā)現(xiàn),盡管模型在K12學(xué)科測(cè)驗(yàn)中的綜合得分有所提升,但仍與海淀學(xué)生的平均水平存在差距,且普遍存在“文強(qiáng)理弱”的情況。
智源研究院還推出了模型辯論平臺(tái)Flageval Debate,對(duì)模型的邏輯推理、觀點(diǎn)理解和語(yǔ)言表達(dá)等核心能力進(jìn)行了深入評(píng)估。評(píng)測(cè)發(fā)現(xiàn),大模型在辯論中普遍缺乏框架意識(shí),論據(jù)經(jīng)不起推敲,且更擅長(zhǎng)反駁而非闡述觀點(diǎn)。
此次評(píng)測(cè)不僅展示了當(dāng)前大模型技術(shù)的最新進(jìn)展,也為未來(lái)技術(shù)的發(fā)展提供了重要參考。智源研究院將繼續(xù)堅(jiān)守科學(xué)、權(quán)威、公正、開放的準(zhǔn)則,通過技術(shù)創(chuàng)新和平臺(tái)升級(jí),推動(dòng)大模型技術(shù)生態(tài)的持續(xù)健康發(fā)展。