在人工智能領(lǐng)域,大模型的評測一直是衡量其能力的重要標尺。如同一場精心設(shè)計的考試,評測不僅揭示了技術(shù)的現(xiàn)狀,還指引著模型開發(fā)的未來方向,幫助開發(fā)者識別并解決潛在問題。
然而,構(gòu)建一套科學、公正的大模型評測體系遠比想象中復雜。大模型如同多才多藝的考生,精通多種語言,跨領(lǐng)域知識廣博,一旦洞悉考試模式,便能通過反復練習取得高分,這無疑給評測的公平性帶來了挑戰(zhàn)。
全球范圍內(nèi),大模型評測榜單琳瑯滿目,據(jù)統(tǒng)計,數(shù)量已超過50個。不同機構(gòu)依據(jù)各自標準設(shè)立的評測體系,使得同一模型在不同榜單上的排名大相徑庭,這一現(xiàn)象引發(fā)了公眾對評測公正性的廣泛討論。
為了應(yīng)對這一挑戰(zhàn),智源研究院于2023年推出了Flageval(天秤)大語言模型評測體系,該體系覆蓋了語言、多模態(tài)、語音語言等多種模型類型,并針對不同類型設(shè)計了詳細的評測指標和方法。近日,智源研究院再次發(fā)布了升級后的Flageval新版本,現(xiàn)已涵蓋全球800多個開源和閉源模型,評測題目超過200萬條。
為了確保評測的公平性,智源研究院采取了一系列措施。對于開源模型,采用模型發(fā)布方推薦的推理代碼和運行環(huán)境;對于閉源模型,則通過公開的API以普通用戶身份進行訪問,確保所有模型面對相同的評測條件。智源研究院智能評測組負責人楊熙表示,評測過程中,模型并不知道自己正在接受測試,從而避免了針對性優(yōu)化的可能。
盡管如此,大模型評測仍面臨諸多挑戰(zhàn)。一些公司為了取得好成績,不惜采取各種刷分手段,如反復提交不同版本的模型,甚至提前獲取評測數(shù)據(jù)集進行訓練。這些行為嚴重損害了評測結(jié)果的公正性和可靠性。
為了應(yīng)對這些挑戰(zhàn),智源研究院不斷更新評測題目,引入更難的考題以拉開模型間的差距。同時,評測數(shù)據(jù)集不僅包括開源社區(qū)的公開數(shù)據(jù)集,還涵蓋了智源研究院自建的數(shù)據(jù)集,以確保模型不會針對特定數(shù)據(jù)集進行優(yōu)化。智源還嘗試了一種新穎的評測方式——讓大模型進行實時辯論。
在辯論賽中,模型需要理解辯題、構(gòu)建論點、反駁對方觀點,這不僅考驗了模型的思辨能力、邏輯推理能力,還鍛煉了其語言表達能力和綜合素質(zhì)。智源研究院在現(xiàn)場演示了一場大模型之間的實時辯論賽,辯題為“功夫熊貓和孫悟空誰更適合做隊友”。兩個大模型展開了激烈的對話,引經(jīng)據(jù)典,談話充滿張力,讓觀眾直觀地感受到了不同模型的能力差異。
智源研究院副院長兼總工程師林詠華強調(diào),榜單排名不應(yīng)成為評價模型的唯一標準。用戶在選擇模型時,應(yīng)根據(jù)自身需求和應(yīng)用場景,綜合考慮模型的各項指標。評測還需要更加關(guān)注模型的實際應(yīng)用能力,如響應(yīng)速度、用戶體驗等。她表示,大模型評測是一個復雜的系統(tǒng)工程,需要行業(yè)共同努力,不斷探索新的評測方法,構(gòu)建高質(zhì)量的評測數(shù)據(jù)集,并加強合作,推動統(tǒng)一評測標準的建立。
同時,林詠華還提到,隨著技術(shù)的不斷發(fā)展,更多創(chuàng)新的大模型評測體系將不斷涌現(xiàn)。這些評測體系將更加貼近實際應(yīng)用場景,全面考察模型的綜合能力,為人工智能技術(shù)的健康發(fā)展提供有力支撐。