行業(yè)首創(chuàng)領(lǐng)域自約束訓練方案，Baichuan4-Finance 金融場景能力領(lǐng)先GPT-4o近20%

發(fā)布時間：2024-12-23 11:28 來源：GPLP 作者：鐘景軒

12月23日，百川智能發(fā)布全鏈路領(lǐng)域增強大模型Baichuan4-Finance。在高質(zhì)量金融數(shù)據(jù)的基礎(chǔ)上，通過行業(yè)首創(chuàng)的領(lǐng)域自約束訓練方案，Baichuan4-Finance實現(xiàn)了金融能力和通用能力同步提升的效果，極大提高了金融場景的整體可用性。其金融專業(yè)能力和場景應用能力大幅領(lǐng)先GPT-4o，在中國人民大學財政金融學院新近發(fā)布的評測體系FLAME以及國內(nèi)主流開源金融評測基準FinancelQ上均登上榜首。

Baichuan4-Finance API現(xiàn)已在百川智能官網(wǎng)正式上線，網(wǎng)址：https://platform.baichuan-ai.com/finPage

整體準確率領(lǐng)先GPT-4o近20%，多個金融評測榜單第一

FLAME（Financial Large-Language Model Assessment and Metrics evaluation）是中國人民大學財政金融學院12月17日發(fā)布的金融評測體系（github地址：https://github.com/FLAME-ruc/FLAME/tree/main）。

作為金融領(lǐng)域最新的評測體系，F(xiàn)LAME兼顧專業(yè)性和實用性，由兩個方向的評測基準組成。其中，F(xiàn)LAME-Cer主要面向模型的專業(yè)金融能力評測，覆蓋了CPA、CFA、FRM等14類權(quán)威金融資格認證；FLAME-Sce則側(cè)重模型的場景應用能力，包含10個一級核心金融業(yè)務(wù)場景，21個二級細分金融業(yè)務(wù)場景，近百個三級金融應用任務(wù)。

FLAME-Cer評測結(jié)果顯示，Baichuan4-Finance在銀行、保險、基金、證券等多個資格認證領(lǐng)域的準確率均突破了95%，整體準確率93.62%，大幅領(lǐng)先GPT-4o和XuanYuan3-70B-Chat，超出GPT-4o近20%。GPT-4o是金融領(lǐng)域公認的綜合實力最強的通用模型之一，而XuanYuan3-70B-Chat則是國內(nèi)首個開源中文金融大模型。

在FLAME-Sce評測中，Baichuan4-Finance一級核心金融業(yè)務(wù)場景的整體可用率達84.15%，其金融數(shù)據(jù)計算、金融知識理論等場景的可用率更是超過90%，實際應用場景中的表現(xiàn)非常優(yōu)秀。

不僅如此，在國內(nèi)主流開源金融評測基準FinanceIQ上Baichuan4-Finance同樣超越了GPT-4o和XuanYuan3-70B，整體準確率達到79.23%，領(lǐng)先GPT-4o近13%。

行業(yè)首創(chuàng)領(lǐng)域自約束訓練方案，模型金融專項能力和通用能力同步提升

如何讓模型在提升專業(yè)能力的同時不損失通用能力，是當下大模型落地具體場景最大的阻礙。為解決這一問題，百川智能打造了一套全鏈路領(lǐng)域增強方案，該方案覆蓋了高質(zhì)量數(shù)據(jù)集構(gòu)建、模型預訓練、微調(diào)、強化學習等從模型研發(fā)到場景應用的全流程。

在模型訓練階段，通過行業(yè)首創(chuàng)的領(lǐng)域自約束訓練技術(shù)，百川智能實現(xiàn)了模型專項能力和通用能力同步提升的效果，極大提升了模型多元場景的可用性。而Baichuan4-Finance正是這一方案的最新成果，全鏈路金融領(lǐng)域增強讓其既掌握了扎實的金融理論基礎(chǔ)，又具備了豐富的多場景實踐應用能力。

具體而言，Baichuan4-Finance的高質(zhì)量金融數(shù)據(jù)集全面且嚴謹，既包含金融專業(yè)教材與學術(shù)著作、頂級金融期刊論文、監(jiān)管機構(gòu)政策文件、金融法律法規(guī)等核心專業(yè)金融知識數(shù)據(jù)，也覆蓋了金融專業(yè)問答集、企業(yè)財報與年度報告、金融類研究分析報告等實踐應用類數(shù)據(jù)，為提升模型金融能力提供了良好的底層支撐。

在此基礎(chǔ)上，Baichuan4-Finance還在領(lǐng)域自約束訓練過程中引入了更高精的通用數(shù)據(jù)，與高質(zhì)量金融數(shù)據(jù)一起進行混合訓練，最終實現(xiàn)了模型通用能力不下降，金融能力穩(wěn)定增長的效果。

百川智能在后訓練環(huán)節(jié)也做了大量增強工作，如：通過合成數(shù)據(jù)、指令數(shù)據(jù)對模型進行有監(jiān)督的微調(diào)；在強化學習策略中，針對數(shù)學計算等金融領(lǐng)域特別關(guān)注的場景進行樣本增強等，進一步提升了模型性能。

為了更好地助力金融企業(yè)將大模型應用到各種真實場景，百川智能還在官網(wǎng)發(fā)布了Baichuan4-Finance全鏈路領(lǐng)域增強的技術(shù)報告，詳細闡述了包括“領(lǐng)域自約束訓練”在內(nèi)的各項技術(shù)細節(jié)。此舉不僅將極大增強金融行業(yè)對大模型的認知，還將有效提升金融企業(yè)部署大模型的能力與意愿。

全方位助力金融機構(gòu)智能化升級和業(yè)務(wù)創(chuàng)新

攻克了專項能力和泛化能力平衡問題這一模型落地應用的最大阻礙后，Baichuan4-Finance能夠在效率提升、風控合規(guī)、客服、決策支持等諸多層面為金融行業(yè)帶來全方位的價值提升。例如，它能夠幫助金融從業(yè)者處理文檔審核、客戶咨詢、產(chǎn)品營銷等大量日常工作，還能依托深厚的金融專業(yè)知識和法律法規(guī)理解能力，為機構(gòu)提供精準的風險識別和合規(guī)保障。還可以憑借強大的數(shù)據(jù)分析能力為管理層提供專業(yè)的市場洞察和決策建議。

用友表示，Baichuan4-Finance憑借其海量的金融專業(yè)知識儲備，在財稅知識問答場景中，準確率較Baichuan4-Turbo提升了20%，較GPT-4o提升了10%，表現(xiàn)尤為亮眼。

軟通動力表示，我們的客戶在實際應用中既要求大模型具備通用能力，又希望其在金融場景中有所專長。經(jīng)過對比測試，我們發(fā)現(xiàn)Baichuan4-Finance完美契合這一需求，不僅通用能力出色，金融專業(yè)能力也得到了增強。自部署B(yǎng)aichuan4-Finance以來，我們的客戶滿意度提升了20%。

目前百川智能已經(jīng)服務(wù)了數(shù)千家客戶，包括北電數(shù)智、完美世界游戲、愛奇藝、360集團、生學教育、愛學堂等各行業(yè)的領(lǐng)軍企業(yè)，并且與信雅達、用友、軟通動力、新致軟件、達觀數(shù)據(jù)、華勝天成等多家行業(yè)生態(tài)伙伴，以及華為、中科曙光等硬件廠商，中國移動、中國電信、中國聯(lián)通等運營商達成合作，攜手構(gòu)建百川大模型生態(tài)。

更多>同類內(nèi)容