在人工智能領(lǐng)域,一場關(guān)于資源與策略的競爭正在悄然上演。知名投資人朱嘯虎指出,大型科技公司正陷入?yún)?shù)升級的“軍備競賽”,而初創(chuàng)企業(yè)則尋求在大廠忽視的細分市場中尋找突破。醫(yī)療行業(yè),以其高風險性和對精準性的極高要求,成為數(shù)字化進程中的一塊難啃的骨頭。然而,這并未阻止AI企業(yè)在這一領(lǐng)域深耕細作,特別是在垂直行業(yè)大模型上的投入。
醫(yī)療行業(yè)對AI的需求遠非通用模型所能滿足。方舟健客技術(shù)高級副總裁郭陟比喻道,通用大模型如同初出茅廬的醫(yī)學生,雖具備廣泛的基礎(chǔ)知識,但缺乏實戰(zhàn)經(jīng)驗。要成為某一領(lǐng)域的專家,如婦科專家,需要長時間的臨床實踐、科研學習和經(jīng)驗積累。醫(yī)療AI的發(fā)展路徑亦是如此,從通用大模型向垂直大模型的進化,是提升服務(wù)質(zhì)量和專業(yè)性的關(guān)鍵。
壹生檢康,一家專注于女性健康檢測的公司,深刻體會到了這一轉(zhuǎn)變的必要性。在女性健康領(lǐng)域深耕三年后,他們發(fā)現(xiàn)通用大模型在解決實際問題時存在諸多不足,如回答不夠準確、特定場景下的自由發(fā)揮難以控制等。開源DeepSeek的出現(xiàn),為行業(yè)帶來了對大模型更深層次的理解,也為垂直大模型的低成本實現(xiàn)提供了可能。在此背景下,壹生檢康決定自研婦科垂直大模型。
在選擇基礎(chǔ)模型時,團隊綜合考慮了技術(shù)資源和模型性能,最終選定了32B參數(shù)量的QwQ_32B模型。這一選擇基于其良好的醫(yī)學知識預(yù)訓練基礎(chǔ)、適中的參數(shù)規(guī)模以及滿足實時診斷咨詢需求的推理速度。該模型具備輸出推理過程的能力,符合臨床診斷對可解釋性的高要求。
數(shù)據(jù)準備與訓練策略方面,團隊利用旗下toC應(yīng)用“閨蜜醫(yī)生”平臺積累的真實病例數(shù)據(jù),通過DeepSeek蒸餾出診斷過程、結(jié)果和建議,用于第一輪訓練。然而,未經(jīng)標注的蒸餾數(shù)據(jù)對模型能力提升有限。第二輪訓練采用了醫(yī)生團隊逐條審核標注的數(shù)據(jù),顯著提升了模型診斷準確率。針對數(shù)據(jù)失衡問題,團隊通過規(guī)則合成補充了更多數(shù)據(jù),構(gòu)建起覆蓋全癥狀、均衡化的數(shù)據(jù)集。
為了高效評估模型性能,團隊設(shè)計了自動化評估裁判模型,能夠快速對比訓練前后的準確率變化。同時,還邀請了多位三甲醫(yī)院的婦科醫(yī)生對模型輸出進行人工評估,確保評估結(jié)果的公正性和客觀性。
經(jīng)過多輪訓練和評估,豆蔻婦科大模型在月經(jīng)不調(diào)、異常出血、白帶異常等六大癥狀上的診斷準確率達到了77.1%,高出DeepSeek 7%。在特定疾病的診斷上,如月經(jīng)推遲,豆蔻模型能夠考慮更多因素,如用戶近期服用的藥物對內(nèi)分泌的影響,展現(xiàn)出更高的專業(yè)度和性能。
豆蔻婦科大模型的應(yīng)用場景廣泛,既可用于服務(wù)C端用戶,提供私密、專業(yè)、精準的健康咨詢建議,也可用于賦能B端機構(gòu),如基層診所和大健康機構(gòu),緩解專業(yè)婦科醫(yī)生資源匱乏的問題。通過簡單的自有知識庫+RAG訓練,這些機構(gòu)可以快速上線自己的婦科AI醫(yī)生,提升服務(wù)質(zhì)量。
在模型部署方面,團隊對訓練后的模型進行了量化處理,以降低推理成本。經(jīng)過測試,最終選擇了INT8量化版本,在保證準確率的同時,實現(xiàn)了在較少資源上的高效運行。
豆蔻婦科大模型的成功研發(fā),不僅提升了醫(yī)療服務(wù)的專業(yè)性和精準度,也為AI在醫(yī)療行業(yè)的應(yīng)用提供了新的思路和方向。隨著技術(shù)的不斷進步和應(yīng)用場景的拓展,AI將在醫(yī)療領(lǐng)域發(fā)揮越來越重要的作用。