隨著通用大模型性能的迅猛提升和推理算力成本的急劇下降,垂直領(lǐng)域的大模型正迎來(lái)前所未有的發(fā)展機(jī)遇。其中,代碼大模型尤為引人矚目,不僅吸引了市場(chǎng)的廣泛關(guān)注,還激發(fā)了資本的濃厚興趣。
據(jù)Gartner在《2024年全球IT支出預(yù)測(cè)》中的分析,全球軟件開(kāi)發(fā)人力成本年均增長(zhǎng)率約為7-9%,預(yù)計(jì)到2024年,全球軟件相關(guān)支出(涵蓋開(kāi)發(fā)和運(yùn)維)將達(dá)到1.2萬(wàn)億美元,其中人力成本占比高達(dá)50%,即6000億美元。在中國(guó),互聯(lián)網(wǎng)巨頭們面臨的軟件開(kāi)發(fā)人力成本壓力更為顯著,部分公司的薪酬及相關(guān)支出年增幅已接近15%。
然而,與高企的軟件開(kāi)發(fā)需求相比,全球軟件工程師的缺口卻在持續(xù)擴(kuò)大。數(shù)據(jù)顯示,未來(lái)十年這一缺口可能達(dá)到數(shù)千萬(wàn),成為制約各行各業(yè)數(shù)字化轉(zhuǎn)型的關(guān)鍵因素。在此背景下,代碼大模型憑借其獨(dú)特的優(yōu)勢(shì),成為了少數(shù)具備明確商業(yè)化條件和付費(fèi)意愿的垂直行業(yè)大模型之一。
以Cursor為例,該產(chǎn)品僅用21個(gè)月便實(shí)現(xiàn)了1億美元的ARR(年度重復(fù)收入),成為歷史上增長(zhǎng)最快的SaaS產(chǎn)品之一,估值高達(dá)100億美元。Gartner還預(yù)測(cè),到2026年,AI將自動(dòng)化全球30%的編碼任務(wù),這意味著代碼大模型市場(chǎng)潛力巨大,是一個(gè)可見(jiàn)的千億美元級(jí)市場(chǎng)。
海外市場(chǎng)上,GitHub Copilot、Cursor、Codeium等AI編程產(chǎn)品已經(jīng)取得了顯著的成功。而在國(guó)內(nèi),通用大模型廠商也紛紛涉足代碼大模型領(lǐng)域,如阿里的通義靈碼、騰訊的騰訊云AI代碼助手、華為的Code Arts、字節(jié)跳動(dòng)的豆包Mars Code以及百度的文心快碼等。京東、訊飛、昆侖萬(wàn)維、DeepSeek、智譜等多家通用大模型廠商也在積極布局。
在這些眾多玩家中,孵化于北大軟件工程研究所的aiXcoder憑借其深厚的積淀和卓越的模型性能脫穎而出。依托北大軟件工程研究所60余年的積累,aiXcoder團(tuán)隊(duì)從多篇頂會(huì)論文奠基,到發(fā)布全球首個(gè)十億級(jí)和百億級(jí)參數(shù)的國(guó)產(chǎn)代碼大模型,再到在國(guó)內(nèi)諸多大廠頭部客戶中實(shí)踐落地,實(shí)現(xiàn)了從實(shí)驗(yàn)室理論到產(chǎn)業(yè)價(jià)值的閉環(huán)突破。
2024年4月,aiXcoder發(fā)布了aiXcoder-7B模型,并開(kāi)源。該模型在多個(gè)評(píng)測(cè)集的評(píng)測(cè)結(jié)果中超越了同級(jí)別參數(shù)規(guī)模的眾多開(kāi)源模型。與Qwen2.5-Coder-7B、DeepSeekCoder-7B、CodeLlama-7B等模型相比,aiXcoder-7B在代碼生成與補(bǔ)全效果上均達(dá)到了SOTA(當(dāng)前最佳)水平。
今年年初,aiXcoder(北京硅心科技有限公司)完成了A++輪融資,由中關(guān)村發(fā)展集團(tuán)旗下中關(guān)村資本和中關(guān)村協(xié)同創(chuàng)新基金共同參投。截至目前,該公司已獲得4輪融資,吸引了伽利略資本、高瓴創(chuàng)投、彬復(fù)資本、清流資本、三七互娛等多家頂級(jí)風(fēng)險(xiǎn)投資機(jī)構(gòu)的持續(xù)注資。
近日,aiXcoder的商業(yè)合伙人兼總裁劉德欣接受了鈦媒體創(chuàng)投家的獨(dú)家訪談。他深入探討了當(dāng)前代碼大模型行業(yè)面臨的技術(shù)瓶頸和未來(lái)趨勢(shì),并分享了aiXcoder在這一前沿領(lǐng)域的獨(dú)到見(jiàn)解與實(shí)踐路徑。
劉德欣表示,通用大模型無(wú)法取代代碼大模型的原因在于,通用大模型的構(gòu)建和訓(xùn)練方式基于自然語(yǔ)言,而代碼具有更強(qiáng)的結(jié)構(gòu)性和上下文依賴性。通用大模型主要利用互聯(lián)網(wǎng)上公開(kāi)的數(shù)據(jù)進(jìn)行訓(xùn)練,無(wú)法涵蓋特殊行業(yè)或企業(yè)的私有數(shù)據(jù)。因此,通用大模型在支持通用領(lǐng)域的軟件開(kāi)發(fā)任務(wù)時(shí)尚可,但在處理企業(yè)內(nèi)的軟件開(kāi)發(fā)需求時(shí)則力不從心。
關(guān)于aiXcoder-7B的獨(dú)特技術(shù)優(yōu)勢(shì),劉德欣指出,團(tuán)隊(duì)在ICSE 2025(國(guó)際軟件工程大會(huì))上發(fā)表的最新論文中提出了三大貢獻(xiàn)。首先,采用結(jié)構(gòu)化Span的形式構(gòu)建模型,并創(chuàng)新性地提出了“結(jié)構(gòu)化填充中間目標(biāo)(SFIM)”的訓(xùn)練方法。其次,提供了跨文件上下文理解的系統(tǒng)性優(yōu)化方案。最后,創(chuàng)新性地發(fā)布了FIM-eval評(píng)測(cè)集,基于真實(shí)開(kāi)發(fā)場(chǎng)景的數(shù)據(jù)進(jìn)行測(cè)評(píng),顯示aiXcoder-7B在代碼生成與補(bǔ)全方面效果最好,且生成的代碼更加簡(jiǎn)潔。
在談到企業(yè)在私域大模型落地過(guò)程中關(guān)注的要素時(shí),劉德欣總結(jié)了四大原則:掌握模型自治權(quán)、實(shí)現(xiàn)模型層的高解耦、建立可復(fù)用的數(shù)據(jù)框架以及始終關(guān)注業(yè)務(wù)。他建議企業(yè)不要綁定任何單一的大模型廠商,也不要依賴于某個(gè)特定的開(kāi)源或閉源模型,而是要保持接口的標(biāo)準(zhǔn)化和底層算力的適配性,以便隨時(shí)集成業(yè)界最SOTA的大模型。
面對(duì)大廠在代碼大模型領(lǐng)域的激烈競(jìng)爭(zhēng),劉德欣表示,aiXcoder將憑借在軟件工程領(lǐng)域十余年的工具和方法積累,形成技術(shù)和產(chǎn)品壁壘。同時(shí),aiXcoder更注重深入了解客戶的復(fù)雜及私域需求,提供定制化和個(gè)性化的解決方案。aiXcoder也在積極與大廠開(kāi)展合作,共同解決企業(yè)私域落地問(wèn)題。
對(duì)于代碼大模型的終極形態(tài)和人類程序員的角色定位,劉德欣認(rèn)為,終極形態(tài)將實(shí)現(xiàn)完全的智能化、自動(dòng)化的軟件開(kāi)發(fā)過(guò)程。然而,無(wú)論是短期還是長(zhǎng)期,人類程序員都具有不可替代性。他們擁有深厚的業(yè)務(wù)知識(shí)和豐富的實(shí)踐經(jīng)驗(yàn),能夠進(jìn)行復(fù)雜的系統(tǒng)架構(gòu)設(shè)計(jì)與業(yè)務(wù)流程優(yōu)化,并具備創(chuàng)新思維和創(chuàng)造力。因此,在未來(lái),人類程序員可能不再需要手動(dòng)編寫(xiě)大量代碼,但仍需將更多精力投入到需求分析、算法和系統(tǒng)架構(gòu)設(shè)計(jì)以及對(duì)AI生成結(jié)果的審核和業(yè)務(wù)創(chuàng)新上。
最后,劉德欣透露,aiXcoder已完成產(chǎn)品升級(jí),創(chuàng)新推出內(nèi)置MCP功能的軟件開(kāi)發(fā)Agent。該產(chǎn)品正在內(nèi)測(cè)中,將為企業(yè)和開(kāi)發(fā)者帶來(lái)更好的操作體驗(yàn)和開(kāi)發(fā)價(jià)值。無(wú)論是私有化部署的安全可靠性、研發(fā)周期的大幅縮短、企業(yè)私有化工具的無(wú)縫集成還是成本的精細(xì)化控制,aiXcoder Agent都展現(xiàn)出了顯著的優(yōu)勢(shì)。