代碼大模型爆發(fā)：aiXcoder等如何突破技術(shù)瓶頸引領(lǐng)行業(yè)變革？

發(fā)布時(shí)間：2025-04-21 22:04 來(lái)源：鈦媒體APP 作者：江紫萱

隨著通用大模型性能的迅猛提升和推理算力成本的急劇下降，垂直領(lǐng)域的大模型正迎來(lái)前所未有的發(fā)展機(jī)遇。其中，代碼大模型尤為引人矚目，不僅吸引了市場(chǎng)的廣泛關(guān)注，還激發(fā)了資本的濃厚興趣。

據(jù)Gartner在《2024年全球IT支出預(yù)測(cè)》中的分析，全球軟件開(kāi)發(fā)人力成本年均增長(zhǎng)率約為7-9%，預(yù)計(jì)到2024年，全球軟件相關(guān)支出（涵蓋開(kāi)發(fā)和運(yùn)維）將達(dá)到1.2萬(wàn)億美元，其中人力成本占比高達(dá)50%，即6000億美元。在中國(guó)，互聯(lián)網(wǎng)巨頭們面臨的軟件開(kāi)發(fā)人力成本壓力更為顯著，部分公司的薪酬及相關(guān)支出年增幅已接近15%。

然而，與高企的軟件開(kāi)發(fā)需求相比，全球軟件工程師的缺口卻在持續(xù)擴(kuò)大。數(shù)據(jù)顯示，未來(lái)十年這一缺口可能達(dá)到數(shù)千萬(wàn)，成為制約各行各業(yè)數(shù)字化轉(zhuǎn)型的關(guān)鍵因素。在此背景下，代碼大模型憑借其獨(dú)特的優(yōu)勢(shì)，成為了少數(shù)具備明確商業(yè)化條件和付費(fèi)意愿的垂直行業(yè)大模型之一。

以Cursor為例，該產(chǎn)品僅用21個(gè)月便實(shí)現(xiàn)了1億美元的ARR（年度重復(fù)收入），成為歷史上增長(zhǎng)最快的SaaS產(chǎn)品之一，估值高達(dá)100億美元。Gartner還預(yù)測(cè)，到2026年，AI將自動(dòng)化全球30%的編碼任務(wù)，這意味著代碼大模型市場(chǎng)潛力巨大，是一個(gè)可見(jiàn)的千億美元級(jí)市場(chǎng)。

海外市場(chǎng)上，GitHub Copilot、Cursor、Codeium等AI編程產(chǎn)品已經(jīng)取得了顯著的成功。而在國(guó)內(nèi)，通用大模型廠商也紛紛涉足代碼大模型領(lǐng)域，如阿里的通義靈碼、騰訊的騰訊云AI代碼助手、華為的Code Arts、字節(jié)跳動(dòng)的豆包Mars Code以及百度的文心快碼等。京東、訊飛、昆侖萬(wàn)維、DeepSeek、智譜等多家通用大模型廠商也在積極布局。

在這些眾多玩家中，孵化于北大軟件工程研究所的aiXcoder憑借其深厚的積淀和卓越的模型性能脫穎而出。依托北大軟件工程研究所60余年的積累，aiXcoder團(tuán)隊(duì)從多篇頂會(huì)論文奠基，到發(fā)布全球首個(gè)十億級(jí)和百億級(jí)參數(shù)的國(guó)產(chǎn)代碼大模型，再到在國(guó)內(nèi)諸多大廠頭部客戶中實(shí)踐落地，實(shí)現(xiàn)了從實(shí)驗(yàn)室理論到產(chǎn)業(yè)價(jià)值的閉環(huán)突破。

2024年4月，aiXcoder發(fā)布了aiXcoder-7B模型，并開(kāi)源。該模型在多個(gè)評(píng)測(cè)集的評(píng)測(cè)結(jié)果中超越了同級(jí)別參數(shù)規(guī)模的眾多開(kāi)源模型。與Qwen2.5-Coder-7B、DeepSeekCoder-7B、CodeLlama-7B等模型相比，aiXcoder-7B在代碼生成與補(bǔ)全效果上均達(dá)到了SOTA（當(dāng)前最佳）水平。

今年年初，aiXcoder（北京硅心科技有限公司）完成了A++輪融資，由中關(guān)村發(fā)展集團(tuán)旗下中關(guān)村資本和中關(guān)村協(xié)同創(chuàng)新基金共同參投。截至目前，該公司已獲得4輪融資，吸引了伽利略資本、高瓴創(chuàng)投、彬復(fù)資本、清流資本、三七互娛等多家頂級(jí)風(fēng)險(xiǎn)投資機(jī)構(gòu)的持續(xù)注資。

近日，aiXcoder的商業(yè)合伙人兼總裁劉德欣接受了鈦媒體創(chuàng)投家的獨(dú)家訪談。他深入探討了當(dāng)前代碼大模型行業(yè)面臨的技術(shù)瓶頸和未來(lái)趨勢(shì)，并分享了aiXcoder在這一前沿領(lǐng)域的獨(dú)到見(jiàn)解與實(shí)踐路徑。

劉德欣表示，通用大模型無(wú)法取代代碼大模型的原因在于，通用大模型的構(gòu)建和訓(xùn)練方式基于自然語(yǔ)言，而代碼具有更強(qiáng)的結(jié)構(gòu)性和上下文依賴性。通用大模型主要利用互聯(lián)網(wǎng)上公開(kāi)的數(shù)據(jù)進(jìn)行訓(xùn)練，無(wú)法涵蓋特殊行業(yè)或企業(yè)的私有數(shù)據(jù)。因此，通用大模型在支持通用領(lǐng)域的軟件開(kāi)發(fā)任務(wù)時(shí)尚可，但在處理企業(yè)內(nèi)的軟件開(kāi)發(fā)需求時(shí)則力不從心。

關(guān)于aiXcoder-7B的獨(dú)特技術(shù)優(yōu)勢(shì)，劉德欣指出，團(tuán)隊(duì)在ICSE 2025（國(guó)際軟件工程大會(huì)）上發(fā)表的最新論文中提出了三大貢獻(xiàn)。首先，采用結(jié)構(gòu)化Span的形式構(gòu)建模型，并創(chuàng)新性地提出了“結(jié)構(gòu)化填充中間目標(biāo)（SFIM）”的訓(xùn)練方法。其次，提供了跨文件上下文理解的系統(tǒng)性優(yōu)化方案。最后，創(chuàng)新性地發(fā)布了FIM-eval評(píng)測(cè)集，基于真實(shí)開(kāi)發(fā)場(chǎng)景的數(shù)據(jù)進(jìn)行測(cè)評(píng)，顯示aiXcoder-7B在代碼生成與補(bǔ)全方面效果最好，且生成的代碼更加簡(jiǎn)潔。

在談到企業(yè)在私域大模型落地過(guò)程中關(guān)注的要素時(shí)，劉德欣總結(jié)了四大原則：掌握模型自治權(quán)、實(shí)現(xiàn)模型層的高解耦、建立可復(fù)用的數(shù)據(jù)框架以及始終關(guān)注業(yè)務(wù)。他建議企業(yè)不要綁定任何單一的大模型廠商，也不要依賴于某個(gè)特定的開(kāi)源或閉源模型，而是要保持接口的標(biāo)準(zhǔn)化和底層算力的適配性，以便隨時(shí)集成業(yè)界最SOTA的大模型。

面對(duì)大廠在代碼大模型領(lǐng)域的激烈競(jìng)爭(zhēng)，劉德欣表示，aiXcoder將憑借在軟件工程領(lǐng)域十余年的工具和方法積累，形成技術(shù)和產(chǎn)品壁壘。同時(shí)，aiXcoder更注重深入了解客戶的復(fù)雜及私域需求，提供定制化和個(gè)性化的解決方案。aiXcoder也在積極與大廠開(kāi)展合作，共同解決企業(yè)私域落地問(wèn)題。

對(duì)于代碼大模型的終極形態(tài)和人類程序員的角色定位，劉德欣認(rèn)為，終極形態(tài)將實(shí)現(xiàn)完全的智能化、自動(dòng)化的軟件開(kāi)發(fā)過(guò)程。然而，無(wú)論是短期還是長(zhǎng)期，人類程序員都具有不可替代性。他們擁有深厚的業(yè)務(wù)知識(shí)和豐富的實(shí)踐經(jīng)驗(yàn)，能夠進(jìn)行復(fù)雜的系統(tǒng)架構(gòu)設(shè)計(jì)與業(yè)務(wù)流程優(yōu)化，并具備創(chuàng)新思維和創(chuàng)造力。因此，在未來(lái)，人類程序員可能不再需要手動(dòng)編寫(xiě)大量代碼，但仍需將更多精力投入到需求分析、算法和系統(tǒng)架構(gòu)設(shè)計(jì)以及對(duì)AI生成結(jié)果的審核和業(yè)務(wù)創(chuàng)新上。

最后，劉德欣透露，aiXcoder已完成產(chǎn)品升級(jí)，創(chuàng)新推出內(nèi)置MCP功能的軟件開(kāi)發(fā)Agent。該產(chǎn)品正在內(nèi)測(cè)中，將為企業(yè)和開(kāi)發(fā)者帶來(lái)更好的操作體驗(yàn)和開(kāi)發(fā)價(jià)值。無(wú)論是私有化部署的安全可靠性、研發(fā)周期的大幅縮短、企業(yè)私有化工具的無(wú)縫集成還是成本的精細(xì)化控制，aiXcoder Agent都展現(xiàn)出了顯著的優(yōu)勢(shì)。

更多>同類內(nèi)容