智能體和傳統(tǒng)的問答機(jī)器不一樣,它們能和用戶連續(xù)對話,一步步深入問題的核心,這是它們的強(qiáng)項(xiàng)。前幾天,我就用智能體解決了obsidian插件沖突的問題。
不過,進(jìn)一步探索中,我發(fā)現(xiàn),智能體還有很多問題需要解決。什么問題呢?
第一個(gè):使用距離。
使用距離?什么意思?別人不會(huì)用嗎?不是的。準(zhǔn)確說,是用戶習(xí)慣。
智能體不僅是一個(gè)聊天機(jī)器人,更像一個(gè)超級大腦,我們用聊天的方式跟它交流,但要認(rèn)識到它真的可以解決系統(tǒng)問題。
這個(gè)過程,不是簡單的一問一答那么簡單,是可以讓思考更上一層樓,讓效率翻一倍。
舉個(gè)身邊的例子:
前幾天,有個(gè)朋友在群里說要做PPT。咱們以前做PPT,基本上兩種方法。第一種非常老土,不用AI,自己把內(nèi)容整理好,結(jié)構(gòu)搭起來,然后動(dòng)手做,這種方法雖然踏實(shí),但費(fèi)時(shí)費(fèi)力,效率不高。
第二種呢,用AI幫忙,先給個(gè)提示詞,再給AI一些背景資料,讓它根據(jù)提示詞和資料來輔助你整理后,再給新的提示詞,讓它幫我們把內(nèi)容做得更結(jié)構(gòu)化,最后,用這些內(nèi)容去做PPT。
這種方法效率提升了,但還缺少點(diǎn)人性化的互動(dòng)。智能體呢,它更高級,屬于第三種方法。
我們可以直接跟它說:接下來有個(gè)做PPT的任務(wù),你跟我著一起完成。我先給你一些資料,你學(xué)習(xí)下,然后,學(xué)習(xí)過程中,給我提出問題,類似于問我要多少頁?每頁突出什么?
如此循環(huán)漸進(jìn)的像一個(gè)合作伙伴,不僅理解了需求,還能提出建設(shè)性意見,同時(shí)又節(jié)省了寫提示詞的時(shí)間,還能達(dá)到我們想要的目的。
所以,智能體真的很能干活兒。它是三維思考的。
想用好它,我們得有點(diǎn)項(xiàng)目思維、或者任務(wù)思維,這樣才能發(fā)揮巨大作用;但是,很多人還在用二維思維,你問我答的方式,如果一直這樣想,用智能體的速度和效率就上不去。
比起使用距離,第二個(gè)關(guān)于API的問題要廠商們思考下。
事情是這樣:
前兩天百度上搜比亞迪,看到官網(wǎng)用了智能體,我就跟它說:“幫我找找比亞迪內(nèi)飾的照片?!苯Y(jié)果,你猜怎么著?它給我生成了四張圖。
我差點(diǎn)笑出聲,這不是搞笑嗎?我要生成圖嗎?當(dāng)然不是。我更希望它能直接從官網(wǎng)上給我調(diào)出照片來。
緊接著,我?guī)е蓡?,又試了豆包、騰訊元寶,想讓他們幫我P個(gè)圖。結(jié)果都差不多,我發(fā)現(xiàn)他們對P圖的理解跟我不一樣。
我理解的P圖是用Photoshop那樣去掉背景,但他們好像把P圖理解成生成新照片。
這個(gè)問題可能出在智能體本身。因?yàn)?,它們現(xiàn)在還做不到那種專業(yè)的修圖效果,背后缺少某種插件或能力模塊;只有當(dāng)能調(diào)用這些模塊時(shí),才能幫我修圖。
為什么大公司都做不到智能體處理一整套任務(wù)呢?
因?yàn)?,一個(gè)智能體要完成一個(gè)復(fù)雜的工作流,背后不是靠一個(gè)生成模塊就能搞定的,它要調(diào)動(dòng)很多數(shù)據(jù)和應(yīng)用程序。
打個(gè)比方:
你去餐廳吃飯,不需要知道廚師是怎么做菜的,菜就端到你面前了。但其實(shí),廚師得用各種材料,比如白菜、辣椒、調(diào)料,把它們放到鍋里一炒,菜就出來了。
智能體也是這樣,得調(diào)用各種API,API像菜單一樣,集合所有的服務(wù)和請求,讓不同的軟件能夠互相交流合作,最后才能達(dá)到想要的效果。
現(xiàn)在,很多網(wǎng)站和APP都有自己的API,API不統(tǒng)一,不標(biāo)準(zhǔn)化,這導(dǎo)致智能體沒有足夠的接口可以用,限制了它的發(fā)展。
還有,以前沒有統(tǒng)一的底層開發(fā)框架,技術(shù)團(tuán)隊(duì)開發(fā)智能體時(shí)得從零開始,現(xiàn)在阿里、百度都做了統(tǒng)一開發(fā)框架,解決了底層數(shù)據(jù)處理、模型訓(xùn)練、監(jiān)控部署的問題,但中小型軟件服務(wù)商還是不多。
因此,也就限制了其他能力模塊的發(fā)展。
當(dāng)然,這也是個(gè)好機(jī)會(huì),因?yàn)槿绻腥四茉诩?xì)分場景下,利用自己對特定業(yè)務(wù)場景的了解,開發(fā)出一個(gè)更符合一線需求的智能體,那就有機(jī)會(huì)成功。
比如:
你在教育賽道很多年,憑借個(gè)人對教育技術(shù)和孩子學(xué)習(xí)需求的理解,開發(fā)一個(gè)智能體,幫孩子提升學(xué)習(xí)進(jìn)度和測試成績,就能賺到錢。
所以,API的問題需要時(shí)間和更多中小開發(fā)者入局。
能寫出這些想法,自然不會(huì)錯(cuò)過開發(fā)智能體的好機(jī)會(huì);開發(fā)中,我發(fā)現(xiàn)一個(gè)第三個(gè)問題:能力泛化。
什么意思呢?
起初,我設(shè)計(jì)占卜師智能體,目的讓它進(jìn)行占卜。沒想到,它不僅能占卜,還能算命,甚至能總結(jié)文章。
我以為提示詞沒寫清楚。后來,試了其他智能體,發(fā)現(xiàn)也有類似情況。你可以嘗試看看,連官方出的Kimi也存在這個(gè)問題。
為什么會(huì)這樣?
我認(rèn)為智能體知識可以分為兩部分:一部分通用知識,像我們學(xué)的基礎(chǔ)知識,這是智能體必須掌握的。
另一部分則是針對特定行業(yè)的,隨著行業(yè)人士的使用,智能體也能跟著學(xué)習(xí)。這有點(diǎn)像能力的二八法則:80%的能力是基礎(chǔ)的,剩下20%在實(shí)際工作中邊干邊學(xué)。
實(shí)際上,過去一年,大廠都在訓(xùn)練大型語言模型,這些大模型的本質(zhì),是通過海量數(shù)據(jù)訓(xùn)練得到的,目的是生成最有可能的回答,而不是專注于特定能力或任務(wù)。
這種泛化能力,讓智能體在多任務(wù)中表現(xiàn)不錯(cuò),因?yàn)檫@些任務(wù)都涉及語言處理和推理,這意味著,要進(jìn)行任務(wù)微調(diào),就必須做任務(wù)分離。
而開發(fā)多個(gè)智能體,是一種過程性的解決方案。
你想想看,各大平臺現(xiàn)在都在嘗試將智能體做垂直細(xì)分,專注于特定領(lǐng)域或任務(wù),比如法律助手、醫(yī)療問診、學(xué)習(xí)輔助等。
這種趨勢也表明,未來肯定會(huì)有更多人根據(jù)不同需求,選擇和使用專門化的智能體,推動(dòng)AI更深入地融入日常生活和工作場景。這是第一點(diǎn)。
第二點(diǎn),目前市面上缺少專業(yè)的智能體開發(fā)者,能培養(yǎng)的也很少,我想去,居然還找不到;要不,廠牌們考慮下開個(gè)班吧?
現(xiàn)在的開發(fā)者,很多是對AI感興趣的人,他們在設(shè)計(jì)智能體時(shí),主要是用提示詞來引導(dǎo)模型的行為。
但是,提示詞這種東西,像個(gè)軟性的約束,并不能真正限制智能體能干什么,這種設(shè)計(jì)方式,很容易讓智能體“越界”。
你想想看,我設(shè)計(jì)一個(gè)占卜師智能體,占卜本身可能“順便”會(huì)提供點(diǎn)兒心理咨詢,甚至還會(huì)推薦人生規(guī)劃;這種能力的模糊性,不是我不愿意解決,而是目前工具和方法還不夠成熟,我很難精準(zhǔn)控制。
就像禪宗里說的:“少即是多(Less is more)”。少比多難,少不是減少,是聚焦,得用技術(shù)聚焦。
還有一點(diǎn):現(xiàn)在智能體缺少明確場景。這聽起來像廢話。但你有沒有想過,這些場景究竟從哪里來?
釘釘總裁不窮說過一句話:
“AI得從下面開始,先讓懂行的人用起來?!敝挥袑I有需求、愿意嘗試的人開始用了,才能慢慢積累出真正有用的場景,找到AI真正的價(jià)值。
我覺得,就算智能體慢慢融入了醫(yī)療、法律、金融這些領(lǐng)域,它還是停留在“看起來懂,但不專業(yè)”的階段。
因?yàn)楝F(xiàn)在大多數(shù)人還是把智能體當(dāng)成“聊天工具”,聊天工具是什么?即弄個(gè)董宇輝文案、搞個(gè)媽媽式嘮叨,這不能幫助行業(yè)。
如果這種情況一直這樣下去,最后的結(jié)果就是,大家還是只把它當(dāng)聊天工具玩,沒法真正用到工作中;這樣的話,別說提高行業(yè)效率了,這不僅是對智能體的浪費(fèi),更是錯(cuò)過了行業(yè)變革的機(jī)會(huì)。
所以,一個(gè)簡單的結(jié)論即:我們要思考清楚,哪類智能體做工具?哪類做平臺?需要什么樣的開發(fā)者來開發(fā)智能體?
這三個(gè)問題回答清楚,智能體才會(huì)在場景中發(fā)揮作用。
看到這,別誤會(huì),我不是說通用智能體不行,確實(shí)有它們的好處。
垂直單一的智能體可能比較局限,但能處理多種任務(wù)處理就厲害了,因?yàn)槟芡瑫r(shí)搞定好幾個(gè)工作流程,不僅速度快,而且思考的過程也更清楚、更靠譜。
而且,這些智能體還能處理各種類型數(shù)據(jù),在很多場景下都能派上用場。
在公司里,這種能干多種事情的智能體,已經(jīng)開始發(fā)揮作用了,比如:RPA技術(shù),現(xiàn)在已經(jīng)被看作是智能體的一個(gè)工具。
這種通用智能體在營銷、生產(chǎn)管理、運(yùn)營自動(dòng)化這些地方也有很多可能。
最近特別火的一個(gè)話題就是:智能體在手機(jī)界面上的應(yīng)用。大家都覺得,將來它們會(huì)成為重要的用戶界面入口,就像人一樣,能自動(dòng)操作界面,根據(jù)需要自動(dòng)用APP完成任務(wù)。
比如:
騰訊的AppAgent和阿里的MobileAgent項(xiàng)目,或者手機(jī)廠商發(fā)布會(huì)上展示的“一句話點(diǎn)單”的功能,這些都是很好的例子。
我相信,在電腦、手機(jī)、自動(dòng)駕駛這些領(lǐng)域,將來這種多功能的智能體會(huì)有很多應(yīng)用場景,比如:接管系統(tǒng)級操作,或者用通用智能體管理子智能體等等。
我也看到,很多智能體在一些特定場景中的開發(fā)和工程化潛力,但是,話說回來,智能體的使用和能不能商業(yè)化,是兩回事。
你想想看,如果一個(gè)公司用了被隨意開發(fā)的智能體,然后問它另一個(gè)公司的情況,它也回答了,豈不是很荒謬?
所以,不能光看宏觀敘事,還是要扎根行業(yè)去思考,希望大公司能多想想行業(yè)的實(shí)際問題。
比如:智能體怎么幫一個(gè)職員做決定,怎么規(guī)劃某個(gè)工作流程,怎么提供真正管用的解決方案。
我說的行業(yè),更準(zhǔn)確地是行業(yè)里在用、想用智能體的人,因?yàn)橹挥羞@些人,才能會(huì)不斷給智能體特定知識;換句話說:智能體學(xué)習(xí)了他們的東西,它才會(huì)進(jìn)步。
你覺得呢?