落地端側(cè),2B模型如何以小搏大?|對話面壁CEO李大海

落地端側(cè),2B模型如何以小搏大?|對話面壁CEO李大海文|郝 ?? 鑫

“AGI是一場馬拉松”,面壁智能聯(lián)合創(chuàng)始人、CEO,知乎CTO李大海道。

作為一個(gè)馬拉松的愛好者,李大海深知在大模型的競爭中,一時(shí)的“快”只是暫時(shí)的,更重要的是把賽程中的每一步都跑下來,跑踏實(shí)。

回顧面壁智能的發(fā)展歷程也確實(shí)如此,2018年脫胎于清華NLP實(shí)驗(yàn)室,發(fā)布了全球首個(gè)知識指導(dǎo)的預(yù)訓(xùn)練模型ERNIE;2020年成為悟道大模型的首發(fā)主力陣容;2022年成立OpenBMB開源社區(qū);2022年面壁智能開始公司化運(yùn)作;2023年把Agent作為主要發(fā)力方向,相繼發(fā)布了AgentVerse、ChatDev、XAgent等智能企業(yè)框架。

落地端側(cè),2B模型如何以小搏大?|對話面壁CEO李大海

從大模型Infra層到Agent應(yīng)用層,從科學(xué)實(shí)驗(yàn)室到商業(yè)化落地,夯實(shí)走的過程中,逐漸演化為了2023年的沖刺能力。去年,就在國內(nèi)外還在研究Agent定義的時(shí)間點(diǎn),面壁智能已經(jīng)率先在行業(yè)內(nèi)提出了群體智能的框架和Agent商業(yè)化落地的方案。

2024年,大模型應(yīng)用新篇章即將開啟之際,面壁智能又出乎意料地發(fā)布了端側(cè)大模型和面壁MiniCPM。

對標(biāo)國外Mistral-7B,核心就是以最小的模型規(guī)模,實(shí)現(xiàn)最強(qiáng)的模型效果,這項(xiàng)能力被李大??偨Y(jié)為“以小搏大”、“以大搏聚”,這也是面壁智能的核心能力之一。

從各項(xiàng)結(jié)果來看,小鋼炮MiniCPM用2B的規(guī)模、1T的精選數(shù)據(jù),從性能指標(biāo)上打敗了Mistral-7B、微軟明星模型Phi-2、蒸餾GPT-4、13BLLaMA等一眾主流模型。并且將模型部署的成本徹底打了下來,在側(cè)端,1元=1700000tokens,僅是MiniCPM在云端的1%。

落地端側(cè),2B模型如何以小搏大?|對話面壁CEO李大海

從大模型到Agent,再到側(cè)端模型,總體來看面壁智能的布局,可以發(fā)現(xiàn)其已經(jīng)在為大模型應(yīng)用的落地和爆發(fā)做準(zhǔn)備。大模型提供底座能力支撐,Agent做為腳手架打通應(yīng)用的“最后一公里”,最后在側(cè)端進(jìn)行部署和運(yùn)行。

正如李大海所言,“側(cè)端模型能夠?yàn)榇竽P秃虯gent服務(wù),因?yàn)槎烁频膮f(xié)同能夠更好得讓應(yīng)用落地。端側(cè)模型是大模型技術(shù)的積累,在如何把模型小型化,讓云上的模型能夠用更小的規(guī)模實(shí)現(xiàn)更好的效果方面,是一脈相承的關(guān)系?!?/p>

2024年已經(jīng)緩緩拉開了帷幕,大模型戰(zhàn)事瞬息萬變。光錐智能對話面壁智能聯(lián)合創(chuàng)始人、CEO,知乎CTO李大海和其團(tuán)隊(duì),深入探究面壁智能核心競爭力的修煉秘密,同時(shí)展望2024年的大模型行業(yè)格局。

核心觀點(diǎn)如下:

1、“以小搏大”、“以大搏聚”,用2B的模型做出了比2B模型更大的模型效果。

2、“沙盒實(shí)驗(yàn)”就是在一個(gè)模擬仿真的環(huán)境里面,用更小的成本和代價(jià)去搞清楚規(guī)律。

3、端側(cè)大模型不能只看端側(cè),未來一定是云端協(xié)同。

4、Agent私有化部署成本有兩塊,一是模型廠商對模型使用收費(fèi),一是客戶部署完以后的推理成本。

5、面壁智能的差異化競爭策略可以總結(jié)為,高效和一體化,即高效推理和模型+Agent一體化。

6、CV是一個(gè)單點(diǎn)技術(shù)的突破,而大模型是在各個(gè)技術(shù)點(diǎn)上探索和升級,還遠(yuǎn)遠(yuǎn)未達(dá)到技術(shù)成熟階段。

以下為對話實(shí)錄:

Q:為什么選擇在2024年開端時(shí)候,發(fā)布MiniCPM側(cè)端大模型?出于怎樣的考慮?

A:在MiniCPM的背后,是做了上千次的沙盒實(shí)驗(yàn),在這過程中我們掌握了“以小搏大”、“以大搏聚”的能力。正如大家所見,我們用2B的模型做出了比2B模型更大的模型效果。這個(gè)核心能力,我們本來打算運(yùn)用到未來新的模型研發(fā)上。但我們發(fā)現(xiàn),現(xiàn)階段,“以小搏大”、“以大搏聚”的能力,運(yùn)用到端側(cè)上能夠產(chǎn)生突破性的進(jìn)展,所以這才促使我們把模型趕緊做出來。真正做出MiniCPM時(shí)間不到一周,根本上得益于過去上千次的實(shí)驗(yàn)積累,而這些工作面壁智能在2023年就已經(jīng)完成,所以MiniCPM可以看作一個(gè)厚積薄發(fā)的結(jié)果。

落地端側(cè),2B模型如何以小搏大?|對話面壁CEO李大海

Q:您剛才提到“沙盒實(shí)驗(yàn)”在面壁智能模型訓(xùn)練中起到了重要的作用,可以展開闡釋一下嗎?

A:用形象的比喻來解釋,沙盒實(shí)驗(yàn)就像就像航空里面的“風(fēng)洞實(shí)驗(yàn)”。

落地端側(cè),2B模型如何以小搏大?|對話面壁CEO李大海

“沙盒實(shí)驗(yàn)”就是在一個(gè)模擬仿真的環(huán)境里面,用更小的成本和代價(jià)去搞清楚規(guī)律。我們希望通過這種方式,來搞清楚用什么訓(xùn)練方式能夠得到何種表現(xiàn)規(guī)模的模型,這就是“沙盒實(shí)驗(yàn)”整體的目的和方法論。

我們發(fā)布MiniCPM之前做了上千次的模型沙盒實(shí)驗(yàn),探索出了最優(yōu)的配制,所有尺寸的模型可以通過最優(yōu)的超參數(shù)的配制,保證訓(xùn)練任意大小的模型取得最好的效果。

通過上千次實(shí)驗(yàn),最終可以幫助我們?nèi)W(xué)習(xí),從特別小的模型,遠(yuǎn)比MiniCPM還小的模型到千億甚至比千億還大的模型的訓(xùn)練控制方法,以便最后得到更好的模型訓(xùn)練效果,從這個(gè)角度來看,不管是端側(cè)模型還是千億級模型,甚至更大的模型,面壁智能的“沙盒實(shí)驗(yàn)”過程都能被覆蓋。

Q:MiniCPM僅用了1T的數(shù)據(jù)量就完成了模型訓(xùn)練效果,聯(lián)系到您知乎CTO的身份,數(shù)據(jù)的來源與知乎有多大的關(guān)系?

A:我們精選了1T的數(shù)據(jù),篩選的一個(gè)重要標(biāo)準(zhǔn)就是要展現(xiàn)數(shù)據(jù)的多樣性。知乎的高質(zhì)量數(shù)據(jù)在模型訓(xùn)練過程中起到十分重要的作用,具體的方法就是,以非常細(xì)的顆粒度去把數(shù)據(jù)打散后,做算法的自動(dòng)選取。

Q:此次面壁開源了MiniCPM全家桶,作為創(chuàng)業(yè)公司,面壁智能如何看待開源這件事?這回為什么選擇開源側(cè)端大模型?

A:面壁智能在2022年就成立了開源社區(qū)。面壁智能一直是開源的受益者,這也是團(tuán)隊(duì)能在AI領(lǐng)域走得比較快的原因。所以從我們團(tuán)隊(duì)成立之初,就秉承開源、開放的特點(diǎn),人人為我,我為人人,能為整個(gè)行業(yè)做貢獻(xiàn),我覺得還是非常重要的。

另一方面,開源對建立影響力非常重要,有了影響力隨之能帶來資本的注意力、人才的注意力以及2B的客戶注意力,這些其實(shí)都是建立商業(yè)邏輯的基礎(chǔ)。

談到側(cè)端大模型的開發(fā),雖然相對云端的大模型來說,是一個(gè)小模型,但實(shí)際上開發(fā)仍是一個(gè)特別復(fù)雜和龐大的任務(wù)。這里面涉及的技術(shù)難點(diǎn)有兩個(gè),一個(gè)是除了要能做出更小的模型,還得能釋放出更大的性能;此外,模型推理、硬件推理性能、各層面的適配等等,都存在很多技術(shù)難點(diǎn)。面壁智能選擇開源,也是希望能和手機(jī)廠商、APP開發(fā)者和領(lǐng)域?qū)<液献鳎俪杉夹g(shù)創(chuàng)新,達(dá)成更高效的解決方案,推動(dòng)整個(gè)生態(tài)系統(tǒng)的繁榮。

Q:市場上很多手機(jī)廠商相繼推出了各自的大模型,那未來面壁智能和這些手機(jī)廠商的關(guān)系是怎樣的?大模型公司又如何切入到手機(jī)端側(cè)市場中去呢?

A:端側(cè)大模型不能只看端側(cè),未來一定是云端協(xié)同。云上的模型跟端側(cè)的模型需要聯(lián)動(dòng),這就意味著由同一廠商來做聯(lián)動(dòng)會更高效。以這個(gè)邏輯去推演,最終云側(cè)和端側(cè)的模型最好都是由專業(yè)的模型開發(fā)者去做。整體來看,這個(gè)事持續(xù)投入的門檻其實(shí)還蠻高的,所以我們不是特別建議手機(jī)廠商去持續(xù)的做這個(gè)事情,我覺得每個(gè)公司都有自己的商業(yè)考量。

Q:Agent在落地的過程中會遇到很多敏感的隱私數(shù)據(jù),面壁智能在與企業(yè)合作中是如何解決數(shù)據(jù)痛點(diǎn)的?成本規(guī)模大概是多少?

A:在Agent落地方面,我們其實(shí)也在考慮這個(gè)問題,對于數(shù)據(jù)敏感型的客戶,我們會做私有化部署方案來解決他們的需求。

私有化部署層面的成本主要分為兩方面。一個(gè)是模型廠商對模型使用收費(fèi),另一個(gè)是客戶真正部署完以后的推理成本。正是基于此,當(dāng)特別大的模型完成私有化部署后,對客戶來說,其推理成本就會變成一個(gè)比較大的成本障礙。在我們看來,不同的模型尺寸,有它所具備的能力和適配的場景,比如7B的模型大小,對標(biāo)GPT-4的效果。

Q:在整個(gè)大模型市場中,跟頭部大模型公司相比,面壁智能差異化競爭策略是什么?

面壁智能角色定位為商業(yè)公司,NLP實(shí)驗(yàn)室定位為科研,由于我們在產(chǎn)學(xué)研結(jié)合上有非常深厚的優(yōu)勢,所以面壁智能在模型Infra和Agent層面都有相應(yīng)的積累,未來還是會繼續(xù)擴(kuò)大我們在技術(shù)上的優(yōu)勢。同時(shí),也通過開源去團(tuán)結(jié)更多的伙伴,一言以蔽之,面壁智能的差異化競爭策略可以總結(jié)為,高效和一體化,即高效推理和模型+Agent一體化。

Q:目前,面壁智能的主要目標(biāo)客戶是什么?主要收入來源有哪些?是如何思考商業(yè)化的?

A:因?yàn)槲覀僀端產(chǎn)品才剛剛上線,所以目前商業(yè)收入來源主要來自B端客戶?,F(xiàn)在標(biāo)桿客戶有招商銀行、西門子、中國易車網(wǎng)等一些比較知名的客戶,集中在金融和營銷等領(lǐng)域。我們跟易車剛剛達(dá)成了深度的戰(zhàn)略合作,跟義烏小商品市場集團(tuán)也達(dá)成了很重要的戰(zhàn)略化合作態(tài),這些都是在營銷領(lǐng)域的一些重要成果。目前,端側(cè)大模型的商業(yè)化模式還尚在探索之中。

Q:新的一年,面壁智能的戰(zhàn)略規(guī)劃是什么?2B和2C方向是如何選擇的?作為公司的CEO,你的關(guān)注點(diǎn)有哪些?

A:整個(gè)2024年,面壁智能依然會堅(jiān)持大模型+Agent的雙引擎戰(zhàn)略。

落地端側(cè),2B模型如何以小搏大?|對話面壁CEO李大海

一方面,要繼續(xù)推進(jìn)提升我們的模型能力,在端側(cè)已經(jīng)發(fā)布了端側(cè)模型,同時(shí)今年仍然會去繼續(xù)提升基座模型能力,挑戰(zhàn)GPT-4的能力;另一方面,要用Agent來解決大模型落地最后一公里的問題,提升落地效率,在此方向上,我們甚至制定了一個(gè)比較激進(jìn)的收入目標(biāo)。因?yàn)槲覀兿嘈牛竽P驼娴哪軌蛉ソo客戶帶來效率和效益的提升,也比較看好整個(gè)大模型市場。

在2B和2C方向選擇上,其實(shí)并沒有明確的劃分,因?yàn)樵谖覀兛磥矶际谴竽P?Agent的上層應(yīng)用,所以我們并沒有把重點(diǎn)放在具體的哪個(gè)應(yīng)用方向上。在現(xiàn)階段,前端的應(yīng)用落地比較聚焦,在C端方向,我們會特別關(guān)注情感陪伴這個(gè)方向,也就是給用戶提供情緒價(jià)值。

落地端側(cè),2B模型如何以小搏大?|對話面壁CEO李大海

比如,我們開發(fā)的“心間”應(yīng)用上線了測試版本,里面有個(gè)特色功能叫做磕CP,內(nèi)置了李白杜甫和清華北大的CP,用戶也可以制造自己的CP,背后是用大模型做的推理。

從我自己關(guān)心的事情上來說,因?yàn)槊姹谥悄茉谀P陀?xùn)練方面的積累已經(jīng)非常深厚了,所以對我們模型能力提升還是蠻有信心的。對我們而言,這個(gè)方向的確定性比較高。未來,我個(gè)人其實(shí)會更關(guān)心模型落地,也就是應(yīng)用的問題。

Q:行業(yè)內(nèi)都在談?wù)?024年是模型轉(zhuǎn)應(yīng)用的一年,您如何看待這一趨勢?以您的角度來看,未來市場競爭中是否還需要這么多的大模型廠商?最終什么樣的模型廠商能夠跑出來呢?

A:整個(gè)24年,行業(yè)都會更重視應(yīng)用的落地,這是個(gè)大趨勢。目前模型已經(jīng)達(dá)到基本可用的狀態(tài),在這樣的基礎(chǔ)上去發(fā)展應(yīng)用,我覺得是一個(gè)順理成章的趨勢。我們發(fā)布的“心間”,就是面壁智能在應(yīng)用層積極布局的表現(xiàn)。

但我們認(rèn)為,AGI就像馬拉松比賽一樣,是需要長期努力的目標(biāo),需要各個(gè)公司在技術(shù)上持續(xù)的積累。

從廠商分布來看,從2024年開始,大模型廠商會開始出現(xiàn)分層。我自己判斷,分層出現(xiàn)的原因不是市場所導(dǎo)致的,更多還是因?yàn)榧夹g(shù),隨著大模型的發(fā)展,技術(shù)的門檻會越來越高。

在市場層面,我認(rèn)為大模型是一個(gè)行業(yè)級別的機(jī)會。我們看到,無論是做大模型基座,還是做應(yīng)用,都有非常大的空間。因?yàn)槭袌鲎銐虼螅院芏喙究赡芏加袡C(jī)會能生存下來,最終能活下來的公司,一定是技術(shù)、產(chǎn)品和市場能力都很強(qiáng)的選手。

Q:就像您所說“AGI是一場馬拉松”,這樣的發(fā)展特性,對未來的行業(yè)格局變化有怎樣的影響?

A:這回給行業(yè)格局洗牌帶來許多不確定性,以我的觀察,我覺得這不是2024年、2025年,甚至2026年能夠分出勝負(fù)的事情。

回首過去CV發(fā)展的情況,會發(fā)現(xiàn)AI 1.0的競爭格局也不是在頭兩年確定的,即使到了第三個(gè)年頭還是在發(fā)生非常大的變化,所以這啟示我們要以長遠(yuǎn)的眼光看待行業(yè)的變化。當(dāng)然,跟AI 1.0時(shí)代相比,2.0智能時(shí)代最大的差別在于,CV是一個(gè)單點(diǎn)技術(shù)的突破,而大模型是在各個(gè)技術(shù)點(diǎn)上探索和升級,還遠(yuǎn)遠(yuǎn)未達(dá)到技術(shù)成熟階段。

本文來自投稿,不代表增長黑客立場,如若轉(zhuǎn)載,請注明出處:http://m.allfloridahomeinspectors.com/cgo/113458.html

(0)
打賞 微信掃一掃 微信掃一掃 支付寶掃一掃 支付寶掃一掃
上一篇 2024-02-06 16:27
下一篇 2024-02-06 18:16

增長黑客Growthhk.cn薦讀更多>>

發(fā)表回復(fù)

登錄后才能評論