業(yè)內(nèi)關(guān)于如何最大限度激發(fā)大模型潛力,以及打造“新質(zhì)生產(chǎn)力”的爭(zhēng)論似乎將在今年落下帷幕。眼下,大模型成為 “爆改”千行百業(yè)的抓手,讓一切相關(guān)技術(shù)的突破都來得熱鬧且快速。
不過,大多數(shù)突破都只是停留在基礎(chǔ)模型層面和淺層應(yīng)用,我們能看到無數(shù)大模型的落地妙想,只是于生產(chǎn)力的本質(zhì)和商業(yè)化程度而言,卻與此前大差不差。究其原因在于這些技術(shù)性的突破大多停留在Demo階段,技術(shù)產(chǎn)品化難言成熟,以至于有人用“期貨”調(diào)侃。
比如于年初掀起多模態(tài)革命的Sora,這款產(chǎn)品迄今都未曾正式發(fā)布。而引爆全球的LLaMA 3.1,仍舊是基于Scaling Law的基礎(chǔ)模型。就算其為開源派壯了不少聲勢(shì),但受限于Meta一次性可調(diào)用的GPU數(shù)量,這個(gè)爆點(diǎn)對(duì)渴望落地的國(guó)內(nèi)大模型賽道的推動(dòng)亦有限。
在眾多卷基礎(chǔ)大模型能力的企業(yè)中,我們發(fā)現(xiàn)京東云選了不一樣的路徑。
7月30日,京東云峰會(huì)上,京東集團(tuán)技術(shù)委員會(huì)主席、京東云事業(yè)部總裁曹鵬提出,通用大模型是靠算力堆起來,企業(yè)大模型要靠業(yè)務(wù)跑出來。供應(yīng)鏈?zhǔn)蔷〇|跑馬大模型前沿技術(shù)和產(chǎn)業(yè)應(yīng)用的天然練兵場(chǎng),當(dāng)其他企業(yè)還在訓(xùn)練大模型或攻堅(jiān)智能體時(shí),京東內(nèi)部已經(jīng)上了“手”。
據(jù)了解,過去一段時(shí)間中,京東在超100個(gè)AI場(chǎng)景已經(jīng)全面鋪開大模型應(yīng)用,近35萬京東自有配送員、超23萬商家、超5萬副主任級(jí)別以上醫(yī)生、超2萬采銷運(yùn)營(yíng)、超1萬研發(fā)人員都在使用,并拿下了大模型時(shí)代的首個(gè)大規(guī)模商業(yè)化應(yīng)用里程碑——京東云言犀數(shù)字人。
透過數(shù)字人的商業(yè)化突破,京東言犀大模型無論是技術(shù)能力還是應(yīng)用落地,都得到了來自大量實(shí)際場(chǎng)景專業(yè)數(shù)據(jù)的“喂養(yǎng)”??梢哉f,本次京東云在峰會(huì)上發(fā)布的包括言犀數(shù)字人3.0平臺(tái)、言犀智能體平臺(tái)以及企業(yè)構(gòu)建大模型全棧服務(wù)等產(chǎn)品,不過是其基于深度產(chǎn)業(yè)knowhow和供應(yīng)鏈場(chǎng)景的水到渠成。
讓大模型在產(chǎn)業(yè)里先跑起來,數(shù)字人吹響前哨
“數(shù)字人實(shí)際上是諸多技術(shù)融合的載體”,京東探索研究院院長(zhǎng)、京東科技人工智能業(yè)務(wù)負(fù)責(zé)人、IEEE Fellow何曉冬博士提到,文案生成、語音融合、形象渲染、多模態(tài)等能力高低都會(huì)影響數(shù)字人的實(shí)際落地情況。
因此,數(shù)字人才被視為當(dāng)下大模型多模態(tài)技術(shù)落地的諸多場(chǎng)景中,跑得最快,商業(yè)化最成熟,且實(shí)際應(yīng)用頻率最高的一個(gè)。
眾所周知,不論是大模型的技術(shù)產(chǎn)業(yè)適配還是多模態(tài)的技術(shù)內(nèi)需,其面對(duì)的一大挑戰(zhàn)便是需要不同類型的數(shù)據(jù)對(duì)齊,以及圍繞同類型的能力需要不同建模。這需要一個(gè)標(biāo)準(zhǔn)化的interface作為校驗(yàn)多模態(tài)能力以及持續(xù)迭代,就是數(shù)字人。
而今距離“采銷東哥”數(shù)字人進(jìn)入直播間已過去三個(gè)多月,一大批大中小商家在此期間入局。一個(gè)重要原因是數(shù)字人降低了直播電商的門檻。對(duì)于零售電商而言,以數(shù)字人為代表的AI技術(shù),很大程度上實(shí)現(xiàn)降本提效;對(duì)于AI而言,零售電商則是一眾大模型服務(wù)商突破場(chǎng)景壁壘的關(guān)鍵鑰匙。
從品類、客單價(jià)、場(chǎng)域的不斷突破,我們能看見數(shù)字人突破場(chǎng)景邊界的清晰脈絡(luò)。無論是大模型能力還是產(chǎn)品化后的AI應(yīng)用,場(chǎng)景都是最好的試金石。
據(jù)了解,京東云言犀數(shù)字人上個(gè)階段初步解決了大姿態(tài)、交互等貼合實(shí)際直播場(chǎng)景中的問題,到目前言犀數(shù)字人3.0平臺(tái)已經(jīng)上線了100+個(gè)性化角色,50+特色行業(yè)屬性場(chǎng)景并以平臺(tái)化形態(tài)落地。而轉(zhuǎn)動(dòng)起場(chǎng)景飛輪的言犀大模型,也在以極快的速度不斷解鎖新能力,逐漸成長(zhǎng)為有情感、個(gè)性化的數(shù)字人。
語言方面,在不同場(chǎng)景中積累了更多數(shù)據(jù),放大了模型參數(shù)量,讓言犀數(shù)字人在零售、金融等領(lǐng)域的長(zhǎng)文本理解和推理能力。語音合成方面,超20萬小時(shí)訓(xùn)練量,讓京東數(shù)字人音色的自然表現(xiàn)度上有了明顯提升,一些帶口音的微妙變化都能捕捉到。
京東云言犀技術(shù)團(tuán)隊(duì)提到,在數(shù)字人之間的交互已經(jīng)可以做到讓其表現(xiàn)出聆聽狀態(tài)。聆聽姿態(tài)讓數(shù)字人直播從“單口”到“群口”,真人與數(shù)字人混播以及多數(shù)字人直播將變成可能。此外,言犀數(shù)字人大模型有更好的通識(shí)理解能力,實(shí)現(xiàn)“零樣本”數(shù)字人生成,這意味著生成新形象,將不再需要預(yù)訓(xùn)練。
實(shí)際場(chǎng)景又為大模型提供了更精準(zhǔn)的數(shù)據(jù)來源,從而轉(zhuǎn)動(dòng)京東大模型的數(shù)據(jù)飛輪,加速應(yīng)用生長(zhǎng)。短短幾個(gè)約時(shí)間,語音合成所需時(shí)間從6月份的6秒,縮短到如今的3-5秒左右。
何曉冬博士表示,大模型的核心人機(jī)交互介質(zhì)是智能體、數(shù)字人、具身智能,分別滿足了云、端、線下不同場(chǎng)景的交互需求,共同構(gòu)建起下一代智能交互的完整觸點(diǎn)。
Meta創(chuàng)始人扎克伯格亦在訪談中提到,未來的AI 智能體甚至可能會(huì)比人類還多,人們會(huì)以各種方式與之互動(dòng)。
智能體、數(shù)字人、具身智能是滿足不同場(chǎng)景需求,但本質(zhì)上都是基于同一套大模型“底座”“。借由數(shù)字人這項(xiàng)業(yè)務(wù)單點(diǎn)突破而后全面鋪開,在業(yè)務(wù)中生長(zhǎng)與進(jìn)化,這是京東云獨(dú)有的產(chǎn)業(yè)驅(qū)動(dòng)導(dǎo)向的大模型落地路徑。
由點(diǎn)及面,大模型應(yīng)用全面鋪開
“雖然我們面向B端服務(wù),但落腳點(diǎn)卻始終在用戶體驗(yàn)升級(jí)上”,京東云言犀團(tuán)隊(duì)認(rèn)為,數(shù)字人B2B2C的底層邏輯讓這項(xiàng)技術(shù)的應(yīng)用落地可以被快速?gòu)?fù)制到京東業(yè)務(wù)的方方面面,甚至開辟新的業(yè)務(wù)線,為京東開拓更多AI試驗(yàn)田。
比如,以AI社交為代表的泛娛樂應(yīng)用固然可以在一定助推甚至是冷啟動(dòng)的情況下,透過年輕化的公域快速裂變,但這類應(yīng)用的留存率卻相對(duì)“感人”。工具類應(yīng)用一定程度上平衡了留存與推薦的權(quán)重,然而缺乏快速裂變的能力,也限制了應(yīng)用本身的場(chǎng)景寬度。
近段時(shí)間,一眾AI應(yīng)用層的創(chuàng)業(yè)獨(dú)角獸均被曝尋求收購(gòu),很大程度上便源自于此。如用戶大量流失的AI社交應(yīng)用Character.AI,以及無法僅依靠訂閱跑通商業(yè)模式的AI搜索明星Perplexity。
大模型應(yīng)用的可靠性,場(chǎng)景和數(shù)據(jù)飛輪究竟能不能轉(zhuǎn)起來,呈現(xiàn)互為因果的關(guān)系。這也是京東認(rèn)為“企業(yè)大模型靠業(yè)務(wù)跑出來”的底層邏輯。
從數(shù)字人這個(gè)點(diǎn)來看,電商場(chǎng)景的應(yīng)用寬度、深度構(gòu)建了京東大模型的魯棒性,而不同品類的商詳知識(shí)、不同行業(yè)領(lǐng)域知識(shí)、大規(guī)模交互數(shù)據(jù)則完成了數(shù)據(jù)的互補(bǔ)。這便是應(yīng)用深度為大模型能力帶來的快速躍升。
消費(fèi)是距離用戶最近的場(chǎng)域之一,數(shù)字人在零售電商泛場(chǎng)景的錘煉讓京東的多模態(tài)大模型技術(shù)由點(diǎn)及面成為可能——除電商直播場(chǎng)景外,京東云言犀數(shù)字人還在文旅、金融、智能服務(wù)、政務(wù)咨詢等更廣泛的場(chǎng)景應(yīng)用落地,通過與億級(jí)用戶智能交互,帶來下一代交互體驗(yàn)。
比較典型的案例是,京東數(shù)字人的多模態(tài)情感識(shí)別能力順暢地延展到了客服場(chǎng)景。我們自京東方面了解到,金融業(yè)務(wù)目前已有超過半數(shù)的用戶在客服場(chǎng)景由數(shù)字人接待,迄今已服務(wù)超過500萬用戶,24小時(shí)問題解決率高達(dá)85%,滿意度超90%。
高質(zhì)量的垂域知識(shí)也讓京東加快了云端交互為主的智能體的產(chǎn)品化步伐。本次峰會(huì)上正式發(fā)布了新一代一站式 AI Agent 開發(fā)平臺(tái)——言犀智能體平臺(tái)。平臺(tái)已接入數(shù)十個(gè)大模型,用戶可以低成本快速搭建基于 AI 模型的各類智能體。如今,活躍在京東內(nèi)部的智能體超3300個(gè),平臺(tái)還沉淀了100多個(gè)行業(yè)解決方案模版。
從產(chǎn)業(yè)中來,到產(chǎn)業(yè)中去。業(yè)務(wù)與問題驅(qū)動(dòng)的京東言犀大模型無意間加速了技術(shù)迭代的進(jìn)度,這反倒催生了以往未被人注意到的需求。線下文旅場(chǎng)景,基于京東大模型能力的山西大同花木蘭數(shù)字人、江西新余數(shù)字人、云南楚雄數(shù)字人小彝妹以展示大屏、短視頻等終端為載體,豐富游客體驗(yàn)并提速景區(qū)商業(yè)化;企業(yè)側(cè),不少大型企業(yè)也萌生了定制數(shù)十萬員工數(shù)字人形象的需求。
基于大模型這個(gè)“大腦”,多模態(tài)技術(shù)讓用戶的交互界面的變革悄然發(fā)生。
“從文字走向視頻化,再走向行業(yè)。我們驗(yàn)證了數(shù)字人大規(guī)模商業(yè)化的突破口,形成了行業(yè)標(biāo)桿的效應(yīng)”,被問及數(shù)字人乃至京東大模型的應(yīng)用前景時(shí),京東云言犀團(tuán)隊(duì)難掩興奮。
畢竟,長(zhǎng)期讓規(guī)模跑在商業(yè)化前頭的大模型賽道,可算有了能讓兩者并駕齊驅(qū)的方法論。
邊用邊訓(xùn),轉(zhuǎn)動(dòng)產(chǎn)業(yè)應(yīng)用的技術(shù)飛輪
越來越多的大模型應(yīng)用,正在京東供應(yīng)鏈上生長(zhǎng),并于京東內(nèi)部超100個(gè)AI場(chǎng)景全面鋪開。我們可以隨意像報(bào)菜名一樣拉出智能體平臺(tái)、總裁數(shù)字人、智能客服、AI外呼,還是面向商家的商家客服京小智、AIGC商品圖生成乃至京東供應(yīng)鏈之內(nèi)小哥終端智能助手、編程助手Joycoder、康康健康助手等一系列應(yīng)用。
不過,應(yīng)用只是大模型服務(wù)商能力輸出的前端,如何授人以漁才是重頭戲。包括訓(xùn)練、精調(diào)、壓縮、拉升等在內(nèi)的大模型能力構(gòu)建才是AIGC時(shí)代下,新質(zhì)生產(chǎn)力的內(nèi)生力量。
京東有別于其他模型服務(wù)商的不同在于,其將夯實(shí)基座模型作為過程,目的是從基礎(chǔ)設(shè)施到Agent應(yīng)用,構(gòu)建全場(chǎng)景的大模型服務(wù)能力,持續(xù)推動(dòng)大模型落地產(chǎn)業(yè),輸出供應(yīng)鏈的行業(yè)knowhow。
就像上半年卷瘋了的長(zhǎng)文本,該技術(shù)路徑是大模型接受大量文本數(shù)據(jù)的輸入后,將信息處理并分析推理,最終按不同應(yīng)用場(chǎng)景和需求輸出多種多樣的結(jié)果。
京東透過應(yīng)用,讓大模型這個(gè)新質(zhì)生產(chǎn)力在產(chǎn)業(yè)內(nèi)跑起來是輸入,那么其對(duì)外開放的企業(yè)模型構(gòu)建能力便是輸出。
我們了解到,京東的大模型技術(shù)在產(chǎn)品化前,都會(huì)率先在內(nèi)部完全跑通。尤其是業(yè)已為其所平臺(tái)化的數(shù)字人與智能體兩大人機(jī)交互介質(zhì),無論是數(shù)字人的生成還是智能體的構(gòu)建,京東都做到了讓零經(jīng)驗(yàn)的運(yùn)營(yíng)們拋開算法部門獨(dú)立搭建。
強(qiáng)易用性、“零”樣本、“零”幻覺是京東大模型技術(shù)棧產(chǎn)品化的先決條件——可靠性是前提,易用性是基礎(chǔ)。
如果我們?cè)傧虻讓踊ㄏ绿?,就能發(fā)現(xiàn)言犀大模型技術(shù)棧中與產(chǎn)業(yè)完全適配的關(guān)鍵,在于其大模型漸進(jìn)式拉升與壓縮技術(shù)。好比科幻電影《黑客帝國(guó)》中的Neo,是架構(gòu)師(Architect)眼中的“唯一”。
去年末起,為了捅破大模型與產(chǎn)業(yè)間的那層窗戶紙,大模型的拉升與壓縮能力成為AI軍備競(jìng)賽的賽點(diǎn)。這本質(zhì)上是針對(duì)企業(yè)關(guān)于大模型的通用能力、垂域能力、響應(yīng)時(shí)間等不同需求的一種大模型“場(chǎng)景適配”。更重要的是,京東在基礎(chǔ)的拉升與壓縮之上,還做到了同步灌注垂域知識(shí),甚至實(shí)現(xiàn)領(lǐng)域數(shù)據(jù)自進(jìn)化并注入模型中。
海量垂域數(shù)據(jù)的灌輸必將產(chǎn)生過擬合,好比一個(gè)學(xué)生,平時(shí)做習(xí)題做得很好,考試成績(jī)卻很差。為了讓大模型能“舉一反三”,只好不斷增加訓(xùn)練集,然而這又將導(dǎo)向費(fèi)時(shí)費(fèi)力的人工標(biāo)注。如何以較低成本解決過擬合問題,是捅破前述窗戶紙的關(guān)鍵。
自技術(shù)路徑上看,京東的做法與此前的深度學(xué)習(xí)框架fast.ai異曲同工。只不過而fast.ai是在數(shù)據(jù)層,透過漸進(jìn)式圖像分類數(shù)據(jù)集,而京東則是在模型層發(fā)力。
一般來說,多模態(tài)大模型相對(duì)更注重全局理解,垂類、細(xì)顆粒度理解與情感識(shí)別是“短板”。京東之所以能在數(shù)字人、智能體等應(yīng)用上率先取得商業(yè)化的突破,根源便在于“邊訓(xùn)邊用”,讓京東同時(shí)轉(zhuǎn)起了產(chǎn)業(yè)和技術(shù)的飛輪。
在尋找新質(zhì)生產(chǎn)力的歷史敘事中,京東云憑借產(chǎn)業(yè)供應(yīng)鏈深度,已然率先跑通了應(yīng)用乃至基礎(chǔ)設(shè)施構(gòu)建的全鏈路。隨著面向公眾的言犀智能體平臺(tái)與言犀數(shù)字人3.0平臺(tái)的正式發(fā)布,來自產(chǎn)業(yè)的knowhow又將觸及更廣闊的場(chǎng)景,打造更全面的生態(tài)。
角逐基座模型、Demo與某項(xiàng)技術(shù)之巔,或許會(huì)將行業(yè)引入垃圾時(shí)間,更多創(chuàng)新與確定性的未來,誕生于產(chǎn)業(yè)之中。
本文來自投稿,不代表增長(zhǎng)黑客立場(chǎng),如若轉(zhuǎn)載,請(qǐng)注明出處:http://m.allfloridahomeinspectors.com/cgo/122002.html