想做好智駕,必須要做基座大模型|對(duì)話小鵬智駕負(fù)責(zé)人

規(guī)模越大,能力越大

文|劉俊宏

編|王一粟

“AI大模型讓我們看到自動(dòng)駕駛,比任何時(shí)候都接近于落地?!?/p>

在中國(guó)汽車智駕能力競(jìng)爭(zhēng)愈發(fā)激烈的今天,小鵬汽車自動(dòng)駕駛副總裁李力耘找到了智駕通往自動(dòng)駕駛的大門。

針對(duì)去年車企們熱衷的端到端的智駕訓(xùn)練模式,李力耘認(rèn)為智駕模型還能做得更大,要突破過(guò)去端到端模型的“一畝三分地”。

端到端的模型做智駕的好處,李力耘解釋說(shuō),“用端到端的模型做自動(dòng)駕駛,我覺(jué)得無(wú)非兩個(gè)重要的點(diǎn):一是保持信息的無(wú)損。另一個(gè)是降低整個(gè)車輛的延時(shí),讓自動(dòng)駕駛的功能更加敏捷、高效和擬人。”

但直接學(xué)習(xí)人類行為的端到端,其上限只是接近人類。在大量的數(shù)據(jù)和訓(xùn)練中,智駕逐漸形成類似于人類日常駕駛的能力和習(xí)慣。但真正遇到極端場(chǎng)景時(shí),智駕廠商幾乎拿不到這部分?jǐn)?shù)據(jù)。一方面是因?yàn)閳?chǎng)景發(fā)生的頻次非常少,另一方面是人類自己都反應(yīng)不過(guò)來(lái),根本就沒(méi)有“可以參考的答案”。

如何讓端到端智駕變得更強(qiáng)?小鵬給出的答案是用云端大模型蒸餾并輔以強(qiáng)化學(xué)習(xí)的方式,跳出之前車端思路做智駕模型的“一畝三分地”。

事實(shí)上,過(guò)往的自動(dòng)駕駛其實(shí)并沒(méi)有真正用到“大模型”。參考去年云端模型的進(jìn)化,AI成長(zhǎng)的基本邏輯,遵循Scaling Law的“規(guī)模越大,能力越大”。

“基于當(dāng)前主流的車端芯片,車端模型的尺寸一般在1億到5億之間。最近非常受到業(yè)界關(guān)注的VLA模型,參數(shù)規(guī)模一般在20億左右。這是因?yàn)樽詣?dòng)駕駛的模型其實(shí)是一個(gè)非常復(fù)雜的,既需要兼顧視覺(jué),也需要兼顧推理,最后還需要有動(dòng)作輸出的一個(gè)大模型。但是云端大模型可以真正突破這樣的限制,整個(gè)參數(shù)量可以達(dá)到主流車端模型的35倍以上?!崩盍υ沤榻B道。

為了搭建云端足夠強(qiáng)的大模型,本次小鵬首次披露了正在研發(fā)的720億參數(shù)的超大規(guī)模自動(dòng)駕駛大模型,即“小鵬世界基座模型”。

未來(lái),小鵬將通過(guò)云端蒸餾小模型的方式將基模部署到車端,給“AI汽車”配備全新的大腦。

針對(duì)算力優(yōu)化,小鵬從2024年開始搭建AI基礎(chǔ)設(shè)施(AI Infra),當(dāng)前已建立起萬(wàn)卡規(guī)模的智能算力集群,是目前國(guó)內(nèi)汽車行業(yè)最大的自動(dòng)駕駛算力集群。

如今,小鵬的算力儲(chǔ)備達(dá)到10EFLOPS,集群利用率常年高達(dá)90%以上,高峰時(shí)期的運(yùn)行效率甚至達(dá)到98%。

想做好智駕,必須要做基座大模型|對(duì)話小鵬智駕負(fù)責(zé)人

“我們?yōu)槭裁匆度刖薮蟮馁Y源去做云端的基座模型呢?如果我們只局限在車端算力的一畝三分地,我們模型大小是受限的,能真正消化的數(shù)據(jù)也是受限的。只有超越車端芯片算力的限制,真正用更大的模型、更海量的數(shù)據(jù),去大道至簡(jiǎn)地把駕駛這件事做好,我們才能真正實(shí)現(xiàn)車端的智能。”李力耘介紹說(shuō)。

如何讓車端模型擁有云端大模型的能力?李力耘借用了去年云端模型的兩個(gè)最重要的進(jìn)化,“一個(gè)是知識(shí)的蒸餾,另一個(gè)是強(qiáng)化學(xué)習(xí)”。

Deepseek在數(shù)字世界證明了蒸餾和強(qiáng)化學(xué)習(xí)能夠大幅增強(qiáng)大模型的能力,小鵬現(xiàn)在在具身物理世界嘗試執(zhí)行和落地。

其中,知識(shí)的蒸餾是先讓云端大模型擁有深度思考(CoT思維鏈)的能力,然后再將這些能力蒸餾到車端模型上。在云端訓(xùn)練中,大模型形成對(duì)每一個(gè)場(chǎng)景會(huì)做出一系列符合邏輯,但又可能超越訓(xùn)練數(shù)據(jù)本身的思維鏈條。然后再將這些思維通過(guò)訓(xùn)練數(shù)據(jù)轉(zhuǎn)化為操作,并以一個(gè)合適的頻率操縱自動(dòng)駕駛。

引入思維鏈之后,智駕大模型展現(xiàn)出了極強(qiáng)的泛化能力。“在香港其實(shí)我們并沒(méi)有正式開放XNGP功能,但我們的用戶發(fā)現(xiàn)在這里XNGP也可按照導(dǎo)航駕駛我們的車。說(shuō)明了在真正大模型能力賦能下,通過(guò)蒸餾是可以期待自動(dòng)駕駛真正具備自己的靈魂、自己的大腦的?!崩盍υ沤榻B說(shuō)。

在蒸餾之后,接下來(lái)是利用強(qiáng)化學(xué)習(xí)來(lái)打破智駕大模型的上限,進(jìn)而達(dá)到比人駕更安全的效果。在危急場(chǎng)景下,人類會(huì)緊張,會(huì)受到思維慣性的影響,但AI不會(huì)。針對(duì)AI強(qiáng)化學(xué)習(xí),本質(zhì)上就是允許AI利用一切操作,突破人類固有的認(rèn)知,找到危險(xiǎn)場(chǎng)景的可行解,從而最大化保障行車安全。

對(duì)于強(qiáng)化學(xué)習(xí),根據(jù)小鵬世界基座模型負(fù)責(zé)人劉博士介紹,小鵬選擇從三個(gè)方面入手搭建整個(gè)獎(jiǎng)勵(lì)機(jī)制。

首先是設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)。小鵬在這部分使用的是最簡(jiǎn)單的規(guī)則,例如合規(guī)、安全、舒適等,這些參數(shù)直接決定了行車體驗(yàn)。這些規(guī)則的設(shè)計(jì)和出發(fā)點(diǎn),來(lái)自小鵬過(guò)往智駕研發(fā)過(guò)程中積累的大量經(jīng)驗(yàn)。以這些規(guī)則作為大模型強(qiáng)化學(xué)習(xí)的開始,小鵬的智駕大模型在起步之初就打好了基礎(chǔ)能力。

其次是設(shè)計(jì)獎(jiǎng)勵(lì)模型。獎(jiǎng)勵(lì)模型的設(shè)計(jì)目的,是讓智駕模型獲得更連續(xù)、更泛化、更多維的獎(jiǎng)勵(lì)信息。簡(jiǎn)單來(lái)說(shuō)就是告訴智駕“什么是好的”,并以此讓智駕想辦法達(dá)成這些表現(xiàn)。這部分小鵬更重視智駕接管和市場(chǎng)的反饋數(shù)據(jù),獎(jiǎng)勵(lì)模型就會(huì)讓智駕盡量避免接管,或按照市場(chǎng)建議來(lái)改進(jìn)“開車習(xí)慣”。

最后是世界模型。作為當(dāng)前智駕最前沿的技術(shù)方案,行業(yè)內(nèi)主要用世界模型來(lái)進(jìn)行仿真,從而讓端到端智駕持續(xù)獲得泛化能力。在小鵬看來(lái),世界模型不只是現(xiàn)實(shí)世界的“模擬器”。要想用好世界模型,就得將它作為智駕模型的閉環(huán)“訓(xùn)練場(chǎng)”。世界模型要有能力根據(jù)智駕模型的動(dòng)作輸入,模擬出真實(shí)的場(chǎng)景,并且生成其他智能體的響應(yīng),從而構(gòu)建閉環(huán)的訓(xùn)練網(wǎng)絡(luò)。

如何理解世界模型應(yīng)該具有的能力?劉博士舉了這樣一個(gè)例子,假設(shè)智駕看到前面有輛車,隨后選擇了繞行。對(duì)過(guò)的車輛看見(jiàn)我們正在繞行,它也會(huì)稍微避開一點(diǎn)空間,而不是繼續(xù)保持直行。世界模型本身的運(yùn)行,應(yīng)該符合常識(shí),而非“生硬死板”的模擬空間。“世界模型更像是一個(gè)生成式的想象系統(tǒng),要理解這個(gè)世界以及如何去完成動(dòng)作”,劉博士總結(jié)說(shuō)。

“在今天真的是非常幸運(yùn),在大模型的賦能下,我們真正看到自動(dòng)駕駛離我們前所未有的近。”

回想起從事自動(dòng)駕駛開發(fā)的經(jīng)歷,李力耘唏噓不已。一路走來(lái),小鵬汽車經(jīng)歷了硬件算力稀缺的時(shí)期,走過(guò)了不停寫規(guī)則完善智駕的艱辛,也體驗(yàn)了端到端加速智駕研發(fā)的驚喜。面對(duì)自動(dòng)駕駛的“高峰”,李力耘在研發(fā)中越來(lái)越有信心。

“功成不必在我,功成必定有我。我們小鵬汽車自動(dòng)駕駛團(tuán)隊(duì)一定會(huì)在這條路上持續(xù)深耕,一定會(huì)把真正的自動(dòng)駕駛帶給大家?!?/p>

以下為小鵬AI大模型技術(shù)溝通會(huì)問(wèn)答環(huán)節(jié)實(shí)錄(經(jīng)光錐智能編輯整理)。受訪者為小鵬汽車自動(dòng)駕駛副總裁李力耘與小鵬汽車自動(dòng)駕駛產(chǎn)品高級(jí)總監(jiān)袁婷婷。

Q:小鵬的AI模型開發(fā)與特斯拉有什么相同與不同?世界模型與其他友商有什么區(qū)別?

李力耘:我覺(jué)得應(yīng)該是“英雄所見(jiàn)略同”。首先我們都是面向C端的公司,都有C端落地的產(chǎn)品,所以我們都有海量的數(shù)據(jù)。其次,我們都有非常高的算力儲(chǔ)備和AI能力。我覺(jué)得很多東西可能就不言自明了,如果AI能力只是為了從車端訓(xùn)練小的模型的話,肯定不是一個(gè)終極方案。區(qū)別部分是小鵬的基座模型不僅僅是對(duì)世界的理解,更重要的是需要它像人一樣大小腦兼并,可快可慢,進(jìn)而實(shí)現(xiàn)與現(xiàn)實(shí)世界的交互。

袁婷婷:現(xiàn)在可能大部分人想要用世界模型做仿真,但很顯然它不僅僅是只能做仿真。我們還在用模型來(lái)調(diào)教Agent(智能體)的反饋,和它之間的博弈以及接下來(lái)要做哪些動(dòng)作。

Q:基于以往的規(guī)則,可以理解為是一種托底嗎?世界模型生成的規(guī)則是否可能與以往設(shè)定的規(guī)則產(chǎn)生沖突?很多人都在提基座模型、VLA,看起來(lái)好像都是語(yǔ)言、視覺(jué)或者說(shuō)動(dòng)態(tài)的、多模態(tài)的概念,這些區(qū)別到底在哪里?

李力耘:我覺(jué)得最重要的區(qū)別是超越車端芯片算力的“一畝三分地”,我們的模型真的就是“大道至簡(jiǎn)”。不需要考慮部署的問(wèn)題,就是先通過(guò)最簡(jiǎn)單的模型、最純粹的模型架構(gòu)、最海量的優(yōu)質(zhì)數(shù)據(jù),達(dá)到超越的、未曾想到的能力涌現(xiàn)效果。

關(guān)于語(yǔ)言,語(yǔ)言是一種表征形式。不是說(shuō)所有語(yǔ)言都應(yīng)該以人類語(yǔ)言的形式表示。我們基于大語(yǔ)言模型加上獨(dú)特的多模態(tài)視頻編碼器的輸入,再加上我們動(dòng)作解碼器的輸出,最后進(jìn)行強(qiáng)化學(xué)習(xí)。我們的基座模型的目的,是為了做好物理世界交互。語(yǔ)言模型的預(yù)訓(xùn)練是一個(gè)起點(diǎn),讓模型有初步的推理能力,但更重要的還是讓模型體現(xiàn)出推理和思維能力。在云端驗(yàn)證了這些能力之后,這才是我們值得去蒸餾的東西。

回到規(guī)則,在規(guī)則時(shí)代小鵬無(wú)疑是領(lǐng)先的,我們的規(guī)則積累很深。這些規(guī)則,以前可能算是一個(gè)負(fù)擔(dān),但現(xiàn)在非常自豪和高興,因?yàn)檫@些規(guī)則正在轉(zhuǎn)化成我們的資本。我們成功完成了很多核心研發(fā)同學(xué)從規(guī)則化到AI化的轉(zhuǎn)型,尤其在強(qiáng)化學(xué)習(xí)的初期,規(guī)則其實(shí)算是積累好的經(jīng)驗(yàn)和老師,規(guī)則不斷沉淀,AI才能更高效地成長(zhǎng)。沒(méi)有以前規(guī)則的積累,可能會(huì)不知道如何去教AI。只有規(guī)則和強(qiáng)化學(xué)習(xí)的積累到一定程度,我們才能實(shí)現(xiàn)從Reward Model(獎(jiǎng)勵(lì)模型)到World Model(世界模型)的轉(zhuǎn)變。

袁婷婷:我認(rèn)為我們的云端的基座大模型和別人的云端訓(xùn)練至少有三處不同。

第一是我們的訓(xùn)練方式。我們?cè)谌ツ?1月份就提出,先在云端訓(xùn)練一個(gè)非常巨大的模型,再蒸餾到車端的流程。今年1月我們看到DeepSeek公開的論文顯示,他們也在用蒸餾方式時(shí),我們感覺(jué)真的是英雄所見(jiàn)略同。通過(guò)這樣的方式,可以突破車端模型的能力上限,改變?cè)贫藚⒄哲嚩怂懔?lái)搭設(shè)模型規(guī)模的做法。

第二點(diǎn)是架構(gòu)和性能表現(xiàn)不同。我們正在訓(xùn)練的模型已經(jīng)達(dá)到了72B的參數(shù)。更大的模型能夠支撐更大的訓(xùn)練數(shù)據(jù)量,我們現(xiàn)在用到的是2000萬(wàn)Clips,預(yù)計(jì)年底會(huì)達(dá)到2億Clips。這些領(lǐng)先行業(yè)數(shù)量級(jí)的訓(xùn)練數(shù)據(jù)量,將轉(zhuǎn)化成模型性能上的巨大優(yōu)勢(shì)。

第三點(diǎn)是我們的基礎(chǔ)能力。我們從0開始建了AI Infra,這些AI基礎(chǔ)設(shè)施不可能是一天忽然從0到1生成的。我們還建成了整個(gè)自動(dòng)駕駛行業(yè)內(nèi)首個(gè)萬(wàn)卡集群。如何把這些算力訓(xùn)練的效率發(fā)揮到最大化,以及如何12小時(shí)就能訓(xùn)練一版模型出來(lái),這些都體現(xiàn)了我們今天領(lǐng)先于行業(yè)的一些特點(diǎn)。

Q:LLM的幻覺(jué)問(wèn)題怎么解決,需要規(guī)則兜底嗎?模型蒸餾到自研芯片上,其效率與使用常見(jiàn)芯片相比如何?

李力耘:確實(shí)大模型的預(yù)訓(xùn)上有時(shí)候會(huì)有一些幻覺(jué)或者偶爾有一些模態(tài)坍塌。這些情況很難針對(duì)出問(wèn)題的case用類似寫Loss-Function(損失函數(shù))的方式解決。但我們通過(guò)后訓(xùn)練微調(diào)和強(qiáng)化學(xué)習(xí)進(jìn)行打磨,最終目標(biāo)是讓AI不僅達(dá)到非常高的上限,而且還能對(duì)下限進(jìn)行兜底。我們跟現(xiàn)在的車端端到端不一樣,車端的端到端模型很小,有時(shí)候有一些東西確實(shí)很難學(xué)進(jìn)去。但云端大模型是有能力掌握真正的靈魂和智能的,這是我們篤定的方向。

關(guān)于第二個(gè)問(wèn)題。在云端的世界模型、仿真、實(shí)車驗(yàn)證了能力之后,是可以蒸餾到車端不同芯片上的。在確認(rèn)云端的能力之后,車端的芯片決定了承載能力。我們希望用自研的芯片和軟硬一體的優(yōu)化給大家?guī)?lái)事半功倍的效果。

袁婷婷:我認(rèn)為第二個(gè)問(wèn)題關(guān)鍵就兩點(diǎn)。第一是用蒸餾的方法一定能提高上限。所以,我們用云端的基座模型蒸餾到車端的方式,是遠(yuǎn)勝于現(xiàn)在直接訓(xùn)車端的雙Orin或以后我們自己的芯片的。無(wú)論哪個(gè)都是加碼,這是一個(gè)確定性的答案。

第二點(diǎn),我們馬上要發(fā)新車了。新的芯片算力一定比現(xiàn)在車端的算力有數(shù)倍提高。假設(shè)自動(dòng)駕駛是一個(gè)人,需要有非常聰明的大腦、有非常銳利的眼睛,來(lái)面對(duì)這個(gè)世界并做出判斷。這個(gè)過(guò)程中,最核心的部分一定是聰明的大腦。大腦越大,轉(zhuǎn)的速度越快,一定更加厲害,我覺(jué)得這也是一個(gè)很簡(jiǎn)單的常識(shí)性問(wèn)題。所以,無(wú)論是今天的雙Orin車型還是來(lái)自研芯片的車型,都遵循ScalingLaw的進(jìn)化。

Q:安全對(duì)汽車來(lái)講是生命線,AI技術(shù)未來(lái)在安全中如何發(fā)揮更大的作用,在當(dāng)下我們這套系統(tǒng)中我們有沒(méi)有一些最新的思考?會(huì)再加一些規(guī)則或什么樣的方式再去把控底線嗎?

李力耘:我們認(rèn)為安全最重要的是要有雪亮的眼睛,要有聰明的大腦,以及靈敏的身手和反應(yīng)。安全作為我們最重要的一環(huán),我們也在往這三個(gè)方向努力。

雪亮的眼睛,就是我們眼觀六路,耳聽(tīng)八方,比如在傳感器的覆蓋上,我們是非常重視的。當(dāng)然,更重要的是,我們認(rèn)為你要有聰明的大腦,這樣才能做到很多預(yù)防性的安全。最后,身手也需要好,無(wú)論是整個(gè)車端的端到端,還是通過(guò)云端的基座模型蒸餾出來(lái)的端到端,都是一體式的,所以會(huì)有最小的延時(shí),使用最多的信息,以最敏捷的方法去幫我們把安全做到更好。

袁婷婷:第一,AI汽車一定是安全汽車。AI汽車一定代表了AI安全,這是確定性的,而且AI的安全在整個(gè)小鵬核心戰(zhàn)略里是關(guān)鍵的,是決不會(huì)退讓的一步。

第二,從端到端走向L3、L4的過(guò)程中,AI的第一步是端到端,它是極致人類行為的模擬。人類怎么開我就怎么開,可以和人類開得一樣好,它顯示出了你的舒適性、體驗(yàn)、靈活性都非常高。但要超越人類的時(shí)候,強(qiáng)化學(xué)習(xí)一定會(huì)帶來(lái)新的驚喜。這也是為什么我們會(huì)用云端基座模型蒸餾的方式突破云端的上限,用強(qiáng)化學(xué)習(xí)既突破云端基座的上限,也突破車端的上限。

大家都非常擔(dān)心AI的幻覺(jué),擔(dān)心下限守不住。首先,我想說(shuō)我們現(xiàn)在可以看到的是隨著AI介入越來(lái)越多,其實(shí)安全性的表現(xiàn)是越來(lái)越好的,而未來(lái)這個(gè)表現(xiàn)應(yīng)該還會(huì)持續(xù)得更好,并且會(huì)遠(yuǎn)遠(yuǎn)超出人類現(xiàn)在駕駛行為能夠帶來(lái)的安全。所以會(huì)給大家超出預(yù)期外的安全,在更多的極限場(chǎng)景,如果你要達(dá)到L3、L4,就一定要在會(huì)遇到概率0.0001%的情況下也能夠發(fā)揮出更好的實(shí)力。

Q:自研基座模型的必要性?為什么其他基座模型蒸餾的效果做不到小鵬這樣?對(duì)模型開源有什么理解?

袁婷婷:其實(shí)大家首先需要LLM作為骨干,做自動(dòng)駕駛就需要往上疊加大量現(xiàn)實(shí)世界數(shù)據(jù)。物理的AI世界非常復(fù)雜,跟文本的比特世界不一樣。物理世界會(huì)遇到現(xiàn)實(shí)的速度、操控,人類、運(yùn)動(dòng)等非常不一樣的狀況。我們添加了自動(dòng)駕駛數(shù)據(jù)以后,還用CoT推理鏈去一步步理解,推導(dǎo)出整個(gè)現(xiàn)實(shí)世界的脈絡(luò)和物體的運(yùn)動(dòng)。這些都是區(qū)別,當(dāng)然我們也有一個(gè)LLM的底層骨干網(wǎng)。

我認(rèn)為小鵬自動(dòng)駕駛也好、智能座艙也好,其實(shí)在AI開源浪潮中是受益的。無(wú)論是通義千問(wèn)還是DeepSeek這些非常棒的、非常優(yōu)秀的AI公司,都讓我們有所受益,我們對(duì)未來(lái)的發(fā)展也抱著開放的態(tài)度。也許有一天大家也可以看到我們的自動(dòng)駕駛有一部分也可以通過(guò)開放的方式,給世界和行業(yè)一些反饋,這也是我們對(duì)未來(lái)的期待,但今天肯定還沒(méi)有到這個(gè)時(shí)候。

本文來(lái)自投稿,不代表增長(zhǎng)黑客立場(chǎng),如若轉(zhuǎn)載,請(qǐng)注明出處:http://m.allfloridahomeinspectors.com/cgo/133921.html

(0)
打賞 微信掃一掃 微信掃一掃 支付寶掃一掃 支付寶掃一掃
上一篇 2天前
下一篇 2天前

增長(zhǎng)黑客Growthhk.cn薦讀更多>>

發(fā)表回復(fù)

登錄后才能評(píng)論