文|白 鴿
編|王一粟
OpenAI最新大模型o1的發(fā)布,標(biāo)志著大模型正式邁入推理時代。但邁入推理時代后,大模型的不可能三角問題更加凸顯——成本、效率和性能難以平衡。
一般來說,想要模型效果好,就需要模型大,但模型越大,意味著參數(shù)越多,參數(shù)越多其背后的算力成本就不斷提升,甚至是幾十上百倍的提升。同時,在模型大、成本低的情況下,還要求模型響應(yīng)延遲足夠低。
想要破解大模型不可能三角的問題,通過優(yōu)化算力資源,在不犧牲模型性能的前提下盡可能降低模型部署成本,成為行業(yè)中的關(guān)鍵解法。
此背景下,聚焦智能算力優(yōu)化的AI Infra賽道崛起。AI Infra,是指在大模型生態(tài)系統(tǒng)中,鏈接算力和應(yīng)用的中間層基礎(chǔ)設(shè)施,包括硬件、軟件、工具鏈和優(yōu)化方法等,是一個整體解決方案。
那么,AI Infra到底怎么實現(xiàn)算力資源的優(yōu)化?又如何跑通其中的商業(yè)閉環(huán)邏輯?作為AI Infra賽道的創(chuàng)企,脫胎于清華大學(xué)高性能研究所的趨境科技給出了自己的思考和解法。
大模型發(fā)展過程中,最底層算力基礎(chǔ)設(shè)施是以GPU為主,如果把其比做汽車發(fā)動機(jī),可以看到,發(fā)動機(jī)如果性能好,汽車就可以跑的快,但想要汽車跑的更快,就不能僅靠發(fā)動機(jī),還需要空氣動力學(xué)、傳動軸、輪胎等整車體系化能力的升級。
“現(xiàn)階段很多AI Infra企業(yè)更多是聚焦對GPU進(jìn)行效率優(yōu)化,而我們則是進(jìn)行了全系統(tǒng)架構(gòu)設(shè)計。要真正的榨干所有硬件資源,從而突破GPU算力制約?!壁吘晨萍糃EO艾智遠(yuǎn)?如此說道。
因此,趨境科技提出以存換算和全系統(tǒng)協(xié)同優(yōu)化推理解決方案,通過協(xié)同存儲、CPU、GPU、NPU等多種設(shè)備,相當(dāng)于把機(jī)器內(nèi)所有硬件資源全部用上,充分釋放異構(gòu)算力,將推理成本降低10倍以上。
趨境科技通過協(xié)同所有硬件資源,為大模型提供充足的算力的同時,也通過“以存換算”技術(shù)釋放存力作為算力的補(bǔ)充,降低大模型對算力的需求。
早期大模型推理架構(gòu)將每次推理視為獨立請求,缺乏高效處理所需的“記憶”能力。盡管后續(xù)引入了近似問題緩存(Semantic Query Cache)和前綴緩存(Prefix KVCache Cache),但仍主要依賴于“死記硬背”。這些方案要求新問題與已處理問題高度一致,才能利用緩存去降低算力需求。
“以存換算”的技術(shù)便是針對這一問題所設(shè)計,通過調(diào)用存儲空間和“融合推理(Fusion Attention)”技術(shù),即便是面對全新的問題也可以從歷史相關(guān)信息中提取可復(fù)用的部分內(nèi)容,與現(xiàn)場信息進(jìn)行在線融合計算。這一技術(shù)顯著提升了可復(fù)用的歷史計算結(jié)果,進(jìn)而降低了計算量。
實際上,這就相當(dāng)于給大模型增加了一個存儲體,這個存儲體存儲的不是文檔,而是模型推理過程中的中間結(jié)果,可以理解為大模型推理結(jié)果的記憶元。就像我們的大腦一樣,儲存了海量的運(yùn)算好的信息,在我們想要表達(dá)或者推理的時候,能夠從大腦中調(diào)用出一部分運(yùn)算好的信息供我們使用。
“我們技術(shù)的本質(zhì),就是通過過往用戶提問時,對大模型運(yùn)算過程中的中間結(jié)果進(jìn)行緩存,然后當(dāng)用戶提出全新問題時,即使與原來問題不一樣,但也能從過往記憶中提取相關(guān)內(nèi)容,再結(jié)合現(xiàn)場推理,輸出最終結(jié)果。”艾智遠(yuǎn)如此說道。
通過這一新思路,趨境科技的大模型知識推理一體機(jī)充分利用了存儲資源,采用“以存換算”的方式釋放存力作為對于算力的補(bǔ)充,在RAG場景中,響應(yīng)延遲降低20倍,性能提升達(dá)10倍。
在實際商用落地上,趨境科技主要提供產(chǎn)品是大模型知識推理一體機(jī),以軟硬一體交付方式為主,內(nèi)置了開箱即用的知識推理平臺和推理加速引擎,提供辦公助手、智能檢索、內(nèi)容創(chuàng)作等應(yīng)用,并支持橫向拓展更多應(yīng)用,能夠在醫(yī)療、教育、金融、法律、企業(yè)培訓(xùn)等場景直接使用;另外也提供豐富的API接口,客戶能夠快速完成大模型的部署和使用,對接現(xiàn)有大模型業(yè)務(wù)和產(chǎn)品中進(jìn)行二次開發(fā)。
事實上,當(dāng)前在AI Infra在一賽道中,不管是創(chuàng)業(yè)企業(yè),還是云廠商,抑或是硬件廠商,都虎視眈眈,不斷加速自身的技術(shù)和產(chǎn)品布局。
而趨境科技作為一家2023年底剛剛成立的創(chuàng)業(yè)公司,艾智遠(yuǎn)認(rèn)為自身能夠持續(xù)生存并發(fā)展下去的關(guān)鍵,就在于持續(xù)保持核心技術(shù)的領(lǐng)先性上。
趨境科技會持續(xù)優(yōu)化底層技術(shù)能力,“我們更希望的一種模式是,我們搭的是一個架子,房頂上的這些應(yīng)用是由大家來開發(fā),然后利用我們架子能夠更好的降低成本?!卑沁h(yuǎn)如此說道。
以下為光錐智能與趨境科技CEO艾智遠(yuǎn)詳細(xì)對話內(nèi)容(經(jīng)光錐智能編輯整理):
(1)布局大模型知識推理一體機(jī),用以存換算解決不可能三角形
Q:趨境科技成立于2023年底,當(dāng)時選擇創(chuàng)業(yè)的契機(jī)是什么?目前公司的基本情況,包括團(tuán)隊建設(shè),融資情況等?
A:?趨境科技是由清華計算機(jī)系教授武老師與真知創(chuàng)投創(chuàng)始人兼董事長任旭陽共同發(fā)起,公司核心三人創(chuàng)始團(tuán)隊:我、陳超、陳祥麟,均出身武老師門下。
我是清華計算機(jī)系博士畢業(yè),博士期間主要從事分布式系統(tǒng)優(yōu)化、并行計算、分布式存儲等相關(guān)領(lǐng)域研究領(lǐng)域。
首席戰(zhàn)略官陳超,清華大學(xué)工程博士在讀,擁有MIT&杜克大學(xué)雙碩士,同時兼任真知創(chuàng)投董事總經(jīng)理,負(fù)責(zé)真知創(chuàng)投技術(shù)驅(qū)動項目的孵化與投資。
研發(fā)負(fù)責(zé)人陳祥麟,清華大學(xué)碩士,擁有多年大數(shù)據(jù)與AI相關(guān)產(chǎn)品研發(fā)和落地經(jīng)驗。
趨境科技的長期技術(shù)合作方,是清華大學(xué)的KVCache.AI團(tuán)隊,目前的分工是趨境聯(lián)合清華KVCache.AI團(tuán)隊共同做技術(shù)研發(fā),同時趨境科技負(fù)責(zé)商業(yè)化轉(zhuǎn)化。
清華KVCache.AI團(tuán)隊,由清華助理教授章明星負(fù)責(zé),團(tuán)隊在包括OSDI、SOSP、ASPLOS、HPCA、FSE、VLDB、ATC、EuroSys 等國際頂級會議和期刊上發(fā)表論文二十余篇,數(shù)個國家級創(chuàng)新獎項。
我們雙方和月之暗面、阿里、華為等業(yè)內(nèi)主要廠商均有深度協(xié)作,剛剛共同發(fā)布了Mooncake的開源項目,共建以KVCache為中心的推理架構(gòu)。
目前團(tuán)隊大概90%以上都是碩士,50%以上是博士,整體以清華系為主,還有來自包括新加坡國立、哈工大、中科院、北航、北郵等院校的畢業(yè)生。
Q:為什么會選擇做大模型知識推理一體機(jī)這一賽道,背后衡量的點是什么?用“以存換算”的思路進(jìn)行布局,能否詳細(xì)的講述一下這背后的思考?
A:我們的產(chǎn)品名為大模型知識推理一體機(jī),主要是以軟硬件一體的交付形態(tài),到產(chǎn)品層面則是大模型知識推理平臺,有辦公助手、智能客服、智能搜索等等應(yīng)用,客戶開箱即用,客戶也可以調(diào)用 API ,提供大模型的能力,對接到現(xiàn)有的產(chǎn)品中。我們核心觀點是怎么能夠降低大模型落地準(zhǔn)入門檻,以及幫助企業(yè)能夠真正落地專屬大模型產(chǎn)品。所以我們實際做的,是一款高性能、低成本、高效率的解決方案,其能夠助力千行百業(yè)的私有化大模型快速落地。
大模型在業(yè)務(wù)側(cè)落地成本和延遲都非常高,在業(yè)務(wù)側(cè)單次請求的Prompt長度往往需要幾千或者上萬Token,甚至是基于COT,這就需要進(jìn)行復(fù)雜推理,就像OpenAI的o1。事實上,我們在去年就已經(jīng)發(fā)現(xiàn):基于COT做深層次推理,能夠讓大模型效果更好。但這背后關(guān)鍵問題就在于推理成本很高。
比如在客服場景,用戶咨詢一個問題,這背后的大模型經(jīng)過深層次推理,加上外部知識,可能需要幾十秒鐘才能完成一個問題的完整回復(fù)。這段時間內(nèi),大模型一直在進(jìn)行計算,也意味著幾十秒內(nèi)這臺機(jī)器的很多計算資源被獨占。如果線上上萬人,就需要橫向擴(kuò)展數(shù)百臺機(jī)器,這個成本是不能接受的。
所以在去年我們討論這個問題的時候,就發(fā)現(xiàn)私有化模型落地的最大問題,是有一個不可能的三角形,它既要效果,又要效率,還要成本。
效果,是我們希望有更大的模型,模型越大,效果越好。但模型越大,成本也就越高。并且成本的量級不是簡單幾倍數(shù)的提升,而是非常大的量級的提升。同時,模型大、成本低的情況下,還要求響應(yīng)的延遲足夠低,所以這就變成了不可能完成的三角形。
這個問題的關(guān)鍵是GPU算力的制約,因為現(xiàn)有技術(shù)下GPU的利用率已經(jīng)較高,進(jìn)一步提升的空間有限。
而我們之前的研究方向主要是并行計算、分布式存儲等計算機(jī)體系結(jié)構(gòu)相關(guān)的領(lǐng)域,我們關(guān)注一臺服務(wù)器的全部硬件資源,而不僅僅是GPU。因此我們想到一個點,為什么大模型推理過程中,只能用GPU?GPU是很強(qiáng),就好比汽車中的發(fā)動機(jī),發(fā)動機(jī)做的好,汽車確實跑的快。但想要汽車跑得更快,不只是需要增強(qiáng)發(fā)動機(jī)本身,還需要結(jié)合空氣動力學(xué)、傳動軸、輪胎等性能。如果想要把性能發(fā)揮到極致,就要把整個機(jī)器所有性能都發(fā)揮極致,才能夠達(dá)到最好的性能優(yōu)化。
所以,我們就提出了全系統(tǒng)協(xié)同優(yōu)化,相當(dāng)于把機(jī)器內(nèi)所有硬件資源全部用上,包括GPUCPU內(nèi)存硬盤等,而其中的關(guān)鍵在于怎么利用這些資源。
與此同時,我們國產(chǎn)GPU卡,與英偉達(dá)的產(chǎn)品在實際性能上還是有一些差距。如果只關(guān)注GPU的優(yōu)化,大模型的落地成本會進(jìn)一步提升。
因此,在這基礎(chǔ)之上,我們提出了2個核心觀點,一個是以存換算,釋放存力作為算力的補(bǔ)充,降低對算力的需求;二則是全系統(tǒng)異構(gòu)協(xié)同優(yōu)化,緊密聯(lián)動 HBM/DRAM/SSD 和 CPU/GPU/NPU 全系統(tǒng)異構(gòu)設(shè)備,突破顯存容量的限制,充分釋放全系統(tǒng)的存力和算力。
Q:“以存換算”背后的技術(shù)邏輯是什么?
A:大模型推理的時候,特別是在RAG場景相關(guān)應(yīng)用上,需要不停地調(diào)用知識庫里的內(nèi)容,給到大模型做推理。
現(xiàn)階段在智能問答、智能客服等場景中,知識庫的運(yùn)用實際上還是以RAG為核心方式。遇到用戶的提問時,傳統(tǒng)的做法是把這些問題和答案緩存下來,后續(xù)如果有用戶提問相似問題,就可以給到答案,類似“死記硬背”。
但問題在于,用戶的提問永遠(yuǎn)是千變?nèi)f化的,很難命中原來一模一樣的問題。
實際上,在RAG場景,我們可以做一個大的存儲體,這個存儲體存儲的不是文檔,而是模型推理過程中的中間結(jié)果,可以理解為大模型推理結(jié)果的記憶元。就像我們的大腦一樣,儲存了海量的運(yùn)算好的信息,在我們想要表達(dá)或者推理的時候,能夠從大腦中調(diào)用出一部分運(yùn)算好的信息供我們使用。
傳統(tǒng)的Attention計算,當(dāng)遇到一個新的問題時,會調(diào)用問題的相關(guān)產(chǎn)品信息,組成一個比較大的Prompt,給大模型做現(xiàn)場推理計算,就像要求一個人現(xiàn)場看完一本之前沒看過的書,需要的整體理解和閱讀時間周期都很長。
而我們的想法是,針對這個問題,已經(jīng)有了一部分記憶元,在另外一個人提出問題時,就已經(jīng)有相關(guān)知識記憶存儲,就好像我在做現(xiàn)場推理的時候,這本書我已經(jīng)看過了,但是沒有看全,但基于看到的一些新內(nèi)容+之前已有的相關(guān)知識,在做現(xiàn)場推理時,速度會快很多。
因此,我們不是在做死記硬背,而是在做融合推理。通過修改大模型里面關(guān)鍵的算子,做記憶與現(xiàn)場推理的融合計算,能夠比原來傳統(tǒng)推理有10倍性能的提升,尤其是在RAG場景中。
Q:以存換算這一技術(shù),為什么大模型公司不能夠自己做?
A:對于大模型公司而言,他們更多的關(guān)注點可能會放在模型效果上,所以技術(shù)方向也會偏重訓(xùn)練層。而我們主要面向的是ToB的企業(yè),他們對于成本更加敏感,“以存換算”主要解決推理部署的成本問題,因此我們在這個方面技術(shù)上研究更加深入。
(2)生存發(fā)展的關(guān)鍵,是保持核心技術(shù)領(lǐng)先性
Q:大模型知識一體機(jī)是一個硬件產(chǎn)品?是否需要一套單獨的軟件算法系統(tǒng),來進(jìn)行單獨的適配?最后落地給客戶,是以硬件的形式交付,還是以軟件的形式交付?
A:主要產(chǎn)品交付形態(tài)是一個軟硬一體的推理一體機(jī)。之所以選擇軟硬一體的形態(tài),是因為需要進(jìn)行硬件協(xié)同,一個普普通通的機(jī)器是不能滿足這一要求,因為從整個機(jī)器的設(shè)計上來講,我們需要更多的內(nèi)存和更好的CPU支持,但有可能是更少的GPU算力支持,包括對帶寬、硬件的選型,基于客戶業(yè)務(wù)訴求我們都會有很多的考慮。
我們做異構(gòu)協(xié)同的話,必須把整臺機(jī)器的硬件資源都進(jìn)行一定的調(diào)配,甚至是有一些主板層面的設(shè)計。在給業(yè)務(wù)方交付時,以一體機(jī)的交付形態(tài)。既可以提供豐富的API接口給業(yè)務(wù)方使用,第三方廠商或者是ISV,只要調(diào)用API,就可以完成大模型推理。也可以提供推理平臺,并內(nèi)置了一些簡單應(yīng)用,類似企業(yè)搜索智能問答、各種智能體等,同時客戶也可以根據(jù)業(yè)務(wù)需求再進(jìn)行拓展。
對于一些終端客戶來講,他可能有些應(yīng)用就已經(jīng)足夠了,我們更希望的一種模式是,我們搭的是一個架子,房頂上的這些應(yīng)用是由大家來開發(fā),然后利用我們架子能夠更好的降低成本。
Q:目前在硬件的選擇上有具體的傾向嗎?未來在硬件層面有哪些規(guī)劃?
A:目前幾款主流的國產(chǎn)GPU和NVIDIA GPU的都能支持。未來我們考慮更多硬件層面的布局,例如主板的設(shè)計、分離式架構(gòu)設(shè)計、存算融合等等。
Q:目前各大云廠商也都在做智算中心等AI Infra基礎(chǔ)設(shè)施,您認(rèn)為作為創(chuàng)企,要如何與大廠們進(jìn)行競爭?同時,目前在行業(yè)中已經(jīng)有了一批早期的創(chuàng)企,并取得了一定的成績,作為后來者,趨境科技又該如何進(jìn)行差異化競爭?核心優(yōu)勢在哪?
A:?實際上,我們的技術(shù)思路和客群選擇和當(dāng)前的大廠以及AI Infra廠商都有所不同,因此目前沒有明確的競爭關(guān)系。此外,AI Infra還是一個相對藍(lán)海的市場,大家都有可以服務(wù)的客群。
另外,我們比較堅持的一點,就是要把“以存換算”和“全系統(tǒng)協(xié)同優(yōu)化”技術(shù)持續(xù)做下去,我們觀測到未來推理成本降低不止10倍,要降到千倍。
我們也遇到很多客戶,72B的大模型很有用,但出于成本的考慮,最終只會選擇7B或13B的模型,這就是一個妥協(xié)。還有些做智能客服的企業(yè),為了控制成本,可能會在整個系統(tǒng)中只用10%的大模型。因此,降低大模型的準(zhǔn)入門檻,是ToB側(cè)客戶落地大模型時最廣泛的需求。
我們認(rèn)為在自己專注的技術(shù)領(lǐng)域堅持研發(fā)投入,持續(xù)建立領(lǐng)先的技術(shù)優(yōu)勢、做客戶真正需要的產(chǎn)品、提供更好的服務(wù)支持,才能在競爭中生存下去。
(3)做私有化大模型部署,與云廠商不存在競爭關(guān)系
Q:大模型很多算力都是花在訓(xùn)練上,我們?yōu)槭裁床蛔龃竽P偷挠?xùn)練?
A:?大模型訓(xùn)練的成本很高,對數(shù)據(jù)質(zhì)量、人員標(biāo)注能力都有很高的要求,訓(xùn)練不好很有可能出現(xiàn)災(zāi)難性遺忘等問題。實際上現(xiàn)階段通用大模型,經(jīng)過了一年多的技術(shù)演進(jìn),配合RAG技術(shù)和In-Context Learning(上下文學(xué)習(xí)),甚至比通過領(lǐng)域數(shù)據(jù)訓(xùn)練的模型效果還要好,已經(jīng)能夠滿足大部分客戶的業(yè)務(wù)使用場景。
而阻礙客戶大模型落地的核心痛點是推理端算力的成本,因此我們更加關(guān)注大模型的私有化落地推理側(cè)的性能優(yōu)化問題。
Q:基于以存換算的技術(shù)思路,以存儲的形式,尤其是私有化部署大模型的方式,是否會受到大模型更新迭代的影響?
A:我們實際上是在通用大模型之外,加入了知識推理能力。我們不僅做硬件加速,也做了深度推理,也就是o1的功能。因此,通用大模型的發(fā)展對這件事情反而是有促進(jìn)作用,可以根據(jù)模型的能力更換通用大模型來達(dá)成AI能力的升級。我們不是訓(xùn)練大模型,而是通過推理來減少大模型幻覺,增強(qiáng)他的推理能力。
此外,基于Transformer架構(gòu)的大模型底層的推理邏輯相似,新的模型的適配工作并不大,不需要太多的定制化開發(fā)。
Q:目前主要業(yè)務(wù)是以私有化部署為主,但云廠商們都號召大家把大模型部署在云上,那您認(rèn)為未來私有化部署的空間是否被壓縮?
A:我們反而覺得私有化是很大的一個空間,因為很多數(shù)據(jù),比如公司的經(jīng)營決策數(shù)據(jù)、財務(wù)數(shù)據(jù)、核心文檔數(shù)據(jù)、客戶信息、員工信息等,都需要私有化,這是企業(yè)的商業(yè)機(jī)密。
因此,一些企業(yè)會選擇私有化這種最保險的方式,B端市場也是個很大的市場,有私有化訴求的這一類客戶群規(guī)模還是比較大,需求也相對可控。
本文來自投稿,不代表增長黑客立場,如若轉(zhuǎn)載,請注明出處:http://m.allfloridahomeinspectors.com/cgo/127500.html