誰卡住了中國GPT的脖子?差的不止芯片!

誰卡住了中國GPT的脖子?差的不止芯片!

圖片|Photo by D koi on Unsplash

?自象限原創(chuàng)

作者|羅輯 程心

編輯|莊顏 排版|李帛錦

“泛而不強”的中國芯片

面對中國算力短缺的問題,更多人是“知其然不知所以然”,本質(zhì)是因為整個算力體系相當復雜,而芯片只是中間最重要的一部分。

通常來講,我們說的算力包含三部分,即基礎(chǔ)算力、智能算力和超算算力,而AI大模型主要依靠的是智能算力。

所謂智能算力,就是由GPGPU、FPGA、ASIC這樣可以加速AI計算的芯片組成的服務(wù)器平臺提供的算力,它們負責大模型的訓練和推理。據(jù)IDC數(shù)據(jù),2021年中國人工智能服務(wù)器工作負載中,57.6%的負載用于推理,42.4%用于模型訓練。

誰卡住了中國GPT的脖子?差的不止芯片!

▲ 圖源:信達證券研報

雖然可以提供的智能算力的芯片有三類,但GPGPU其實占了目前主流市場90%的份額,剩下的10%才是FPGA、ASIC之類的產(chǎn)品。

GPU市場份額更大在于其通用化。

梳理中國算力的發(fā)展脈絡(luò),大致趨勢可以以深度學習和大模型為節(jié)點劃分為三個階段,包括前深度學習時代,深度學習時代和大模型時代。2015年,以AlphaGo為節(jié)點,算力進入大模型時代。

在大模型時代之前,人臉識別、語音識別還是AI的主要應用場景。這個階段大多數(shù)訓練就已經(jīng)是基于GPGPU來實現(xiàn)的了,也因此GPGPU形成了目前最為成熟、完備的軟件生態(tài)。由于其芯片特點,GPGPU的通用性也更強,架構(gòu)也更適合AI大模型的訓練和部署。

而相應的,作為定制化和半定制化的FPGA 和 ASIC ,就只能應用在一些針對性的垂類領(lǐng)域。因此它們對模型的成熟度、對企業(yè)的模型研究深度都有更高的要求。

簡單來講,通用型的GPGPU適合剛?cè)腴T的小白和資深大牛在內(nèi)的所有人,而FPGA 和 ASIC作為定制款就只適合真正有經(jīng)驗的“玩家”。當然,通過這樣的定制化之后,F(xiàn)PGA 和 ASIC芯片的產(chǎn)品和解決方案也有更高的性價比。

在應用場景的基礎(chǔ)上,芯片的應用在AI大模型的訓練上又分為訓練和推理兩個具體的環(huán)節(jié)。目前能夠運行大模型訓練的只有GPGPU,具有代表性的芯片就是英偉達的A100、A800、H100、H800。

但這類芯片目前國內(nèi)的儲備并不多。據(jù)「財經(jīng)十一人」報道,國內(nèi)目前擁有超1萬枚GPU的企業(yè)不超過5家,其中擁有1萬枚英偉達A100芯片的最多只有一家。另有消息提到,目前騰訊、字節(jié)、百度英偉達A100的存量都不超過2000枚,阿里的存量大約能過萬,而更多公司都只能采用英偉達的中低端性能產(chǎn)品。

事實上也是如此,自A100和H100被禁止之后,中國企業(yè)就已經(jīng)將目光放到了它的替代品A800和H800上了。目前,國內(nèi)幾家頭部互聯(lián)網(wǎng)企業(yè)都向英偉達下了1.5萬~1.6萬左右的A800和H800訂單,涉及金額大概在十億美金左右。

當然,國內(nèi)其實也有自己的AI芯片,甚至在上一個國產(chǎn)芯片風口中起來的大多數(shù)有名有姓的企業(yè)做的都是應用在云端的AI芯片。

比如壁仞科技、燧原科技、天數(shù)智芯、寒武紀等等,都有自己的GPU產(chǎn)品,甚至部分產(chǎn)品的理論指標都不錯。

比如寒武紀最好的產(chǎn)品思元270,在硬件指標上大概就能接近英偉達的A100,而且價格比A100還低,百度在訓練文心一言時就小規(guī)模的部署了一些。

而之所以沒有實現(xiàn)大規(guī)模部署,原因其實有兩方面,一個是寒武紀的這款芯片智能運行大模型的推理部分,即它并不是一個通用的GPU。而另一方面在于,寒武紀目前還不具備大規(guī)模部署的能力。

這種大規(guī)模部署的能力具體又分為兩點,一個是其供應鏈是否能夠支撐起芯片的大規(guī)模出貨,畢竟一旦大規(guī)模部署,一個公司的需求就是上萬枚。而另一個關(guān)鍵點在于,當大規(guī)模出貨之后,寒武紀還需要為客戶配備大量的人力配合開發(fā),而寒武紀在這方面目前也有沒大力推動的意愿。

而除了國內(nèi)領(lǐng)先的半導體公司之外,國內(nèi)芯片的整體水平還是比較低的,有業(yè)內(nèi)資深專家表示:“目前國產(chǎn)芯片的性能整體在英偉達的30%左右?!?/p>

AI大模型的訓練要求芯片能夠處理高顆粒度的信息。但目前國產(chǎn)GPU大多對信息處理的顆粒度不高,還不具備支撐大模型訓練所需的能力。

另一方面,目前的國產(chǎn)GPU大多只能處理單精度的的浮點運算,比如壁仞科技BR100、天數(shù)智芯的智鎧100,以及面提到的寒武紀思元270等等,它們在FP32的理論指標上做得不錯,但沒有處理FP64的能力。

目前從公開信息來看,國內(nèi)唯一能支持FP64雙精度浮點運算的只有海光推出的DCU深算一號,但它性能只有A100的60%左右。

誰卡住了中國GPT的脖子?差的不止芯片!

▲ 圖源:科創(chuàng)板日報

除了這些專業(yè)做芯片的半導體公司之外,國內(nèi)的互聯(lián)網(wǎng)大廠也幾乎都有自己的AI芯片。

比如阿里在2019年發(fā)布的含光800,百度在2020年發(fā)布的昆侖芯,騰訊在2021年發(fā)布的紫霄,以及華為的昇騰系列等等。

但這些大廠的AI芯片大多也都屬于的定制版本,在應用上也面臨諸多限制。

除了前面提到寒武紀的芯片只能用在推理之外,華為的昇騰通用性也很差,它只能應用在MindSpore這類華為自己的開發(fā)框架下,以及他們優(yōu)化好的大模型上。任何公開的模型都必須經(jīng)過華為的深度優(yōu)化才能在華為的平臺上運行。

當然華為也有自己的優(yōu)勢,即昇騰芯片涉及的所有IP都是買斷的,不會存在技術(shù)被卡脖子的問題。同時華為圍繞自己的AI大模型和芯片建立了一系列的算法和軟件,實現(xiàn)了自己的閉環(huán)。

整體上,從芯片的角度國產(chǎn)算力的長征才剛剛開始,我們在部分細分領(lǐng)域?qū)崿F(xiàn)了一定的程度的國產(chǎn)替代,但仍然無法實現(xiàn)更多環(huán)節(jié)存在性能不足和算力漏洞。

而隨著大模型的發(fā)展越來越熱,市場對算力的需求仍將呈指數(shù)級上升,國產(chǎn)芯片廠商既要解決算力問題,還要解決軟件生態(tài)和工具的問題,難度可想而知,但市場留給我們時間卻不多了。

云 for AI有戲,AI for 云差千里

縱然“云智一體”已經(jīng)成為了討論的前提,在眾多關(guān)于云與智能關(guān)系的論調(diào)中,無非是云計算巨大的存儲和計算空間,能夠幫助大模型訓練大幅度降低成本。

但這卻并不足以道出其中乾坤。

用一個形象的比喻,云與AI就像是新能源與自動駕駛的關(guān)系。傳統(tǒng)燃油車的架構(gòu)復雜,在智能化改造方面,并沒有足夠的空間去安裝攝像頭、激光雷達和芯片,只有在新能源車簡化了發(fā)動機系統(tǒng)和整車架構(gòu)的前提下,才使得自動駕駛硬件和軟件有接入的空間,并以智能化為目標重塑整車結(jié)構(gòu)。當下新能源與智能化如同一對雙生子,同步向前邁進。

同理,在傳統(tǒng)的存儲和計算架構(gòu)中,并沒有那么強的彈性和空間,能夠適應AI訓練過程中的變化和應用,用傳統(tǒng)服務(wù)器和存儲結(jié)構(gòu)訓練大模型,簡直是用諾基亞手機玩原神。而云計算的存在,既保證了快速響應、快速變化的空間,連接了底層硬件和上層應用,同時也給了大模型訓練更強的算力支撐,可以說,沒有云,就不會有大模型。

誰卡住了中國GPT的脖子?差的不止芯片!

▲ 圖源浙江證券股份有限公司

從2012年開始,中國以阿里云為“帶頭大哥”開始了一段云計算的征程。10年過去了,在全球排名上,阿里云已經(jīng)僅次于亞馬遜AWS和微軟Azure,排在世界第三的位置,在基礎(chǔ)設(shè)施的建設(shè)和算力準備上,可以說中美并沒有拉開太大差距,這也是為什么,在《ChatGPT啟示錄系列|萬字長文解碼全球AI大模型現(xiàn)狀》一文中,我們強調(diào)中國在大模型上有一定的底氣,而日本錯過了云時代,也就錯過了AI。

但在多模態(tài)大模型和AIGC的進一步推動下,對云計算能力提出了新的要求。AIGC需要多模態(tài)數(shù)據(jù)和強大的模型,包括不限于時序、文檔、寬表、結(jié)構(gòu)化、非結(jié)構(gòu)化、圖片數(shù)據(jù)等,還要將各類數(shù)據(jù)融合在一起,提供存儲、使用能力和推理能力,這是中國云廠商將要面臨的新挑戰(zhàn)。

不過,云 for AI 解決的仍然是發(fā)電問題,AI for 云解決的才是發(fā)電效率的問題。前者的重點在于“車能不能跑起來”,而后者的重點在于“車能跑的多快”。

這來自于AI對云計算底層架構(gòu)的改造。

以基礎(chǔ)軟件中,國內(nèi)跑的最快的數(shù)據(jù)庫為例。在阿里云瑤池數(shù)據(jù)庫峰會上,李飛飛不斷強調(diào)“智能化是未來云原生數(shù)據(jù)庫發(fā)展的動力”。用智能化的技術(shù)接入數(shù)據(jù)庫的運維,比如異常檢測、HA切換、參數(shù)調(diào)參等等。

異常檢測場景的智能化可能要更為容易理解,假設(shè)該數(shù)據(jù)庫存在10張表格,按列分布,非智能化數(shù)據(jù)庫(包括傳統(tǒng)數(shù)據(jù)庫和云原生數(shù)據(jù)庫)的檢測模式,需要將這10張表逐列檢測,最終定位故障點。而分布式則可以將10張表拆開同時檢測,用一張表的時間跑完十張表,提高檢測效率。但智能化數(shù)據(jù)庫則可以通過引入AI能力,制定檢測標準,精準定位、精準打擊,將檢測時間從10分鐘縮短到幾秒。

這不僅需要強大的AI能力,也是不斷測試不斷優(yōu)化模型的結(jié)果,最終讓云成為智能云。

帶這個思考重新看“2019年,微軟Azure花10億美元買斷OpenAI成為其獨家供應商”,就更加感嘆納德拉的老奸巨猾。一方面,Azure成為OpenAI的獨家供應商后,所有基于ChatGPT和GPT4的MaaS(模型即服務(wù))服務(wù)都長在Azure上,這將為Azure快速獲得市場份額,甚至有反超AWS的可能。另一方面,OpenAI通過Azure訓練自己的AI大模型,也快速、高強度打磨了Azure的智能化能力,目前Azure是全球排名第一的智能云。

微軟負責云計算和AI業(yè)務(wù)的執(zhí)行副總裁斯科特·格思里(Scott Guthrie)在接受采訪時說:“我們并沒有為OpenAI定制任何東西,盡管其最初是定制的,但我們總是以一種泛化的方式構(gòu)建它,這樣任何想要訓練大型語言模型的人都可以利用同樣的改進技術(shù)。這真的幫助我們在更廣泛的范圍內(nèi)成為更好的AI智能云?!?/p>

目前,微軟已經(jīng)在努力使Azure的AI功能變得更加強大,推出了新的虛擬機,使用英偉達的H100和A100 Tensor Core GPU,以及Quantum-2 InfiniBand網(wǎng)絡(luò)。微軟表示,這將允許OpenAI和其他依賴Azure的公司訓練更大、更復雜的AI模型

反觀國內(nèi)智能云隊伍,僅有百度智能云獨自站在冷風里吆喝了幾年,但在「自象限」看來,百度智能云離真正的智能云還相差甚遠。百度云的“智能”在于通過云服務(wù)提供AI能力,比如推薦算法、人臉識別,但這只是服務(wù)內(nèi)容的不同,換湯沒換藥。

不過從李彥宏近期的發(fā)言來看,似乎也想明白了“進化”的方向,但可以肯定的是,中國智能云的故事不會只有百度一家,阿里騰訊華為的動作也都在鎂光燈下。

「自象限」根據(jù)公開信息了解到,4月11日,阿里云峰會中阿里巴巴董事局兼主席張勇出席,或?qū)⒃跁险酵瞥霭⒗锎竽P?,接下來還有各類行業(yè)應用模型面世;4月18日,在火山引擎原動力大會中,字節(jié)跳動副總裁、火山引擎業(yè)務(wù)負責人楊震原的出現(xiàn),也讓業(yè)內(nèi)不少人士期待和推測,是否會發(fā)布字節(jié)跳動的大模型。

然而無論是技術(shù)驅(qū)動還是市場驅(qū)動,一方面在硬件算力上持續(xù)突破,另一方面在軟件算力方向試圖彎道超車,在算力長征路上,中國要補的課、要打的仗都還很多。

? 文中配圖來源于網(wǎng)絡(luò)

本文來自投稿,不代表增長黑客立場,如若轉(zhuǎn)載,請注明出處:http://m.allfloridahomeinspectors.com/quan/101079.html

(0)
打賞 微信掃一掃 微信掃一掃 支付寶掃一掃 支付寶掃一掃
上一篇 2023-07-04 18:15
下一篇 2023-07-04 21:01

增長黑客Growthhk.cn薦讀更多>>

發(fā)表回復

登錄后才能評論

評論列表(7條)

  • lily2的頭像
    lily2 2023-07-06 18:50

    海光推出的DCU申算一號是國內(nèi)目前唯一支持FP64雙精度浮點運算的產(chǎn)品

  • 7429的頭像
    7429 2023-07-06 16:43

    GPGPU的通用性是更強的,在AI大模型訓練和部署中有著更適用的架構(gòu)

  • 10061的頭像
    10061 2023-07-06 15:46

    作為剛?cè)腴T的小白,還是通用型的GPGPU更適合我

  • 13612的頭像
    13612 2023-07-06 15:36

    從硬件指標上來看,寒武紀思元270大概能和英偉達的A100相接近,而價格卻比A100要低,難怪美國要抵制AI一些產(chǎn)品出口中國了

  • 7920的頭像
    7920 2023-07-06 15:08

    海光信息在研發(fā)方面還是投入了很多精力的

  • 5789的頭像
    5789 2023-07-06 15:04

    國產(chǎn)芯片廠商除了要解決算力,還要解決軟件生態(tài)和工具,難度很大?。?/p>

  • 吧哈哈的頭像
    吧哈哈 2023-07-06 15:03

    目前只有GPGPU能夠運行大規(guī)模訓練,其中代表性的芯片就是英偉達公司生產(chǎn)的