編輯 | 吳先之
計算,是一門古老又復(fù)雜的學(xué)問。
從數(shù)百年前的天文學(xué)家用紙筆推演著行星軌道,到世界上第一臺通用計算機“ENIAC”,再到后來的小型機、移動終端,直至當(dāng)下的云計算,計算的載體正在不斷地演替。
如果將加速信息化時代的“ENIAC”,視為計算進化的關(guān)鍵節(jié)點,那么在數(shù)字經(jīng)濟的敘事語境之下,屬于算力的時代已然到來——算力,就是未來的生產(chǎn)力。
11月3日,在2022云棲大會現(xiàn)場,阿里巴巴宣布自研CPU倚天710已大規(guī)模應(yīng)用,而倚天710,也由此成為了中國首個云上大規(guī)模應(yīng)用的自研CPU。
據(jù)悉,倚天710云實例目前已與阿里云的飛天操作系統(tǒng)及CIPU融合,在數(shù)據(jù)庫、大數(shù)據(jù)、視頻編解碼、AI推理等核心場景中的性價比提升超30%,單位算力功耗降低60%。
一直以來,計算的生命在于應(yīng)用,而云計算作為全新計算體系,既是其天然的規(guī)模化落地場景,亦是高性能芯片最優(yōu)應(yīng)用場景之一。
而自研CPU大規(guī)模部署應(yīng)用,對阿里這家以電商起家的科技公司來說,可謂其十多年算力攻堅路上的歷史性時刻。
第一部分:起點
阿里算力的起點,源于互聯(lián)網(wǎng)紅利爆發(fā)前夜,業(yè)務(wù)規(guī)模激增與陳舊的算力基礎(chǔ)的割裂。
時間回到2008年,阿里巴巴正值業(yè)務(wù)高速發(fā)展期:淘寶上線淘寶商城(天貓前身),跨入B2C賽道;淘寶自身也已打響了名號,用戶體量急劇增長。
然而,業(yè)務(wù)激增不全然是好事。彼時,小型機是企業(yè)算力最重要的組成,企業(yè)若要獲取算力,要么線下自建服務(wù)器,要么租用外部服務(wù)器。
且不談自建服務(wù)器帶來的成本壓力,以及硬盤故障、服務(wù)器死機、交換機重啟等司空見慣的硬件問題,單論這類集中式計算所能提供的算力,其實遠遠跟不上互聯(lián)網(wǎng)業(yè)務(wù)規(guī)模的增長。
以當(dāng)時的阿里為例,在購物高峰期,每天數(shù)百萬用戶同時涌入站點,無時不刻考驗著捉襟見肘的IOE技術(shù)架構(gòu)?!懊刻煸缟习它c到九點半之間,阿里服務(wù)器的使用率都會飆升到 98%,離爆棚就差兩個百分點。”《阿里云的這群瘋子》如是寫道。
一旦難以承壓,小則延遲、卡頓,大則服務(wù)器宕機、癱瘓,對用戶心智的傷害逐層遞增,這在那個電商血戰(zhàn)的年代,無疑是災(zāi)難性的弱點。換言之,想要接軌更廣闊的市場,提升算力是基礎(chǔ)。
只是,當(dāng)時的中國并沒有算力系統(tǒng),對國內(nèi)互聯(lián)網(wǎng)企業(yè)而言,增加算力幾乎只有擴大采購規(guī)模一條路。可阿里偏偏選擇了一條人跡罕至的路——用云計算來為龐大復(fù)雜的業(yè)務(wù)搭建一套全新的技術(shù)架構(gòu)。
此舉無疑是一步險棋。正如科幻經(jīng)典《2001太空漫游》中克拉克第三定律所描述那般:“任何非常先進的技術(shù),初看都與魔法無異”。
彼時,云計算在國內(nèi)并無成功的先例,亦不被外界普遍認(rèn)可,更不必說云計算業(yè)務(wù)需要巨額的研發(fā)投入,一旦失敗,甚至還將拖累公司財務(wù)情況。但縱使如此,在一把手的推動下,阿里還是毅然決然地跳入了云計算的河流。
2009年,阿里巴巴啟動飛天云操作系統(tǒng)的研發(fā),并成立阿里云,中國企業(yè)自研云計算的故事由此開始書寫。
“飛天”的內(nèi)核,是用分布式架構(gòu)替換傳統(tǒng)集中式架構(gòu),連接遍布全世界的服務(wù)器,進而實現(xiàn)算力自由。只不過,文字所記錄下的寥寥幾筆,在技術(shù)領(lǐng)域卻如同一道溝壑。
一位業(yè)內(nèi)人士告訴光子星球,分布式系統(tǒng)的復(fù)雜程度遠高于傳統(tǒng)業(yè)務(wù)系統(tǒng),一旦接入的服務(wù)器數(shù)量升至一定數(shù)量,系統(tǒng)性能、穩(wěn)定性和運維等方面的技術(shù)挑戰(zhàn)便將呈指數(shù)級上升趨勢。
為此,阿里云研發(fā)團隊開始了曠日持久的算法攻堅路。2013年5月,阿里云成為了全球首個實現(xiàn)單一集群5000臺服務(wù)器規(guī)模的云廠商,數(shù)月后,規(guī)模翻了一番,突破單集群10000臺的規(guī)模。至此,阿里云早期的算力底座正式落成,傳統(tǒng)線下租用算力的模式逐漸被在線獲取算力所取代。
盡管在現(xiàn)在看來,這不過是阿里云發(fā)展過程中的短暫節(jié)點,但只有熟悉、經(jīng)歷過這段往事的人, 才知悉研發(fā)過程中的磕磕絆絆,以及每日每夜的枯燥與痛苦。直至今日,阿里云棲小鎮(zhèn)仍佇立著一尊雕像,雕像上只有兩個字“5K”。
然而,技術(shù)永遠是朝前發(fā)展的,這也就意味著,留給當(dāng)時的“攻堅人”舉杯的時間并不多——隨著云計算被越來越多企業(yè)所接納,與日俱增的云計算需求時刻敲打著剛緩過勁來的云計算廠商們。
一個簡單的例子,在當(dāng)時,虛擬化導(dǎo)致的性能耗損幾乎是行業(yè)的鐵律,無論云廠商們?nèi)绾吾槍π詢?yōu)化,也始終無法全然發(fā)揮硬件性能——眼看算力白白流失,卻束手無策。面對這一困擾行業(yè)十余年的桎梏,阿里云跳出了思維慣性,選擇打造一個專用硬件來負(fù)責(zé)芯片不擅長的虛擬化調(diào)度工作。
此番嘗試,在當(dāng)時看來極為“激進”,尤其是軟硬結(jié)合的思路,更是與外界對互聯(lián)網(wǎng)公司“只擅長軟件研發(fā)”的刻板印象相沖突。
殊不知,看似激進的嘗試轉(zhuǎn)化為了極為踏實的成果——神龍架構(gòu):基于軟硬結(jié)合的設(shè)計方式,其兼具虛擬機彈性和物理機高性能。至此,算力流失的裂隙被徹底封堵,讓云計算進入了性能0損耗的時代。
只是,漫長的算力攻堅路途,只有喘息,并沒有終點。
尤其是在數(shù)字經(jīng)濟時代,算力已然成為行業(yè)水電煤一樣的公共資源,而云計算產(chǎn)業(yè)去IOE浪潮后沿用下來的硬件體系,同樣處于新一輪變革的節(jié)點。而阿里的技術(shù)路徑,決定了這家公司必須去往算力系統(tǒng)更硬核處——芯片。
第二部分:攻堅
對云計算廠商而言,芯片作為服務(wù)器、數(shù)據(jù)中心的“拼圖”,重要性不言而喻。
一直以來,云計算廠商搭建數(shù)據(jù)中心所需服務(wù)器芯片極度依賴外部采購,然而,隨著云計算賽道競爭格局加劇,采購芯片的弊端逐漸顯露:
一方面,服務(wù)器芯片領(lǐng)域馬太效應(yīng)相當(dāng)明顯,少數(shù)芯片巨頭掌握著市場話語權(quán):另一方面,先進制程代工廠訂單往往處于飽和狀態(tài),面對迅速擴張的市場,云計算廠商們不得不就產(chǎn)能問題與上游芯片巨頭周旋。
此外,芯片制造商所產(chǎn)出的服務(wù)器芯片屬“通用”范疇,并不能很好地與云廠商各自的技術(shù)架構(gòu)相融——能夠滿足最基礎(chǔ)的算力要求,卻很難提高特定業(yè)務(wù)及場景的性能。相比之下,自研芯片除了能有效抵御不確定的外部風(fēng)險,亦能同自身業(yè)務(wù)及架構(gòu)耦合,進而提升算力性價比,降低算力功耗。
在此背景下,主流云廠商逐漸開始向下定義硬件和芯片,通過全新的硬件體系提升自身的競爭力。當(dāng)2017年阿里達摩院成立時,前沿芯片技術(shù)難題的攻克便成為其核心研究方向之一。
眾所周知,芯片制造領(lǐng)域核心技術(shù)壁壘眾多,且極度依賴上下游產(chǎn)業(yè)鏈配合,尤其是對“新玩家”而言,且不談如何彌補技術(shù)代差,僅是從零開始構(gòu)建產(chǎn)業(yè)鏈關(guān)系,將耗費大量資源及時間成本。
2018年,阿里全資收購了大陸唯一擁有自主嵌入式CPU IP core的中天微,并將達摩院芯片產(chǎn)品研發(fā)團隊與中天微團隊合并,成立平頭哥半導(dǎo)體。阿里由此踏上了通往最硬核場景的征程。
但正如前述所言,通用芯片領(lǐng)域巨頭林立,僅憑一腔熱血去逾越其技術(shù)、專利壁壘,無異于天方夜譚。
此外,通用芯片需要下游客戶反復(fù)測試迭代,可面對“新玩家”的產(chǎn)品,背負(fù)盈利壓力的客戶往往并不愿意嘗試。換言之,即便強行著陸,缺乏用戶測試、生態(tài)積累的產(chǎn)品亦難以通過走量攤平成本,進而陷入競爭劣勢。
因此,平頭哥務(wù)實地選取了云與芯片結(jié)合的路徑,使造芯服務(wù)于內(nèi)部算力技術(shù)發(fā)展的需要。這背后的邏輯很簡單:既然知道自己需要什么樣的芯片,那不如自己為自己生產(chǎn)糧食。
阿里巴巴由云“向下定義”芯片的第一個目標(biāo)是AI算力。2019年云棲大會,成立僅僅一年的平頭哥發(fā)布阿里第一顆芯片含光800,這顆針對AI場景深度定制的芯片,進一步提升了AI算力的效率,為阿里云的企業(yè)用戶提供了差異化選擇。當(dāng)下阿里的搜索推薦、視頻直播等場景,均有含光800的身影。
當(dāng)然,手握算力攻堅接力棒的平頭哥,心中亦懷揣著“詩和遠方”。據(jù)阿里內(nèi)部人士透露,在含光800研發(fā)的后期,平頭哥內(nèi)部逐漸分化出兩種聲音:一方認(rèn)為其應(yīng)該遵循眼下AI專用芯片這條“相對容易的路”,另一派則想要去做難度更高的通用CPU,“就像真正的芯片公司一樣”。
就在這樣的背景下,倚天芯片正式立項。就像09年毅然決然地邁向云計算時一樣,阿里再度做出了一個艱難而大膽的抉擇。
這背后的困苦與迷茫,絲毫不亞于過去阿里云研發(fā)團隊夜以繼日為“5K”奮斗的年代。
2021云棲大會上,阿里首個通用CPU芯片倚天710正式發(fā)布。作為一款針對云場景設(shè)計研發(fā)的通用芯片,倚天710性能超過業(yè)界標(biāo)桿20%,能效比則提升超50%。第二年,神龍架構(gòu)亦經(jīng)演替,成長為“CIPU”——一款云數(shù)據(jù)中心專用處理器,替代CPU來管理和加速計算、存儲和網(wǎng)絡(luò)資源。
由于倚天710在設(shè)計之初就兼顧了易用性,前述通用芯片應(yīng)用落地如期進行——去年10月發(fā)布,一個月后的天貓雙11便已有其身影。
正如開頭所談到,只有抵達造芯 “空氣稀薄地帶”才能觸及的通用CPU,使阿里云在諸多核心場景能效提升顯著。
而嘗到甜頭的阿里云,毫不掩飾地告訴外界:未來兩年,阿里云20%的新增算力將使用自研芯片。阿里云智能總裁張建鋒表示:“云計算的發(fā)展進入了全新的階段,未來十年,軟硬件一體化的自研計算體系是云服務(wù)商的立身之本,只有在核心技術(shù)和產(chǎn)品的研發(fā)上持續(xù)創(chuàng)新才能搶占定義權(quán)?!?/p>
“云計算從軟件出發(fā),從云操作系統(tǒng)出發(fā),阿里巴巴研發(fā)了中國唯一自研的云操作系統(tǒng)飛天。到今天,圍繞云計算我們重新定義內(nèi)核、定義硬件。這幾年來,平頭哥圍繞著云計算的場景定義了倚天710芯片,并且走向廣泛的大規(guī)模使用?!蓖瑯釉?022云棲大會上,阿里巴巴集團董事會主席兼首席執(zhí)行官張勇回顧阿里多年歷程,說道:“這一系列過程都是阿里巴巴不斷追求先進性的表現(xiàn)?!?/p>第三部分:另一條路
如果說,肩負(fù)阿里通用芯片期許的倚天710,是其自研芯片敘事的主線,那么阿里對RISC-V開源架構(gòu)及其生態(tài)的部署,則是貫穿故事的副線。
RISC-V架構(gòu)誕生之前,留給芯片設(shè)計玩家的選擇并不多,無論是選擇x86架構(gòu)還是ARM架構(gòu),均需支付高額授權(quán)費。相比之下,RISC-V架構(gòu)作為開源架構(gòu),其指令集可以自由地用于任何目的,不論是設(shè)計、制造RISC-V芯片,還是開發(fā)相應(yīng)的軟件,既無需授權(quán)費,也沒有繞不開的專利壁壘。
因此,RISC-V架構(gòu)被普遍認(rèn)為是繼x86、ARM架構(gòu)之后,中國芯片產(chǎn)業(yè)的第三條路。在阿里端云一體的芯片體系中,RISC-V處理器IP是核心攻克方向,面對龐大的IoT需求,靈活的RISC-V尤為有用。只是,相較于前兩者,RISC-V架構(gòu)并未成熟,技術(shù)及應(yīng)用都面臨著極大挑戰(zhàn)。
這背后的邏輯在于,新技術(shù)始終需要“跨越裂谷”,唯有經(jīng)歷科學(xué)、技術(shù)、工程、產(chǎn)品、商業(yè)化等階段,才能被主流所接受。
而這,與阿里技術(shù)迭代的邏輯一脈相承。從咬牙決定做云計算,到自研造芯,再到前沿科技的發(fā)掘,可以看到,阿里所有自研技術(shù)的驅(qū)動力,都根植于需求——依據(jù)社會需求去定義技術(shù)問題、鎖定研發(fā)方向。
面對潛力巨大的RISC-V架構(gòu),阿里沒有停下腳步,畢竟使RISC-V架構(gòu)擺脫“雷聲大雨點小”的局面,很可能為日后繞過芯片專利壁壘、彎道超車埋下伏筆。
為此,阿里祭出了技術(shù)突進及生態(tài)并行的打法:技術(shù)層面,從前述玄鐵910,再到2022云棲大會推出的高能效C908,阿里不斷拓寬RISC-V性能邊界,建立起了豐富的RISC-V處理器家族,并陸續(xù)落地30多個行業(yè);
生態(tài)層面,平頭哥已完成了RISC-V與RTOS、Yocto Linux、Android、統(tǒng)信等國際主流和國產(chǎn)操作系統(tǒng)的深度適配,特別是在RISC-V和安卓生態(tài)的打通上起了決定性作用。
如果說芯片研發(fā)是在向“確定性”的技術(shù)地帶沖刺,那前沿算力的布局,則是真正為“不確定性”下賭注。
而在后一領(lǐng)域,阿里亦有相應(yīng)布局,從研發(fā)全球首款基于DRAM的3D鍵合堆疊存算一體芯片,到重注可能重塑當(dāng)今計算體系的量子計算,阿里一直期望在這條科研“冷板凳”上,找到顛覆傳統(tǒng)計算的潛力。
至此,從底層芯片、服務(wù)器到云操作系統(tǒng)、計算架構(gòu),阿里構(gòu)筑出完整的算力體系,讓阿里云成為國內(nèi)唯一一家擁有完整自研軟硬件技術(shù)體系的云服務(wù)商。
長達十余年的算力攻堅的成果,也最終轉(zhuǎn)化為阿里在云計算深水區(qū)中的護城河。當(dāng)下,云計算賽道內(nèi)卷之下,自研核心技術(shù)不僅成為了阿里云的壁壘,也使其業(yè)務(wù)得以降本提質(zhì),進而成為國內(nèi)首個實現(xiàn)盈利的云計算廠商。
芯片是磕出來的,科技公司也一樣。從算力攻堅路,再到對前沿技術(shù)的追求,新技術(shù)架構(gòu)下的阿里,為自身涂上了科技“底色”,和國際IT巨頭們站在同一個起跑線上。
本文來自投稿,不代表增長黑客立場,如若轉(zhuǎn)載,請注明出處:http://m.allfloridahomeinspectors.com/mcn/84288.html