DeepSeek崛起,到底誰(shuí)將受益?

DeepSeek再次證明了中國(guó)AI

 

DeepSeek崛起,到底誰(shuí)將受益?

DeepSeek已經(jīng)改變了大模型行業(yè)格局。

作者/豆包

出品/新摘

2023年,OpenAI憑借具有顛覆性的ChatGPT,站在了AI行業(yè)的C位上。當(dāng)時(shí),國(guó)內(nèi)的頭部公司和OpenAI的差距只有2-3個(gè)月,也有人說(shuō)是3-5年,甚至有人認(rèn)為是10年。2-3個(gè)月也好,10年也罷,中國(guó)企業(yè)在大模型領(lǐng)域的位置一直都沒(méi)變,始終處于追趕狀態(tài)。

2025年,情況出現(xiàn)了變化,DeepSeek憑借質(zhì)價(jià)比模式,站在了AI行業(yè)的C位上。1月11日前后,DeepSeek在全球范圍內(nèi)上線了App,據(jù)Sensor Tower數(shù)據(jù)顯示,DeepSeek在發(fā)布的18天內(nèi)累計(jì)下載量高達(dá)1600萬(wàn)次,而在同一時(shí)間段,ChatGPT的下載量為900萬(wàn)次。截至2月5日,DeepSeek 的全球下載量接近4000萬(wàn),ChatGPT則為4100萬(wàn)。日活方面,DeepSeek在1月31日取得了2215萬(wàn)的成績(jī),相當(dāng)于ChatGPT的41.6%。

DeepSeek雖然在總用戶量和日活上和ChatGPT有差距,但他的增速已經(jīng)足以刺激到包括后者在內(nèi)的所有大模型廠商。與此同時(shí),所有人都在問(wèn),DeepSeek是怎么做到的?

另外在今日,百度集團(tuán)執(zhí)行副總裁、百度智能云事業(yè)群總裁沈抖在全員會(huì)上提到,DeepSeek在短期內(nèi)會(huì)對(duì)百度產(chǎn)生影響,但長(zhǎng)期來(lái)看是利大于弊的。他表示,面對(duì)DeepSeek的來(lái)勢(shì)洶洶,首當(dāng)其沖的AI產(chǎn)品,沈抖認(rèn)為,是字節(jié)跳動(dòng)的豆包,理由是其訓(xùn)練成本和投流成本都很高 ,那么DeepSeek崛起,到底誰(shuí)將受益?誰(shuí)又受傷害最大?

 

一、關(guān)于DeepSeek的真相與謠言

不同于OpenAI,DeepSeek的成立時(shí)間很短,其背后的運(yùn)營(yíng)主體是杭州深度求索人工智能基礎(chǔ)技術(shù)研究有限公司,該公司成立于2023年7月17日。如果算上和深度求索關(guān)系密切的幻方量化,他的歷史比OpenAI久一些。

不過(guò),在科技行業(yè),歷史長(zhǎng)短并不是一家企業(yè)技術(shù)能力高低的決定性因素,深度求索用兩個(gè)模型證明了這一點(diǎn)。

2024年底,深度求索發(fā)布了新一代大語(yǔ)言模型V3。當(dāng)時(shí)的測(cè)試結(jié)果顯示,V3的多項(xiàng)評(píng)測(cè)成績(jī)超越了一些主流開源模型,而且還具有成本優(yōu)勢(shì)。今年1月24日,深度求索又發(fā)布了R1,R1是深度求索引發(fā)全球關(guān)注的主要原因。據(jù)深度求索介紹,R1模型在技術(shù)上實(shí)現(xiàn)了重要突破—用純深度學(xué)習(xí)的方法讓AI自發(fā)涌現(xiàn)出推理能力,在數(shù)學(xué)、代碼、自然語(yǔ)言推理等任務(wù)上,性能比肩OpenAI的o1模型正式版。

更重要的是,R1延續(xù)了V3的高性價(jià)比特點(diǎn),其模型訓(xùn)練成本只有600萬(wàn)美元,而OpenAI、谷歌等公司的投入規(guī)模為數(shù)億美元乃至數(shù)十億美元。

DeepSeek崛起,到底誰(shuí)將受益?

性能不弱+成本更低,這兩個(gè)buff讓DeepSeek吸引了全球的關(guān)注,同時(shí)也引來(lái)了爭(zhēng)議,第一個(gè)爭(zhēng)議,也是最主要的爭(zhēng)議就是—成本真的有這么低嗎?

在DeepSeek之前,行業(yè)的模式是通過(guò)大規(guī)模堆料,也就是算力、數(shù)據(jù),獲得性能更強(qiáng)的大模型。在這種邏輯的指導(dǎo)下,大模型一直被認(rèn)為是巨頭的游戲,隨著各巨頭豪擲千金,邏輯被進(jìn)一步強(qiáng)化,而DeepSeek打破了這個(gè)邏輯。

目前廣為流傳的成本數(shù)據(jù)是600萬(wàn)美元,嚴(yán)格來(lái)說(shuō),這600萬(wàn)美元指的只是預(yù)訓(xùn)練過(guò)程中 GPU的花費(fèi),這只是總成本中的一部分。眾所周知,英偉達(dá)是訓(xùn)練大模型GPU的主要提供者,為了應(yīng)對(duì)法規(guī)要求,英偉達(dá)推出了不同版本的H100(如H800、H20),目前中國(guó)公司只能使用H20,深度求索的主力GPU應(yīng)是H20,其他還包括H800和H100。

據(jù)知名半導(dǎo)體研究機(jī)構(gòu) Semianalysis推算,深度求索大約擁有大約10000個(gè)H800和10000個(gè)H100,以及數(shù)量更多的H20,其服務(wù)器資本支出約為16億美元,其中與運(yùn)營(yíng)這些集群相關(guān)的成本高達(dá)9.44億美元。也就是說(shuō),深度求索的投入規(guī)模也是億級(jí),即便如此,其成本還是大幅低于OpenAI、谷歌等。對(duì)于用了多少GPU,深度求索其實(shí)也給出了數(shù)據(jù)—用2048塊GPU即可訓(xùn)練R1,這個(gè)成本也比OpenAI低。

查詢成本的“物美價(jià)廉”也說(shuō)明了DeepSeek具有成本優(yōu)勢(shì)。目前,DeepSeek R1模型的每百萬(wàn)個(gè)token(符元,AI時(shí)代最基礎(chǔ)的運(yùn)算單位)的查詢成本為0.14美元,OpenAI的成本為7.50美元。

關(guān)于DeepSeek的第二個(gè)爭(zhēng)議是,是否使用了OpenAI的數(shù)據(jù),提出質(zhì)疑的是OpenAI和微軟。

1月31日, OpenAI表示已經(jīng)發(fā)現(xiàn)證據(jù),證明DeepSeek利用他們的模型進(jìn)行訓(xùn)練,這涉嫌侵犯知識(shí)產(chǎn)權(quán)。具體來(lái)說(shuō),他們發(fā)現(xiàn)了DeepSeek“蒸餾”O(jiān)penAI模型的跡象,即使用更大模型的輸出來(lái)提高較小模型的性能,從而以較低成本在特定任務(wù)上取得類似結(jié)果。微軟則表示正在調(diào)查DeepSeek是否使用了OpenAI的API。

對(duì)于這一點(diǎn),兩者的做法雖然有依據(jù),但并不符合行業(yè)主流趨勢(shì)。

OpenAI的服務(wù)條款有規(guī)定,任何人都可以注冊(cè)使用OpenAI的API,但是不能使用輸出數(shù)據(jù)訓(xùn)練對(duì)OpenAI造成競(jìng)爭(zhēng)威脅的模型,也就是說(shuō)DeepSeek可以調(diào)用OpenAI的數(shù)據(jù),但不可以用來(lái)訓(xùn)練大模型。不過(guò),這個(gè)規(guī)定被很多人認(rèn)為是“雙標(biāo)”,因?yàn)镺penAI在訓(xùn)練大模型使用了大量數(shù)據(jù),其中的一部分就沒(méi)有得到數(shù)據(jù)所有者的授權(quán),而且使用蒸餾數(shù)據(jù)是行業(yè)內(nèi)的普遍做法。

相比之下,微軟的做法更能說(shuō)明這一質(zhì)疑是否站得住腳,他在指控DeepSeek涉嫌侵權(quán)的幾個(gè)小時(shí)后,就在自家的AI平臺(tái)上就接入了DeepSeek。

 

二、DeepSeepk有什么過(guò)人之處?

超低的成本帶來(lái)超高的性能,是DeepSeek帶給AI行業(yè)最大的震撼?;仡欀袊?guó)企業(yè)在其他行業(yè)的發(fā)展軌跡,他們一直善于做質(zhì)價(jià)比,因此DeepSeek能脫穎而出其實(shí)是必然的。

前面提到,大模型行業(yè)此前存在算力信仰,無(wú)論是誰(shuí),如果想開發(fā)出性能更強(qiáng)的產(chǎn)品,都只能選擇堆算力和數(shù)據(jù)這一條路。誠(chéng)然,這個(gè)策略開啟了大模型時(shí)代,海外的OpenAI和國(guó)內(nèi)的百度、字節(jié)等都受益于此。這種策略雖然仍在發(fā)揮作用,但邊際效應(yīng)可能正在遞減。

以O(shè)penAI為例,從2012年到2020年,其算力消耗平均每3.4個(gè)月就翻倍一次,8年間算力增長(zhǎng)了30萬(wàn)倍。OpenAI首席執(zhí)行官Sam Altman接受公開采訪表示,GTP-4參數(shù)量為GTP-3的20倍,需要的計(jì)算量為GTP-3的10倍;GTP-5在2024年底至2025年發(fā)布,它的參數(shù)量為GTP-3的100倍,需要的計(jì)算量為GTP-3的200-400倍。

如果每一代的性能都能有巨大的提升,那高昂的成本是可以接受的,問(wèn)題在于,如果GPT-5今年還做不出來(lái),或者性能成本提高10倍性能只提升10%、20%,那這種模式的追隨者就會(huì)大大減少。

導(dǎo)致這種情況出現(xiàn)的原因在于,OpenAI陷入了創(chuàng)新者窘境,他是行業(yè)開創(chuàng)者,背負(fù)了巨大的成本包袱,此時(shí)選擇閉源策略是合理的。如果GPT能持續(xù)大幅提高性能,市場(chǎng)就會(huì)持續(xù)買單。

而DeepSeek在技術(shù)上采取了開源的策略,所謂開源指的是軟件的源代碼可以在網(wǎng)絡(luò)上免費(fèi)提供,以便進(jìn)行修改和再分發(fā)。如果GPT-5的性能真的只提升了10%,那就會(huì)有很多人選擇開源,進(jìn)而幫助DeepSeek成為AI時(shí)代的安卓。因此,在性能接近的前提下,DeepSeek的策略更具有普適性。

簡(jiǎn)單來(lái)說(shuō),DeepSeek并沒(méi)有帶來(lái)顛覆性創(chuàng)新,但他的策略給行業(yè)提供了一個(gè)更有普適性的方向,讓大家不必再去堆算力也能做出高性能的大模型。

Stability AI前研究主管Tanishq Mathew Abraham,在近期的博文中強(qiáng)調(diào)了DeepSeek的三個(gè)創(chuàng)新點(diǎn)。

首先是多頭注意力機(jī)制,大語(yǔ)言模型通常是基于Transformer架構(gòu),使用所謂的多頭注意力(MHA)機(jī)制。DeepSeek團(tuán)隊(duì)開發(fā)了一種MHA機(jī)制的變體,這種機(jī)制既能更高效地利用內(nèi)存,又能獲得更好的性能表現(xiàn)。其次是可驗(yàn)證獎(jiǎng)勵(lì)的GRPO,DeepSeek證明了一個(gè)非常簡(jiǎn)單的強(qiáng)化學(xué)習(xí)(RL)流程實(shí)際上可以達(dá)到類似GPT-4的效果。更重要的是,他們開發(fā)了一種稱為GRPO的PPO強(qiáng)化學(xué)習(xí)算法變體,這種算法更加高效且性能更好。最后是DualPipe,在多GPU環(huán)境下訓(xùn)練AI模型時(shí),需要考慮很多效率相關(guān)的因素。DeepSeek團(tuán)隊(duì)設(shè)計(jì)了一種稱為DualPipe的新方法,這種方法的效率和速度都顯著提高。

金沙江創(chuàng)投董事總經(jīng)理朱嘯虎則表示,DeepSeek的核心是不再需要人類干預(yù),本來(lái)是RLHF(人類反饋強(qiáng)化學(xué)習(xí)),現(xiàn)在直接做RL(強(qiáng)化學(xué)習(xí))了,所以成本可以做得很低。

綜合來(lái)看,DeepSeek的創(chuàng)新在于推理環(huán)節(jié),通過(guò)工程創(chuàng)新,優(yōu)化了大模型在推理環(huán)節(jié)上存在的痛點(diǎn),讓產(chǎn)品性能實(shí)現(xiàn)了大幅提升。而這其實(shí)是早已經(jīng)注定的結(jié)果,從日用百貨到手機(jī)、汽車,中國(guó)企業(yè)一直都擅長(zhǎng)做質(zhì)價(jià)比,DeepSeek在大模型領(lǐng)域延續(xù)了這一傳統(tǒng)。

 

三、到底誰(shuí)將受益?誰(shuí)會(huì)受沖擊?

毫無(wú)疑問(wèn),DeepSeek作為繼OpenAI之后第二個(gè)對(duì)行業(yè)產(chǎn)生重大影響的大模型,必將會(huì)讓一部分人受益,也會(huì)沖擊一部分人的利益。

目前來(lái)看,受沖擊較大的是提供GPU的英偉達(dá),其市值因?yàn)镈eepSeek一度下跌超過(guò)6000億美元。不過(guò),這只是表面現(xiàn)象,受DeepSeek沖擊最大的其實(shí)是以O(shè)penAI為首的閉源大模型廠商。

對(duì)英偉達(dá)來(lái)說(shuō),DeepSeek的另辟蹊徑在一定程度上打破了大模型的唯算力論。但是,不管是DeepSeek還是OpenAI,在做訓(xùn)練時(shí)依然需要他的GPU,即便是其他大模型廠商轉(zhuǎn)向DeepSeek的策略,也要依靠英偉達(dá)。瓦特在1759年改良蒸汽機(jī)后,更高效的蒸汽機(jī)開始廣泛應(yīng)用,這沒(méi)有降低對(duì)煤炭的需求,英國(guó)的煤炭總消耗指數(shù)反而出現(xiàn)了上升,這種現(xiàn)象也適用于算力市場(chǎng)。

相比之下,DeepSeek對(duì)OpenAI為首的閉源大模型廠商的沖擊更大。前面提到,如果OpenAI不能證明這種萬(wàn)卡集群模式能持續(xù)地幫助大模型大幅提升性能,那他不僅要被投資人質(zhì)疑,還會(huì)被用戶拋棄,如此一來(lái),其商業(yè)模式就很難走通。

DeepSeek也將對(duì)傳統(tǒng)搜索廠商產(chǎn)生沖擊,這其實(shí)在OpenAI爆火后就出現(xiàn)過(guò)一次,當(dāng)時(shí)的邏輯是大模型的高效和低成本將侵蝕谷歌的搜索市場(chǎng)的份額。在PC互聯(lián)網(wǎng)時(shí)代,搜索是第一個(gè)殺手級(jí)應(yīng)用,業(yè)內(nèi)普遍認(rèn)為,AI時(shí)代的第一個(gè)殺手級(jí)應(yīng)用也是搜索。

DeepSeek崛起,到底誰(shuí)將受益?

與此同時(shí),隨著DeepSeek加快了人工智能從“訓(xùn)練階段”到“推理階段”的周期,這會(huì)增加對(duì)推理芯片的需求。

具體來(lái)說(shuō),推理指的是使用人工智能根據(jù)新的信息作出預(yù)測(cè)或決策的行為,這是DeepSeek的優(yōu)勢(shì)和創(chuàng)新點(diǎn)。不少行業(yè)人士認(rèn)為,隨著客戶采用和構(gòu)建DeepSeek的開源模型,對(duì)推理芯片和計(jì)算的需求會(huì)越來(lái)越大。

人工智能芯片初創(chuàng)公司d-Matrix的首席執(zhí)行官Sid Sheth表示,DeepSeek已經(jīng)證明,較小的開源模型可以訓(xùn)練得與大型專有模型一樣強(qiáng)大,甚至更強(qiáng)大,而且成本很低。隨著小型功能模型的廣泛使用,他們催化了推理的時(shí)代。因此,隨著成本的降低,AI應(yīng)用的采用可能會(huì)呈指數(shù)級(jí)增長(zhǎng),推理環(huán)節(jié)的算力需求或?qū)⒈l(fā)。

值得注意的是,盡管DeepSeek的模式有獨(dú)到之處,由于采取了開源的策略,對(duì)手也可以用他的技術(shù)開發(fā)出相似的產(chǎn)品,這對(duì)他的商業(yè)化提出了挑戰(zhàn)。目前,李飛飛和斯坦福大學(xué)、華盛頓大學(xué)的研究人員已經(jīng)以不到50美元(只是云計(jì)算服務(wù)費(fèi))的成本,成功訓(xùn)練出了類似R1的s1,s1在數(shù)學(xué)和編碼能力測(cè)試中的表現(xiàn),與OpenAI的O1和R1不相上下。

DeepSeek的成績(jī)是值得關(guān)注的,但長(zhǎng)期來(lái)看,他還需要找到一個(gè)合適的商業(yè)化模式,才能走得更遠(yuǎn)。

本文來(lái)自投稿,不代表增長(zhǎng)黑客立場(chǎng),如若轉(zhuǎn)載,請(qǐng)注明出處:http://m.allfloridahomeinspectors.com/cgo/coo/130934.html

(0)
打賞 微信掃一掃 微信掃一掃 支付寶掃一掃 支付寶掃一掃
上一篇 2025-02-14 15:48
下一篇 2025-02-14 19:13

增長(zhǎng)黑客Growthhk.cn薦讀更多>>

發(fā)表回復(fù)

登錄后才能評(píng)論