撰 文丨張 遠
在昨天的發(fā)布會上,李彥宏通過演示視頻展示了文心一言在文本創(chuàng)作、數(shù)理推算、中文理解與多模態(tài)生成等方面的能力,卻并未測試其在多輪連續(xù)對話、上下文語意理解、邏輯推理等方面的表現(xiàn),通常這些才被認為是ChatGPT的突破之處。因此,。
隨著越來越多內(nèi)測用戶開始與文心一言深度互動,這一印象似乎被進一步加深。從眾多網(wǎng)友及文娛價值官的實際測試過程中可以看出,文心一言的in-context learning能力差強人意,某些時候不能正確理解用戶的提問。同時,文心一言也并沒有熟練掌握邏輯推理鏈條,一旦用戶繼續(xù)追問,文心一言往往顯得窮于應(yīng)付。
相比之下,文心一言在文本生成、世界知識等方面的表現(xiàn)則令人驚喜,雖然很多時候生成內(nèi)容的深度與精細程度不如ChatGPT,但更多是由于訓練過程中語料質(zhì)量的限制,后續(xù)可以實現(xiàn)進一步提升。
基于文心一言的表現(xiàn),有業(yè)內(nèi)人士推斷它已經(jīng)具備了GPT-3的同等能力,與ChatGPT背后的GPT-3.5仍然存在代差,更不用說OpenAI剛剛發(fā)布的GPT-4了。
盡管如此,該業(yè)內(nèi)人士依然表示文心一言超出了預(yù)期,因為在此之前,國內(nèi)尚且沒有一款大模型能達到GPT-3的水平,文心一言至少走在了一條正確的道路上。如同GPT-3一樣,文心一言也擁有巨大的進化潛能,后續(xù)如果像OpenAI一樣進行代碼訓練、指令微調(diào)和基于人類反饋的強化學習(RLHF),或許也能夠最終解鎖GPT-3.5所擁有的突現(xiàn)能力(Emergent Ability)。
在發(fā)布會上,百度首席技術(shù)官王海峰曾提到文心一言的模型“訓練不夠充分”,背后的潛臺詞是:文心一言訓練過程中使用的人工標注數(shù)據(jù)有限,也并未充分借助RLHF這一ChatGPT背后的“秘密武器”,而更多依靠百度自身的技術(shù)積累。
在去年5月文心大模型首場技術(shù)開放日直播分享中,百度技術(shù)委員會主席吳華曾提到,文心ERNIE的特色之一就是從大規(guī)模知識圖譜和無標注、無結(jié)構(gòu)化的文本中去學習,能夠用少量任務(wù)數(shù)據(jù)取得非常好的效果。這條路徑正是針對高質(zhì)量中文語料稀缺,人工標注知識門檻(需要語言及專業(yè)領(lǐng)域?qū)<覉F隊)及成本較高的“痛點”。在中文知識圖譜領(lǐng)域,百度多年以來有著深厚積累,可以用來增強模型知識之間的關(guān)聯(lián),提升文本語義理解能力。
不僅如此,知識圖譜也有助于解決目前大語言模型“一本正經(jīng)胡說八道”的問題,對于下一代搜索引擎而言,這個問題顯得尤為關(guān)鍵,未來大語言模型與知識圖譜的相互結(jié)合將是大勢所趨。
有分析認為Bing可以借助ChatGPT與Google的知識圖譜相抗衡,但從目前New Bing的表現(xiàn)來看,盡管它可以實時搜索全網(wǎng)內(nèi)容,且提供了可供核查的信息來源,但如同ChatGPT一樣,它在專業(yè)領(lǐng)域無法保證正確率。一位業(yè)內(nèi)人士表示:“單純的生成式模型沒法確切的給出正確答案,尤其是當語料庫本身有缺陷時。這意味著,在某些專業(yè)領(lǐng)域答案不應(yīng)該生成而是從知識圖譜抽取?!?/p>
因此,有了文心一言加持的百度下一代搜索引擎,在信息獲取方面的使用體驗可能會比New Bing更為可靠,雖然可玩性上尚且存在明顯差距。
外部刺激下
騰訊大模型終于不再“各自為戰(zhàn)”
在昨天的發(fā)布會上,李彥宏一再強調(diào)百度是全球大廠中首個做出來對標ChatGPT產(chǎn)品的。文心一言的率先搶跑,也必然會刺激騰訊、阿里、字節(jié)等國內(nèi)大廠的追趕步伐。
2月27日,有消息稱騰訊方面或已針對類 ChatGPT 產(chǎn)品成立“ 混元助手(HunyuanAide)”項目組,目標是聯(lián)合內(nèi)部團隊構(gòu)建大參數(shù)語言模型。當然,在此之前騰訊在大模型領(lǐng)域已經(jīng)“早有布局”,只不過之前更多是騰訊AILab團隊的單打獨斗,目標也是為內(nèi)部產(chǎn)品線及騰訊云客戶技術(shù)賦能,這一次則是打破部門藩籬,集聚全廠之力共同攻關(guān)。
相比百度借助于知識圖譜實現(xiàn)大模型突圍,騰訊AILab此前的著力點是盡可能以最小成本訓練大模型,從而突破算力及存儲瓶頸。
2022年12月,騰訊對外宣布用256卡最快一天就可以訓完萬億參數(shù)NLP大模型,“只需要用少量的標注數(shù)據(jù)微調(diào),就可以取得較好的效果?!睂嶒烇@示,在騰訊太極機器學習平臺自研的訓練框架 ZeRO-Cache 上,僅需32張卡就可以實現(xiàn)GPT-3(175B)的模型訓練。這一模型訓練方法的著眼點,仍在于降低業(yè)務(wù)的使用成本。之所以在這個方向上發(fā)力,則可能是由于AILab是“業(yè)務(wù)導(dǎo)向”,自身很難獲取到高質(zhì)量的標注數(shù)據(jù),只能盡可能把刀磨得鋒利。
相比之下,微信AI團隊自研的WeLM(Well-Read Language Model)雖然最大訓練參數(shù)只有100億,卻可以采用多樣化的網(wǎng)頁、書籍、新聞、論壇、論文的10TB數(shù)據(jù)集進行訓練,從而能夠先于ChatGPT低調(diào)上線。
不過,WeLM 并不是聊天機器人,而只是一個補全用戶輸入信息的生成模型。因為訓練深度有限,WeLM 對于精準提示詞的依賴性要高于ChatGPT,尚未解鎖zero-shot 泛化能力,不僅如此,有媒體測試發(fā)現(xiàn),一旦面臨高強度輸出還會出現(xiàn)GPU過載問題。當ChatGPT橫空出世之后,已經(jīng)無人關(guān)注微信團隊的這個實驗品。
由此,也可以看出騰訊在大模型領(lǐng)域部門之間的“各自為戰(zhàn)”,在外力的刺激之下,“混元助手“項目有望打破這種割據(jù)狀態(tài)。
雖然騰訊沒有百度強大的知識圖譜,但微信公眾平臺被視為中文互聯(lián)網(wǎng)上質(zhì)量最高的內(nèi)容庫,微信讀書也可以扮演Project Gutenberg在ChatGPT訓練過程中所扮演的角色,如果騰訊能不惜投入建立自己的高質(zhì)量訓練語料庫,搭配那一把鋒利的“寶刀”,或許在不久的將來就能帶給我們驚喜。
前年就訓練出“中文版GPT-3”
去年阿里卻做了“瑞士軍刀”
早在2021年4月,阿里達摩院就宣布僅用128張卡就訓練出了“中文版GPT-3”PLUG。然而,由于訓練參數(shù)(參數(shù)量只有270億,相比GPT-3的1750億差了一個數(shù)量級)及語料質(zhì)量上的差距,這個“中文版GPT-3”顯得名不副實,在當時也并未掀起什么水花。
去年,阿里達摩院宣布實現(xiàn)大模型領(lǐng)域的“大一統(tǒng)”——模態(tài)表示、任務(wù)表示、模型結(jié)構(gòu)統(tǒng)一,從而實現(xiàn)在低資源消耗的前提下覆蓋更多行業(yè)的應(yīng)用場景(宣稱落地場景200+),猶如一把便宜的瑞士軍刀,至于在各項能力上好不好用就是另一回事了。在尚未把某一把刀磨好之前,達摩院似乎已經(jīng)急于把它們組裝起來尋找買家了。
直到ChatGPT火遍全球之后,阿里才意識到自己兩年前就已經(jīng)“做出來了”,開始向外曝光達摩院版的ChatGPT,只是不知道會如何把它從已經(jīng)“大一統(tǒng)”的“通義”大模型中“解放”出來,然后傾全院之力專注磨好這一把刀。
至于上個月才剛剛加入“大模型熱潮”的字節(jié),雖然是大廠中動作最晚的一個,卻也避免了如上面幾家那樣走彎路。不僅如此,字節(jié)的目標也很明確務(wù)實:搜索部門牽頭,各個部門通力配合,將大模型與搜索、廣告等下游業(yè)務(wù)深度結(jié)合。
雖然字節(jié)在文字內(nèi)容方面缺乏積累,但在視頻、圖像方面的數(shù)據(jù)卻是上述幾家無法比擬的。當多模態(tài)大模型未來成為主流,這將是一座難以被撼動的壁壘。
(部分圖片來自網(wǎng)絡(luò),如有版權(quán)問題請聯(lián)系編輯)
本文來自投稿,不代表增長黑客立場,如若轉(zhuǎn)載,請注明出處:http://m.allfloridahomeinspectors.com/quan/93509.html