中國(guó)的“ChatGPT們”,尋找高質(zhì)量數(shù)據(jù)“養(yǎng)分”

算法大模型想要實(shí)現(xiàn)升級(jí)和迭代,需要大量數(shù)據(jù)的訓(xùn)練。

中國(guó)的“ChatGPT們”,尋找高質(zhì)量數(shù)據(jù)“養(yǎng)分”

文/半月

編輯/周雄飛

ChatGPT火爆來(lái)襲,各路創(chuàng)業(yè)者們正趕著上車(chē)。

有著大模型儲(chǔ)備的大廠,紛紛下場(chǎng)布局。上月底,在360科技2023年數(shù)字安全與發(fā)展高峰論壇上,其官方正式發(fā)布大語(yǔ)言模型360 AI。

而在更早以前,作為國(guó)內(nèi)率先對(duì)人工智能領(lǐng)域布局的百度,也推出了旗下多模態(tài)大模型應(yīng)用——文心一言,據(jù)百度CEO李彥宏介紹,該模型具備文學(xué)創(chuàng)作、商業(yè)文案創(chuàng)作、數(shù)理推算、中文理解、多模態(tài)生成五個(gè)使用場(chǎng)景的綜合能力。

與此同時(shí),阿里,美團(tuán)等大廠的一大批高管,看準(zhǔn)機(jī)會(huì)相繼宣布創(chuàng)業(yè),拿出大部分身家,只為做出中國(guó)版的ChatGPT。

先是在今年2月,原美團(tuán)聯(lián)合創(chuàng)始人王慧文在社交媒體上宣布出資5000萬(wàn)美元,設(shè)立北京光年之外科技有限公司,并表示75%的股份用于邀請(qǐng)頂級(jí)研發(fā)人才,打造中國(guó)OpenAI。另?yè)?jù)最新消息,光年之外近期已啟動(dòng)新一輪融資。

次月,阿里前技術(shù)副總裁賈揚(yáng)清也透露了他下一步的創(chuàng)業(yè)打算,據(jù)他介紹其目標(biāo)是AI大模型底層技術(shù)相關(guān),目前融資已基本到位。

除此之外,還有字節(jié)跳動(dòng)旗下今日頭條前用戶(hù)產(chǎn)品負(fù)責(zé)人張前川、快手前國(guó)際化技術(shù)負(fù)責(zé)人王美宏、IDEA研究院理事長(zhǎng)沈向洋、循環(huán)智能聯(lián)合創(chuàng)始人楊植麟等高管,試圖在ChatGPT風(fēng)口中,尋求“再就業(yè)”的機(jī)會(huì)。

一大批創(chuàng)業(yè)者們前赴后繼,“ChatGPT們”正加速狂飆,這背后少不了多個(gè)行業(yè)“保駕護(hù)航”。

要建立ChatGPT這樣的大模型應(yīng)用,少不了算法、算力和數(shù)據(jù)三大行業(yè)的支持,簡(jiǎn)單說(shuō),應(yīng)用要高效運(yùn)行起來(lái),就需要強(qiáng)大算力的支持,而要讓?xiě)?yīng)用背后的算法更為聰明,則需要源源不斷地向其“投喂”高質(zhì)量數(shù)據(jù)。

中國(guó)的“ChatGPT們”,尋找高質(zhì)量數(shù)據(jù)“養(yǎng)分”

由此可見(jiàn),算法大模型想要實(shí)現(xiàn)升級(jí)和迭代,最為關(guān)鍵的就是需要大量數(shù)據(jù)的訓(xùn)練,而要保證這些數(shù)據(jù)的質(zhì)量,就需要對(duì)數(shù)據(jù)進(jìn)行清洗、標(biāo)注、質(zhì)檢等多個(gè)步驟,要完成這一目標(biāo),少不了標(biāo)貝科技、海天瑞聲為代表的一批數(shù)據(jù)標(biāo)注提供商的助力。

現(xiàn)階段,數(shù)據(jù)標(biāo)注廠商們已耕耘多年,且各有“兩把刷子”。

標(biāo)貝科技,作為多年扎根在數(shù)據(jù)標(biāo)注領(lǐng)域的企業(yè),專(zhuān)注于智能語(yǔ)音交互與AI數(shù)據(jù)服務(wù),并通過(guò)精細(xì)化的定制服務(wù)打出自己在行業(yè)中的優(yōu)勢(shì)。截止目前,標(biāo)貝科技服務(wù)項(xiàng)目累計(jì)超過(guò)1000項(xiàng)。

除此之外,海天瑞聲、Scale.AI、Appen等玩家,同樣是專(zhuān)注于數(shù)據(jù)標(biāo)注的廠商,具備全套的產(chǎn)品與服務(wù),在語(yǔ)音、計(jì)算機(jī)視覺(jué)、自然語(yǔ)言理解等領(lǐng)域皆有布局。

隨著GPT-4等大模型的進(jìn)一步發(fā)展,對(duì)于訓(xùn)練數(shù)據(jù)質(zhì)量的要求必將更為苛刻,擺在數(shù)據(jù)標(biāo)注廠商們面前的,是無(wú)限機(jī)會(huì)與挑戰(zhàn)。

1、ChatGPT創(chuàng)業(yè)潮來(lái)了,高質(zhì)量數(shù)據(jù)成“剛需”

ChatGPT正為交互領(lǐng)域帶來(lái)“劃時(shí)代”的改變。

隨著1946年,世界第一臺(tái)現(xiàn)代計(jì)算機(jī)EDVAC誕生,交互1.0時(shí)代正式開(kāi)啟。人們用打孔紙,通過(guò)輸入0、1二進(jìn)制的機(jī)器語(yǔ)言與計(jì)算機(jī)進(jìn)行交互,直到上世紀(jì)70年代,人機(jī)交互迎來(lái)一次新的蛻變。

當(dāng)時(shí),隨著首臺(tái)個(gè)人計(jì)算機(jī)的問(wèn)世,相比于此前用打孔交互不同,人們可以通過(guò)鼠標(biāo)、鍵盤(pán)向計(jì)算機(jī)傳達(dá)任務(wù):即通過(guò)點(diǎn)擊電腦圖標(biāo)、以及用鍵盤(pán)輸入指令向計(jì)算機(jī)下達(dá)命令,從而讓計(jì)算機(jī)做出反饋,自此,計(jì)算機(jī)開(kāi)始“飛入更多尋常百姓家”。

這之后,雖然出現(xiàn)了Windows等多款操作系統(tǒng),并且這些操作系統(tǒng)自身也持續(xù)不斷地進(jìn)行著更新,但從本質(zhì)將人機(jī)交互依然是通過(guò)編碼和解碼后的機(jī)器語(yǔ)言來(lái)進(jìn)行。

直到2022年,OpenAI帶著ChatGPT的到來(lái),讓交互領(lǐng)域再度迎來(lái)“iPhone”時(shí)刻:人們能夠直接用自然語(yǔ)言流暢地與計(jì)算機(jī)進(jìn)行交流,并且計(jì)算機(jī)能夠直接理解自然語(yǔ)言并與用戶(hù)進(jìn)行反饋和對(duì)話。

之所以說(shuō)是ChatGPT開(kāi)啟了新的交互時(shí)代,是因?yàn)?strong>相較于以往的對(duì)話模型,ChatGPT有著質(zhì)的飛躍。

經(jīng)過(guò)連線Insight體驗(yàn),ChatGPT能夠從中國(guó)詩(shī)詞歌賦聊到西方人生哲學(xué),并在最后進(jìn)行總結(jié);而以往的對(duì)話模型只能表達(dá)一首簡(jiǎn)短的中文詩(shī)。也就是說(shuō)ChatGPT能夠?qū)崿F(xiàn)多輪及結(jié)合上下文的不間斷聊天,且能記住以往指令,同時(shí)用各國(guó)語(yǔ)言溝通無(wú)障礙。

而ChatGPT背后的大模型還在不斷迭代:從2022年底的GPT-3.5到2023年初的GPT-4,性能又得到了全方位的提升。

中國(guó)的“ChatGPT們”,尋找高質(zhì)量數(shù)據(jù)“養(yǎng)分”

GPT-4較于GPT-3.5的性能提升,圖源OpenAI

當(dāng)看到ChatGPT在人機(jī)交互上跨時(shí)代的表現(xiàn)后,很快,各行各業(yè)都向ChatGPT們發(fā)出邀約。

最為聲勢(shì)浩大的莫過(guò)于微軟,在2020年,微軟下了血本投資OpenAI 10億美元,在2023年,微軟迎來(lái)摘果子時(shí)刻:微軟正在將自家生態(tài)逐步和GPT進(jìn)行結(jié)合,從而形成全新的AI生態(tài)。

上月17日,微軟發(fā)布融合GPT-4能力的Microsoft 365 Copilot。據(jù)了解,Copilot將會(huì)被內(nèi)置到Word、Excel、PowerPoint、Outlook、Teams等應(yīng)用之中。

簡(jiǎn)單來(lái)說(shuō),用戶(hù)只需要對(duì)Office下一個(gè)編輯的指令,Word、PPT、Excel等就會(huì)自動(dòng)“干活”。例如,在制作PPT時(shí),Copilot可以基于用戶(hù)的輸入內(nèi)容自動(dòng)生成PPT頁(yè)面,并提供字體、顏色、背景等設(shè)計(jì)風(fēng)格建議,并且Copilot還可以自動(dòng)檢測(cè)演示文稿中的錯(cuò)誤和重復(fù)內(nèi)容。

就當(dāng)微軟在ChatGPT領(lǐng)域落子的同時(shí),國(guó)內(nèi)科技公司百度也率先站出來(lái),發(fā)布了它的類(lèi)ChatGPT產(chǎn)品——文心一言。據(jù)連線Insight測(cè)試,文心一言同樣具備ChatGPT的眾多能力,比如對(duì)于提問(wèn)做出及時(shí)、準(zhǔn)確的回應(yīng),以及可以結(jié)合上下文進(jìn)行不間斷的交流和應(yīng)答。

看到文心一言的能力后,國(guó)內(nèi)各個(gè)行業(yè)的企業(yè)們紛紛響應(yīng),爭(zhēng)相成為該產(chǎn)品的合作伙伴。比如汽車(chē)行業(yè)的集度、長(zhǎng)城,媒體行業(yè)的澎湃新聞、大眾日?qǐng)?bào),家電行業(yè)的海信、美的等企業(yè),紛紛接入百度文心一言。截止目前,已有650+公司,等待著百度文心一言的支持。

OpenAI、微軟和百度引領(lǐng)之后,有更多的科技公司參與到類(lèi)ChatGPT大模型的爭(zhēng)奪中來(lái)。

上月底,在360科技2023年數(shù)字安全與發(fā)展高峰論壇上,其官方正式發(fā)布其大語(yǔ)言模型360 AI。目前360的構(gòu)想是,在To C端,基于搜索場(chǎng)景推出人工智能個(gè)人助理類(lèi)產(chǎn)品;在To SME端,將基于生成式大模型推出SaaS化垂直應(yīng)用,如結(jié)合生成式AI的“企業(yè)即時(shí)通訊工具-推推”等。

除此之外,網(wǎng)易、科大訊飛等科技公司的產(chǎn)品也在孵化之中:2月8日,網(wǎng)易有道對(duì)外表示,該公司未來(lái)或?qū)⑼瞥鯟hatGPT同源技術(shù)產(chǎn)品,應(yīng)用場(chǎng)景圍繞在線教育;2月9日,科大訊飛表示,其Al學(xué)習(xí)機(jī)將成為公司類(lèi)ChatGPT技術(shù)率先落地的產(chǎn)品,并于今年5月發(fā)布。

隨著越來(lái)越多科技大廠布局類(lèi)ChatGPT大模型,行業(yè)內(nèi)外對(duì)于GPT-4等大模型也提出越來(lái)越多樣的要求:既要其懂得駕駛語(yǔ)言,賦能智能座艙甚至是自動(dòng)駕駛;又要求其博覽群書(shū),并給出群書(shū)中的關(guān)鍵論點(diǎn);還要會(huì)塑造虛擬人物,懂得人類(lèi)的喜怒哀樂(lè)等等。

這也意味著,行業(yè)內(nèi)外對(duì)于大模型必備的“三件套”(算力、算法、數(shù)據(jù)),正提出更高的要求。

對(duì)于大模型“世界”來(lái)說(shuō),算法是“生產(chǎn)關(guān)系”,是處理數(shù)據(jù)信息的規(guī)則與方式;算力是“生產(chǎn)力”,能夠提高數(shù)據(jù)處理、算法訓(xùn)練的速度與規(guī)模;而數(shù)據(jù)是“生產(chǎn)資料”,高質(zhì)量的數(shù)據(jù)是驅(qū)動(dòng)算法持續(xù)迭代的養(yǎng)分。

基于這一重要性,目前對(duì)于算力的持續(xù)投注已是行業(yè)共識(shí),政府也開(kāi)始出手。

先是部分地方政府開(kāi)放算力資源促進(jìn)地方產(chǎn)業(yè)發(fā)展。今年1月,成都出臺(tái)《成都市圍繞超算智算加快算力產(chǎn)業(yè)發(fā)展的政策措施》,政策表明,成都每年將發(fā)放總額不超過(guò)1000萬(wàn)元的“算力券”,用于支持算力中介服務(wù)機(jī)構(gòu)、科技型中小微企業(yè)、科研機(jī)構(gòu)、高校等使用國(guó)家超算成都中心、成都智算中心算力資源。

再到次月,國(guó)家發(fā)布算力交易平臺(tái),促進(jìn)算力的流通。東數(shù)西算一體化算力服務(wù)平臺(tái)在寧夏銀川在當(dāng)月正式上線發(fā)布。據(jù)悉,東數(shù)西算一體化算力服務(wù)平臺(tái)將瞄準(zhǔn)目前最稀缺、剛需迫切的ChatGPT運(yùn)算能力,以支撐中國(guó)人工智能運(yùn)算平臺(tái)急需的大算力服務(wù)。

需要注意的是,如果沒(méi)有高質(zhì)量數(shù)據(jù),算力再充足也無(wú)濟(jì)于事。參考ChatGPT,其高質(zhì)量數(shù)據(jù)是其在有效場(chǎng)景下采集到的原料數(shù)據(jù),經(jīng)過(guò)數(shù)據(jù)清洗、數(shù)據(jù)標(biāo)注、質(zhì)檢等環(huán)節(jié)后產(chǎn)生的。

高質(zhì)量數(shù)據(jù)對(duì)于ChatGPT改進(jìn)的重要性,可從以下案例中,窺見(jiàn)一二。根據(jù)InstructGPT實(shí)驗(yàn)發(fā)現(xiàn),隨著模型參數(shù)量的增加,模型性能均得到不同程度的提高。

中國(guó)的“ChatGPT們”,尋找高質(zhì)量數(shù)據(jù)“養(yǎng)分”

模型參數(shù)量與模型性能變化情況,圖源InstructGPT

通過(guò)強(qiáng)化學(xué)習(xí)—PPO(近端策略?xún)?yōu)化)生成的模型,比100倍參數(shù)規(guī)模無(wú)監(jiān)督的GPT模型效果更好。這里的PPO,便是2017年由OpenAI提出的一種基于隨機(jī)策略的DRL算法,通過(guò)對(duì)策略的更新與監(jiān)督來(lái)提高策略的效率。

可以說(shuō),有監(jiān)督的標(biāo)注數(shù)據(jù)是大模型應(yīng)用成功的關(guān)鍵之一,且標(biāo)注數(shù)據(jù)貴不在數(shù)量而在質(zhì)量。在GPT-4等大模型高速、高質(zhì)量發(fā)展中,高質(zhì)量數(shù)據(jù)是“卡脖子”的存在。

現(xiàn)如今,各行各業(yè)紛紛向ChatGPT們發(fā)來(lái)邀約,ChatGPT們急需補(bǔ)充養(yǎng)分。而若想要真正提高ChatGPT的競(jìng)爭(zhēng)力,高質(zhì)量數(shù)據(jù)必不可少。

2、數(shù)據(jù)標(biāo)注,乃“兵家”重地

從GPT-3到ChatGPT,大模型經(jīng)歷了5次迭代。

據(jù)東方證券研報(bào)顯示,在這幾次迭代中,最明顯的變化是,在訓(xùn)練方式上增加了RLHF,即讓智能體通過(guò)接收來(lái)自人類(lèi)用戶(hù)或?qū)<业姆答亖?lái)調(diào)整自己的行為的方法,同時(shí)用上了起碼7.7萬(wàn)人工標(biāo)注的語(yǔ)料庫(kù)。

中國(guó)的“ChatGPT們”,尋找高質(zhì)量數(shù)據(jù)“養(yǎng)分”

從GPT-3到ChatGPT的迭代過(guò)程,圖源東方證券、未來(lái)智庫(kù)

也就是說(shuō),經(jīng)過(guò)RLHF的多輪磨練、大量人工標(biāo)注數(shù)據(jù)的修正,2020年發(fā)布的語(yǔ)言理解能力較弱、名不見(jiàn)經(jīng)傳的GPT-3,才成功蛻變成為有著多輪對(duì)話能力、史上月活用戶(hù)數(shù)量最快破億應(yīng)用的ChatGPT。

在這一過(guò)程中,數(shù)據(jù)標(biāo)注廠商們功不可沒(méi)。

目前,國(guó)內(nèi)大部分?jǐn)?shù)據(jù)標(biāo)注服務(wù)商提供文本、語(yǔ)音、圖像、視頻等各類(lèi)型數(shù)據(jù)標(biāo)注,服務(wù)應(yīng)用領(lǐng)域涵蓋安防、智能駕駛、醫(yī)療、教育、金融等多個(gè)領(lǐng)域,主要客戶(hù)包括科技公司、人工智能企業(yè)、傳統(tǒng)企業(yè)、政府部門(mén)和科研機(jī)構(gòu)等。

數(shù)據(jù)服務(wù)方面,分為數(shù)據(jù)集產(chǎn)品和數(shù)據(jù)資源定制服務(wù)。數(shù)據(jù)集產(chǎn)品按用途劃分,有訓(xùn)練集、驗(yàn)證集、測(cè)試集等。而數(shù)據(jù)資源定制服務(wù),即根據(jù)客戶(hù)業(yè)務(wù)特點(diǎn),專(zhuān)門(mén)提供定制化的基礎(chǔ)數(shù)據(jù)全流程服務(wù),數(shù)據(jù)內(nèi)容以語(yǔ)音、圖像、NLP、OCR為主。

目前,玩家們根據(jù)行業(yè)局勢(shì)、技術(shù)優(yōu)勢(shì),“各有所好”:

作為較早進(jìn)入數(shù)據(jù)標(biāo)注行業(yè)的玩家,標(biāo)貝科技在能力上具備全面性,同時(shí)也更專(zhuān)注于智能語(yǔ)音交互。目前,標(biāo)貝基于AI+SaaS開(kāi)放平臺(tái),提供語(yǔ)料庫(kù)建設(shè)與標(biāo)注、指令微調(diào)服務(wù)、基于人工反饋的強(qiáng)化學(xué)習(xí)標(biāo)注三大服務(wù)模塊,與微軟、百度、阿里、科大訊飛等國(guó)內(nèi)外百余家企業(yè)客戶(hù)建立合作,涵蓋汽車(chē)、教育、客服、零售、閱讀、智能硬件等多個(gè)領(lǐng)域。

中國(guó)的“ChatGPT們”,尋找高質(zhì)量數(shù)據(jù)“養(yǎng)分”

標(biāo)貝科技ChatGPT標(biāo)注平臺(tái)操作頁(yè)面,圖源標(biāo)貝科技

其中,基于人工反饋的強(qiáng)化學(xué)習(xí)標(biāo)注便是ChatGPT背后的秘密武器。簡(jiǎn)單來(lái)說(shuō),就是用人工標(biāo)注的方式,不斷地將結(jié)果去反饋給模型:回答好的給出正反饋,回答不好的,就通過(guò)加分機(jī)制的方式讓模型進(jìn)一步的自我迭代,并進(jìn)行不斷的調(diào)優(yōu),直到回答正確。

在數(shù)據(jù)標(biāo)注行業(yè)中,除了標(biāo)貝之外,也有其他玩家共同推動(dòng)行業(yè)發(fā)展。

比如數(shù)據(jù)服務(wù)商Appen,主營(yíng)業(yè)務(wù)包括數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理與模型評(píng)價(jià)三大類(lèi),業(yè)務(wù)類(lèi)型齊全。又或者是國(guó)內(nèi)的廠商海天瑞聲,已然形成文字、圖片、音頻、視頻等多模態(tài)標(biāo)注布局,可在全球進(jìn)行190種語(yǔ)言、方言的采集,多場(chǎng)景圖像、視頻采集以及多行業(yè)領(lǐng)域文本語(yǔ)料制作。

但就能力來(lái)看,標(biāo)貝在圖文、音視頻領(lǐng)域有著更為全方位的布局,因此其在智能語(yǔ)音大模型數(shù)據(jù)標(biāo)注上,有著絕對(duì)話語(yǔ)權(quán)。

對(duì)比各家官網(wǎng)發(fā)現(xiàn),標(biāo)貝在智能語(yǔ)音標(biāo)注層面提供的工具、產(chǎn)品以及解決方案是最全的,除此之外,標(biāo)貝推出多語(yǔ)種語(yǔ)音識(shí)別數(shù)據(jù)庫(kù),覆蓋美式英語(yǔ)、英式英語(yǔ)、韓語(yǔ)、法語(yǔ)、西班牙語(yǔ)、俄語(yǔ)、阿拉伯語(yǔ)等多語(yǔ)種,解決多語(yǔ)種識(shí)別訓(xùn)練語(yǔ)料稀缺的難題。

同時(shí),標(biāo)貝所打造的模型更為高效、所提供的服務(wù)也更為全面。

在對(duì)話大模型優(yōu)化數(shù)據(jù)設(shè)計(jì)方案上,除了最基本的數(shù)據(jù)采集和清洗技術(shù)外,標(biāo)貝科技還擁有一系列高效處理數(shù)據(jù)、優(yōu)化模型的技術(shù)。

例如,模型微調(diào)技術(shù),相對(duì)于從頭開(kāi)始訓(xùn)練(Training a model from scratch),微調(diào)技術(shù)能夠省去大量計(jì)算資源和計(jì)算時(shí)間,提高計(jì)算效率的同時(shí)提高準(zhǔn)確率。

又或者是終身學(xué)習(xí)技術(shù),能夠讓模型在不同的任務(wù)上依次訓(xùn)練,并能夠勝任所有任務(wù),而不是像傳統(tǒng)的機(jī)器學(xué)習(xí)那樣,一個(gè)網(wǎng)絡(luò)只能勝任一個(gè)任務(wù)。基于此,模型能夠舉一反三,同樣能夠省去大量計(jì)算資源和計(jì)算時(shí)間。

全面的服務(wù),體現(xiàn)在標(biāo)貝能夠在模型運(yùn)作的各個(gè)階段持續(xù)助力。

基于更高效的技術(shù)以及多個(gè)場(chǎng)景的磨練,在中小模型落地過(guò)程中,標(biāo)貝能夠提供“保姆級(jí)服務(wù)”。在早期,標(biāo)貝基于常年經(jīng)驗(yàn)積累,能夠幫助客戶(hù)快速理清項(xiàng)目的技術(shù)難點(diǎn)和解決方案,能夠幫助“初來(lái)乍到”的客戶(hù)快速摸清項(xiàng)目脈絡(luò)。

中期,標(biāo)貝能夠快速驗(yàn)證自身的數(shù)據(jù)設(shè)計(jì)和標(biāo)注方案在不同開(kāi)源模型規(guī)模、模型風(fēng)格上的效果,從而可以預(yù)覽和優(yōu)化最終客戶(hù)的成品模型水平,也就是說(shuō),能在項(xiàng)目成型之前,把偏差扼殺在搖籃里。

據(jù)標(biāo)貝官方介紹,近期,其與一家大型智能AI公司合作中,在“對(duì)話大模型優(yōu)化推理鏈(Chain of Thoughts)的數(shù)據(jù)集”項(xiàng)目上,標(biāo)貝科技在數(shù)據(jù)方案設(shè)計(jì)階段之前便和該客戶(hù)共同驗(yàn)證了多個(gè)版本的設(shè)計(jì)方案在開(kāi)源中小模型中的效果,迭代和修正了之前無(wú)法預(yù)估的偏置錯(cuò)誤。

數(shù)據(jù)標(biāo)注行業(yè),玩家無(wú)數(shù)。在這之中,有著過(guò)硬技術(shù)實(shí)力、能夠提供定制化、“保姆級(jí)”服務(wù)能力的廠商自然會(huì)脫穎而出。但想要讓這條賽道越走越寬,還需要更多力量的支持。

3、GPT-4們嗷嗷待哺,合作乃是最優(yōu)解

據(jù)國(guó)務(wù)院《新一代人工智能發(fā)展規(guī)劃》預(yù)測(cè),2025年我國(guó)人工智能核心產(chǎn)業(yè)規(guī)模將超過(guò)4000億元,帶動(dòng)產(chǎn)業(yè)規(guī)?;虺?萬(wàn)億元。

人工智能本就火熱,現(xiàn)如今再疊加ChatGPT推動(dòng)作用,以及有標(biāo)貝等高質(zhì)量數(shù)據(jù)標(biāo)注商的助力,讓這條賽道的未來(lái)更加令人期待。但不能否認(rèn)的是,目前也存在著一個(gè)殘酷的事實(shí)——用于大模型的高質(zhì)量數(shù)據(jù)不夠用了。

據(jù)Epoch AI Research研究人員預(yù)測(cè),大模型所需的高質(zhì)量語(yǔ)言數(shù)據(jù)存量將在2026年耗盡,低質(zhì)量的語(yǔ)言數(shù)據(jù)和圖像數(shù)據(jù)的存量將分別在2030年至2050年、2030年至2060年枯竭。

如果數(shù)據(jù)效率沒(méi)有顯著提高或有新的數(shù)據(jù)源可用,那么到2040年,大模型的規(guī)模增長(zhǎng)或許將會(huì)放緩。

中國(guó)的“ChatGPT們”,尋找高質(zhì)量數(shù)據(jù)“養(yǎng)分”

不同數(shù)據(jù)類(lèi)型的消耗趨勢(shì)和耗盡日期,圖源Epoch AI Research

這就意味著,市場(chǎng)急需標(biāo)貝科技等數(shù)據(jù)標(biāo)注廠商高效率地產(chǎn)出高質(zhì)量數(shù)據(jù),為ChatGPT們補(bǔ)充養(yǎng)分。

但就目前來(lái)看,國(guó)內(nèi)的數(shù)據(jù)標(biāo)注行業(yè),仍然稚嫩。

其中較大的問(wèn)題是,數(shù)據(jù)標(biāo)注行業(yè)缺乏“條條框框”的約束:例如行業(yè)標(biāo)準(zhǔn)的制定,商業(yè)模式的敲定等等。某AI數(shù)據(jù)標(biāo)注訓(xùn)練師對(duì)連線Insight表示,如今的數(shù)據(jù)標(biāo)注公司之間一味地拼低價(jià)亂象叢生,最終拿到項(xiàng)目的乙方往往沒(méi)有能力承接。

與此同時(shí),數(shù)據(jù)標(biāo)注行業(yè)中的一些玩家也處于毛利率、營(yíng)收持續(xù)走低的困境中。

根據(jù)海天瑞聲2019-2021年財(cái)報(bào)顯示,其毛利率從2019年的70.25%下滑至2021年的64.01%,營(yíng)收方面也從2019年的2.38億元,下滑至2021年的2.06億元。

中國(guó)的“ChatGPT們”,尋找高質(zhì)量數(shù)據(jù)“養(yǎng)分”

2019-2021年海天瑞聲營(yíng)收、毛利率情況,數(shù)據(jù)來(lái)源于同花順,連線Insight制圖

更為重要的是,隨著大模型的迅速發(fā)展,供大模型訓(xùn)練所需的語(yǔ)料量,非一家能夠滿(mǎn)足。

當(dāng)前大模型訓(xùn)練需要的語(yǔ)料量非常龐大,但由于歷史原因,語(yǔ)料在不同語(yǔ)言之間存在局部的不均勻性問(wèn)題。

一個(gè)典型的例子是,絕大多數(shù)源代碼是用英語(yǔ)書(shū)寫(xiě)的,但代碼語(yǔ)法本身是基于英文單詞設(shè)計(jì)。這導(dǎo)致不少模型即使參數(shù)量很大,卻無(wú)法準(zhǔn)確地捕捉到中文術(shù)語(yǔ)和源代碼的對(duì)應(yīng)規(guī)律,無(wú)法在中文用戶(hù)的提示下寫(xiě)出同等質(zhì)量的代碼。

高質(zhì)量數(shù)據(jù)需求迫在眉睫,現(xiàn)有語(yǔ)料庫(kù)質(zhì)量堪憂,而國(guó)內(nèi)數(shù)據(jù)標(biāo)注行業(yè)還似一盤(pán)散沙,標(biāo)貝針對(duì)該困局,提出了自己的解法。

根據(jù)標(biāo)貝官方消息,其將公開(kāi)一系列數(shù)據(jù)集,旨在解決這類(lèi)局部不均勻性的問(wèn)題。

標(biāo)貝的思路是,將代碼中的備注內(nèi)容替換成了高質(zhì)量的、符合表達(dá)規(guī)律的中文漢字。之后,還會(huì)按照實(shí)際業(yè)務(wù)需求和國(guó)內(nèi)開(kāi)源大模型的發(fā)展情況,定期設(shè)計(jì)和公開(kāi)類(lèi)似的數(shù)據(jù)集。

在這之中,標(biāo)貝將更好地利用存量代碼進(jìn)行數(shù)據(jù)增強(qiáng)處理,以提高大模型在書(shū)寫(xiě)代碼、專(zhuān)業(yè)長(zhǎng)篇討論時(shí)處理中文文本的能力。同時(shí),標(biāo)貝也呼吁更多的數(shù)據(jù)標(biāo)注廠商能夠參與進(jìn)來(lái),共同提高GPT-4等大模型語(yǔ)料庫(kù)的數(shù)據(jù)質(zhì)量。

在業(yè)內(nèi)看來(lái),GPT-4等大模型潛力無(wú)限,標(biāo)貝科技也有能力把好數(shù)據(jù)標(biāo)注的關(guān),使得大模型能夠產(chǎn)出更高質(zhì)量的數(shù)據(jù)。同時(shí),數(shù)據(jù)標(biāo)注行業(yè)仍需更多數(shù)據(jù)標(biāo)注廠商共同合作,豐富數(shù)據(jù)集,改善語(yǔ)料庫(kù)質(zhì)量,共商行業(yè)標(biāo)準(zhǔn),厘清商業(yè)模式,高效率地產(chǎn)出高質(zhì)量數(shù)據(jù)。

正如地平線創(chuàng)始人余凱為《深度學(xué)習(xí)革命》一書(shū)寫(xiě)的序言“人工智能領(lǐng)域能得到快速發(fā)展,關(guān)鍵在于有著眾多的合作者來(lái)推動(dòng)這項(xiàng)事業(yè)”。而作為技術(shù)底座的數(shù)據(jù)標(biāo)注行業(yè),更是如此。

本文來(lái)自投稿,不代表增長(zhǎng)黑客立場(chǎng),如若轉(zhuǎn)載,請(qǐng)注明出處:http://m.allfloridahomeinspectors.com/quan/94802.html

(0)
打賞 微信掃一掃 微信掃一掃 支付寶掃一掃 支付寶掃一掃
上一篇 2023-04-06 17:36
下一篇 2023-04-06 20:29

增長(zhǎng)黑客Growthhk.cn薦讀更多>>

發(fā)表回復(fù)

登錄后才能評(píng)論