從跟隨到引領(lǐng),中國(guó)AI企業(yè)打響語(yǔ)音交互突圍戰(zhàn)

語(yǔ)音交互迎來(lái)了歷史性的戰(zhàn)略機(jī)遇。

從跟隨到引領(lǐng),中國(guó)AI企業(yè)打響語(yǔ)音交互突圍戰(zhàn)

文/陳鋒

編輯/子夜

想象一下,如果你置身于嘈雜的環(huán)境中,身邊的朋友誰(shuí)說(shuō)了什么話(huà),你能聽(tīng)得一清二楚嗎?

答案很可能是否定的。

但這個(gè)普通人難以做到的事情,AI可以。

上個(gè)月,科大訊飛的訊飛星火大模型V4.0發(fā)布會(huì)上,三位訊飛研究院的研究員現(xiàn)場(chǎng)實(shí)測(cè),在噪音環(huán)境下同時(shí)混疊說(shuō)話(huà)時(shí),正常人難以聽(tīng)清,但訊飛星火憑借其多模態(tài)能力,不但實(shí)現(xiàn)了三人重疊語(yǔ)音的角色分離,而且成功進(jìn)行了實(shí)時(shí)轉(zhuǎn)寫(xiě)。

這對(duì)應(yīng)的是,針對(duì)強(qiáng)干擾場(chǎng)景下的語(yǔ)音識(shí)別難題,科大訊飛突破了多人混疊場(chǎng)景下的極復(fù)雜場(chǎng)景語(yǔ)音轉(zhuǎn)寫(xiě)技術(shù),即使在三人混疊說(shuō)話(huà)場(chǎng)景下,也能實(shí)現(xiàn)86%的語(yǔ)音識(shí)別準(zhǔn)確率。

科大訊飛的探索和技術(shù)成果,不止于此。

稍早一些的6月24日,2023年度國(guó)家科學(xué)技術(shù)獎(jiǎng)勵(lì)大會(huì)上,科大訊飛作為第一完成單位的“多語(yǔ)種智能語(yǔ)音關(guān)鍵技術(shù)及產(chǎn)業(yè)化”項(xiàng)目,獲得國(guó)家科學(xué)技術(shù)進(jìn)步一等獎(jiǎng)。

這是深度學(xué)習(xí)引發(fā)全球人工智能浪潮以來(lái),過(guò)去十年里,人工智能領(lǐng)域首個(gè)國(guó)家科學(xué)技術(shù)進(jìn)步獎(jiǎng)一等獎(jiǎng),也是科大訊飛繼2002年、2011年分別獲得國(guó)家科學(xué)技術(shù)進(jìn)步獎(jiǎng)二等獎(jiǎng)之后,首次獲得國(guó)家科學(xué)技術(shù)進(jìn)步獎(jiǎng)一等獎(jiǎng)。

科大訊飛的上述技術(shù)突破,既是它過(guò)去多年技術(shù)實(shí)力的一次彰顯,某種程度上,在大模型帶來(lái)的戰(zhàn)略機(jī)遇面前,其也在加速推動(dòng)萬(wàn)物互聯(lián)時(shí)代的到來(lái)——從產(chǎn)業(yè)視角來(lái)看,語(yǔ)音識(shí)別等智能語(yǔ)音技術(shù)的進(jìn)階,將進(jìn)一步成為萬(wàn)物互聯(lián)時(shí)代的核心推動(dòng)力,持續(xù)向各類(lèi)終端賦能,實(shí)現(xiàn)不同生活場(chǎng)景下的語(yǔ)音交互。

今年6月,科大訊飛董事長(zhǎng)劉慶峰指出,科大訊飛正經(jīng)歷著創(chuàng)業(yè)以來(lái)最充滿(mǎn)挑戰(zhàn)、最扣人心弦、最激動(dòng)人心的歷史時(shí)刻,他認(rèn)為,科大訊飛迎來(lái)了語(yǔ)音和大模型的全新戰(zhàn)略機(jī)遇。

不難發(fā)現(xiàn),在當(dāng)下大模型帶動(dòng)的通用人工智能浪潮下,科大訊飛已經(jīng)成了最具代表性的公司之一,在核心的智能語(yǔ)音技術(shù)上、大模型技術(shù)上,都已經(jīng)走在了行業(yè)前列。

1、語(yǔ)音交互火熱十年,什么是最大的痛點(diǎn)?

2016年初,《麻省理工科技評(píng)論》公布了2016年年度十大突破技術(shù),其中,語(yǔ)音接口技術(shù)被排在第三位,其認(rèn)為,語(yǔ)音識(shí)別和自然語(yǔ)言理解相結(jié)合,能為世界上最大的互聯(lián)網(wǎng)市場(chǎng)創(chuàng)造切實(shí)可用的語(yǔ)音接口。

同時(shí)期里,語(yǔ)音賽道成為全球互聯(lián)網(wǎng)領(lǐng)域一個(gè)新的風(fēng)口,從互聯(lián)網(wǎng)大廠到初創(chuàng)企業(yè),都在試圖通過(guò)互聯(lián)網(wǎng)硬件、軟件搶占這一領(lǐng)域。

其中的一個(gè)重要視角,是智能音箱成了全球科技巨頭的一個(gè)角逐中心。

2014年以來(lái),從國(guó)外到國(guó)內(nèi),從亞馬遜的Echo到谷歌的Google Home,到蘋(píng)果的HomePod,到科大訊飛的訊飛智能音箱X1,到百度的小度智能音箱,再到阿里巴巴的天貓精靈,一眾科技巨頭都在加速布局。

不僅是大公司,聚焦到中國(guó)市場(chǎng),當(dāng)時(shí)的這股潮流同樣傳導(dǎo)到了數(shù)量龐大的中小企業(yè)群體。

科技公司顯然不是只想做語(yǔ)音智能硬件,他們的目標(biāo),是面向未來(lái)切入人工智能市場(chǎng)。而硬件背后的語(yǔ)音平臺(tái),有機(jī)會(huì)成為物聯(lián)網(wǎng)時(shí)代的“操作系統(tǒng)”,連接全新的產(chǎn)業(yè)生態(tài)。

人工智能助手的大規(guī)模出現(xiàn),也是基于這一邏輯。微軟人工智能與研究事業(yè)部負(fù)責(zé)人沈向洋此前曾表示,語(yǔ)音智能是人機(jī)交互方式的又一次“范式遷移”。

他將人工智能助手類(lèi)比幾十年前計(jì)算機(jī)從命令行界面轉(zhuǎn)向圖形界面,當(dāng)時(shí)鼠標(biāo)和桌面等的出現(xiàn),讓人機(jī)交互變得友好而便利,由此帶來(lái)了個(gè)人電腦的大規(guī)模鋪開(kāi)。

不難發(fā)現(xiàn),在業(yè)界設(shè)想中,語(yǔ)音實(shí)則成了人機(jī)交互的基礎(chǔ)工具,而智能硬件、自動(dòng)駕駛汽車(chē)、消費(fèi)級(jí)機(jī)器人等等,都是潛在的應(yīng)用場(chǎng)景。

從跟隨到引領(lǐng),中國(guó)AI企業(yè)打響語(yǔ)音交互突圍戰(zhàn)

圖源德勤《未來(lái)的語(yǔ)音世界 中國(guó)智能語(yǔ)音市場(chǎng)分析》

不過(guò)在當(dāng)時(shí),語(yǔ)音交互痛點(diǎn)不少。

核心的難題在于,機(jī)器仍然不夠聰明。有業(yè)內(nèi)人士曾坦言,“人工智能、人工智能 ,有多少智能,就有多少人工?!?/strong>

這對(duì)應(yīng)的是,機(jī)器在自然語(yǔ)言理解、知識(shí)獲取等認(rèn)知領(lǐng)域,仍然需要新的突破。

舉個(gè)例子,2016年,在Winograd Schema Challenge大賽中,科大訊飛獲得了第一名。Winograd Schema Challenge大賽有新型認(rèn)知智能?chē)?guó)際評(píng)測(cè)任務(wù),重點(diǎn)考察機(jī)器是否具備理解常識(shí)并實(shí)現(xiàn)認(rèn)知推理的能力,被認(rèn)為是圖靈測(cè)試的替代。

盡管獲得了第一名,但當(dāng)時(shí)機(jī)器的語(yǔ)言理解能力還遠(yuǎn)遠(yuǎn)不夠,甚至不及6歲的孩子。

如何破局,成了語(yǔ)音交互產(chǎn)業(yè)邁向萬(wàn)物互聯(lián)時(shí)代的最大命題。

2、突圍:深度學(xué)習(xí)帶動(dòng)智能語(yǔ)音技術(shù)加速進(jìn)化

接著上文科大訊飛在Winograd Schema Challenge大賽中獲得第一名說(shuō)起。

這個(gè)故事的后續(xù)是,短短一年以后,2017年,科大訊飛和哈工大聯(lián)合實(shí)驗(yàn)室又參與了斯坦福大學(xué)發(fā)起的SQuAD比賽,這次他們提交的系統(tǒng)模型再次斬獲頭名,也是中國(guó)本土研究機(jī)構(gòu)首次取得SQuAD的第一。

SQuAD比賽對(duì)機(jī)器語(yǔ)言理解的能力要求更高,核心在于,機(jī)器聊天一般有很多通用的答案,但在SQuAD中,機(jī)器必須真正理解問(wèn)題,才能回答問(wèn)題。

在接下來(lái)的幾年,雙方這一聯(lián)合團(tuán)隊(duì)連續(xù)多次在這項(xiàng)比賽中刷新紀(jì)錄,其中2019年,聯(lián)合團(tuán)隊(duì)首次在英文閱讀理解的全部?jī)身?xiàng)指標(biāo)上超過(guò)人類(lèi)平均水平,這在某種程度上意味著,科大訊飛已經(jīng)站在認(rèn)知智能方面的國(guó)際領(lǐng)先地位。

這對(duì)應(yīng)的是,在智能語(yǔ)音產(chǎn)業(yè)加速進(jìn)化、市場(chǎng)競(jìng)爭(zhēng)持續(xù)白熱化態(tài)勢(shì)下,科大訊飛此類(lèi)智能語(yǔ)音科技企業(yè),加速走上了從單一的智能語(yǔ)音技術(shù)服務(wù)商、向全方位人工智能技術(shù)服務(wù)商的轉(zhuǎn)型,利用在語(yǔ)音技術(shù)上的核心優(yōu)勢(shì),在萬(wàn)物互聯(lián)的趨勢(shì)下,鞏固并增強(qiáng)競(jìng)爭(zhēng)優(yōu)勢(shì)。

從跟隨到引領(lǐng),中國(guó)AI企業(yè)打響語(yǔ)音交互突圍戰(zhàn)

事實(shí)上,早在2015年前后,劉慶峰就對(duì)公司的發(fā)展有了新的思考。他認(rèn)為,科大訊飛要從當(dāng)時(shí)的語(yǔ)音,進(jìn)一步擴(kuò)展為挑戰(zhàn)更大的認(rèn)知智能,也就是從能聽(tīng)會(huì)說(shuō),到能理解會(huì)思考。

同一時(shí)期,科大訊飛確定了認(rèn)知智能戰(zhàn)略,發(fā)布了“訊飛超腦”計(jì)劃,向認(rèn)知智能發(fā)起挑戰(zhàn)。

科大訊飛希望建立起一個(gè)和人腦規(guī)模差不多大小的人工神經(jīng)網(wǎng)絡(luò),并利用這個(gè)網(wǎng)絡(luò)實(shí)現(xiàn)對(duì)人類(lèi)認(rèn)知、知識(shí)表達(dá)、邏輯推理等方面的模擬和學(xué)習(xí),最終突破人類(lèi)認(rèn)知智能的挑戰(zhàn)。

從認(rèn)知智能的實(shí)現(xiàn)路徑來(lái)看,要想讓機(jī)器能理解、會(huì)思考,首先要布局的,是機(jī)器閱讀理解和常識(shí)推理等技術(shù)。

這背后的技術(shù)背景是,自2006年深度學(xué)習(xí)技術(shù)興起以來(lái),語(yǔ)音識(shí)別實(shí)現(xiàn)了重大突破,進(jìn)入了DNN(深度神經(jīng)網(wǎng)絡(luò))時(shí)代;此后,語(yǔ)音識(shí)別技術(shù)持續(xù)進(jìn)化,比如RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))、CNN(卷積神經(jīng)網(wǎng)絡(luò))、DFCNN(深度全序列卷積神經(jīng)網(wǎng)絡(luò))等及端到端技術(shù)的發(fā)展。

從跟隨到引領(lǐng),中國(guó)AI企業(yè)打響語(yǔ)音交互突圍戰(zhàn)

圖源德勤《未來(lái)的語(yǔ)音世界 中國(guó)智能語(yǔ)音市場(chǎng)分析》

而在這一過(guò)程中,科大訊飛是最先布局的企業(yè)之一。

早在2012年,科大訊飛就將BN-feature和NDD-HMM兩套深度學(xué)習(xí)方案上線(xiàn)了訊飛輸入法和語(yǔ)音開(kāi)放平臺(tái),其由此成為國(guó)內(nèi)首個(gè)上線(xiàn)深度學(xué)習(xí)語(yǔ)音識(shí)別商業(yè)系統(tǒng)的機(jī)構(gòu),將實(shí)際場(chǎng)景中語(yǔ)音識(shí)別的準(zhǔn)確率從60%提升到了88%左右。

也正是在“超腦計(jì)劃”公布后,科大訊飛加速進(jìn)入AI 1.0時(shí)代,在智能語(yǔ)音技術(shù)的支撐下,向認(rèn)知智能不斷邁進(jìn)。

2022年7月,在由艾倫人工智能研究所(AI2)推出的常識(shí)推理挑戰(zhàn)賽OpenBookAQ中,科大訊飛推出的X-Reasoner模型,以94.2%的準(zhǔn)確率奪冠,常識(shí)推理單模型首次超過(guò)了人類(lèi)平均水平。

其中呈現(xiàn)出來(lái)的技術(shù)能力,一方面是機(jī)器的語(yǔ)言理解能力提升了;另一方面則是,機(jī)器多任務(wù)學(xué)習(xí)的能力也提升了。

科大訊飛的突破來(lái)源于,其在2019年初開(kāi)始做預(yù)訓(xùn)練模型,即目標(biāo)任務(wù)之外,通過(guò)學(xué)習(xí)得到的模型。

這就好比人類(lèi)原來(lái)的目標(biāo)是學(xué)會(huì)閱讀理解,為了實(shí)現(xiàn)這個(gè)目標(biāo),會(huì)去讀很多的資料,比如文史知識(shí)、文學(xué)常識(shí)等等,在這個(gè)過(guò)程中人類(lèi)既學(xué)會(huì)了閱讀理解,也學(xué)習(xí)到了很多其他的知識(shí),獲取了其他的能力。通用人工智能的雛形已經(jīng)在內(nèi)部出現(xiàn)。

3、大模型時(shí)代,語(yǔ)音交互將被如何重構(gòu)?

在2018年的上海世界人工智能大會(huì)上,科大訊飛董事長(zhǎng)劉慶峰曾表示,下一步AI發(fā)展的關(guān)鍵是算法突破,希望AI不用大量數(shù)據(jù)訓(xùn)練就能自主學(xué)習(xí),希望行業(yè)AI變成通用AI。

7年之后,他當(dāng)年希望突破的技術(shù)已經(jīng)實(shí)現(xiàn),他希望看到的通用AI也已經(jīng)成為現(xiàn)實(shí)。

通用人工智能的快速發(fā)展和落地背后,語(yǔ)音交互產(chǎn)業(yè)也正發(fā)生著新一輪變革。

邏輯在于,原來(lái)的語(yǔ)音合成、語(yǔ)音識(shí)別、機(jī)器翻譯等單點(diǎn)技術(shù)的突破,實(shí)現(xiàn)了語(yǔ)音交互的系統(tǒng)性創(chuàng)新,但是通過(guò)大模型的自然語(yǔ)言理解、文本生成、指令跟隨、多輪對(duì)話(huà)、情緒感知、超擬人合成等,真正使得語(yǔ)音交互質(zhì)量得到提升。

從這一刻起,語(yǔ)音交互從可用、實(shí)用,走向更加好用——從我們熟知并經(jīng)常使用的語(yǔ)音輸入法、語(yǔ)音助手、智能音箱,到深入各個(gè)行業(yè)的智能客服、智慧座艙、語(yǔ)音病歷等場(chǎng)景,智能語(yǔ)音技術(shù)的進(jìn)一步落地,某種程度上將帶來(lái)新的人機(jī)交互變革。自此,“懂你的AI助手”借助軟硬件一體化等方式,全球開(kāi)花。

在大模型浪潮下,語(yǔ)音領(lǐng)域的幾乎所有應(yīng)用,都值得用新方式重構(gòu)一遍。

今年6月27日,其發(fā)布了訊飛星火大模型V4.0及相關(guān)落地應(yīng)用,在底座能力上全面對(duì)標(biāo)Open AI的GPT-4 Turbo。

訊飛星火V4.0在8個(gè)國(guó)際主流測(cè)試集中排名第一,并在文本生成、語(yǔ)言理解、知識(shí)問(wèn)答、邏輯推理、數(shù)學(xué)能力等方面,實(shí)現(xiàn)了對(duì)GPT-4 Turbo的超越。

從跟隨到引領(lǐng),中國(guó)AI企業(yè)打響語(yǔ)音交互突圍戰(zhàn)

值得注意的是,除了這一通用大模型之外,今年1月30日,在訊飛星火大模型V3.5的升級(jí)發(fā)布會(huì)上,科大訊飛正式發(fā)布了星火語(yǔ)音大模型。

當(dāng)時(shí)劉慶峰強(qiáng)調(diào),讓機(jī)器具備學(xué)習(xí)、推理和決策的能力,就是認(rèn)知大模型要干的工作,“簡(jiǎn)單來(lái)說(shuō),借助大模型,我們讓一段語(yǔ)音具備更加豐富的屬性,有語(yǔ)種、有內(nèi)容、有韻律、有音色,還有情緒。”

上個(gè)月的發(fā)布會(huì)上,星火語(yǔ)音大模型也迎來(lái)了升級(jí)。其發(fā)布了多語(yǔ)種多方言免切換語(yǔ)音識(shí)別能力,可支持37個(gè)語(yǔ)種、37種方言“自由對(duì)話(huà)”,其中,37個(gè)語(yǔ)種識(shí)別效果領(lǐng)先了OpenAI whisper-V3,37個(gè)方言識(shí)別效果平均提升了30%。

從更長(zhǎng)遠(yuǎn)的視角來(lái)看,在語(yǔ)音技術(shù)和大模型的戰(zhàn)略機(jī)遇期面前,科大訊飛實(shí)質(zhì)上正加速推動(dòng)人機(jī)交互的新一輪變革。

比如在汽車(chē)領(lǐng)域,在大模型加持下,星火汽車(chē)智能座艙全新升級(jí),不但具備了多語(yǔ)種多方言的“自由交互”,還具備多情感多模態(tài)的超擬人交互,讓人車(chē)交互更有溫度。

回顧過(guò)去25年,科大訊飛跨越了三座高山:

起初,一群對(duì)語(yǔ)音技術(shù)抱有熱忱、懷著將技術(shù)產(chǎn)業(yè)化理想的年輕人創(chuàng)辦了這家公司,隨后用了將近十年甚至更久的時(shí)間,將中國(guó)語(yǔ)音技術(shù)從“跟隨者”改寫(xiě)成了“引領(lǐng)者”;

再到大約十年前,科大訊飛開(kāi)始了新的航向,在人工智能戰(zhàn)略的牽引下,其將公司的業(yè)務(wù)和技術(shù)布局,從感知智能拓展到了認(rèn)知智能;

再到如今大模型浪潮襲來(lái)時(shí),科大訊飛又快速反應(yīng),憑借著深厚的技術(shù)積累,推動(dòng)萬(wàn)物互聯(lián)時(shí)代的加速到來(lái)。

不難發(fā)現(xiàn),科大訊飛過(guò)去的每一次技術(shù)突破,實(shí)質(zhì)上都見(jiàn)證了中國(guó)智能語(yǔ)音產(chǎn)業(yè)從跟隨到引領(lǐng)的過(guò)程。而可以預(yù)見(jiàn),在即將來(lái)臨的萬(wàn)物互聯(lián)時(shí)代,擁有技術(shù)積累的玩家,將抓住機(jī)遇實(shí)現(xiàn)再一次飛躍。

本文來(lái)自投稿,不代表增長(zhǎng)黑客立場(chǎng),如若轉(zhuǎn)載,請(qǐng)注明出處:http://m.allfloridahomeinspectors.com/cgo/market/120831.html

(0)
打賞 微信掃一掃 微信掃一掃 支付寶掃一掃 支付寶掃一掃
上一篇 2024-07-12 19:38
下一篇 2024-07-12 23:16

增長(zhǎng)黑客Growthhk.cn薦讀更多>>

發(fā)表回復(fù)

登錄后才能評(píng)論