被稱為“國產(chǎn)最強”,科大訊飛的星火AI大模型有點東西

科大訊飛的「星火」認知大模型(以下簡稱“星火”)在推出之際,便高調(diào)宣稱對標ChatGPT。那么星火究竟到了什么水平?足夠叫板AI賽道的霸主嗎?

出品 | 微果醬(wjam123456)

作者?| 陳出木

在此前測評百度文心一言的文章評論區(qū),有小伙伴表示,星火的“使用效果不錯”。

星火是科大訊飛經(jīng)過5個月時間研發(fā)出來的大模型,在5月6日的發(fā)布會上正式面世。在國產(chǎn)大模型中,星火算不上首發(fā)玩家,科大訊飛的知名度也沒有其他大廠們高,卻少見敢公開對標ChatGPT的。

果醬妹這不就給大家火速安排了一期實測,看看相比名聲在外的ChatGPT和文心一言,星火到底好不好使。

 

 

01#
如何正確打開星火?

打開星火的官網(wǎng)(https://xinghuo.xfyun.cn/),登錄并點擊“申請注冊”,等待官方審核通過即可體驗。

有一說一,相比文心一言的部分內(nèi)測申請能卡上一個月,普遍反饋星火的審核速度很快,果醬妹在注冊申請后一個半小時就通過了審核。

進入星火的界面,對話框和其他模型相差無幾。

對比連色調(diào)都有些類似的文心一言,星火的左邊欄有“純凈”和“沉浸”兩種模式,可以將界面主題色調(diào)整為藍色和黑色。但僅能調(diào)色的功能和能通過修改模式調(diào)整回答風格的Bing相比,似乎落于下風。

圖片

在星火的右邊欄還有四個導航按鈕,包括使用指南、意見反饋、指令推薦和直播回看四個功能。其中,點擊“指令推薦”,可以看到星火根據(jù)行業(yè)和應用場景不同,準備了常用的指令集合,可以降低用戶通過AI對話來獲取想要答案的門檻。

圖片

如果用戶找到合適的指令,可以直接點擊“執(zhí)行”跳轉(zhuǎn)提問對話。不過,果醬妹在使用過程中,發(fā)現(xiàn)只有前面第一行的指令能夠如此操作,下方標注了“編輯執(zhí)行”的指令,則需要復制并人工切換頁面進行操作。

圖片

此外,星火也和文心一言一樣提供了模板功能,在對話框輸入“/”即可選擇相應問題模板,就模板數(shù)量而言,星火略勝一籌。

圖片

02#
星火會是國內(nèi)版ChatGPT嗎?

在星火的發(fā)布會上,官方自信表示,

中文領域已在文本生成、知識問答、數(shù)學能力3個維度超越ChatGPT,并將于10月24日在中文上超越ChatGPT,在英文上達到跟它相當?shù)乃健?/strong>

那么,星火到底能不能行?

1、文本生成

對于新媒體人來說,文本生成功能是一個重要輔助。所以,果醬妹選擇把今天的選題交給星火試試手。

盡管提問中出現(xiàn)了錯別字,但并不妨礙星火識別問題并作答,生成的文章基本通順,連接詞、過渡句也都不缺,甚至兼顧了“風格生動有趣”的需求。

果醬妹又對這篇文章提出了細化的需求,但星火生成的是一篇步驟完善的報告,需要再次引導才能轉(zhuǎn)化成文章。

圖片

而和其他AI大模型一樣,星火也難以與時俱進,對網(wǎng)絡熱點或熱梗都不能很好地理解并響應。比如面對分析最近走紅的“挖呀挖”“泰褲辣”等熱點事件,星火的回答可謂無中生有,除了結(jié)構(gòu),通篇離題。(用AI來追熱點的夢碎了)

圖片

果醬妹還測試了星火的短篇文案生成能力。就朋友圈文案和小紅書文案的生成情況來說,需要有更強個人主觀色彩的朋友圈文案表現(xiàn)并不能讓人滿意,而商業(yè)化更重些的小紅書文案則相對良好。但對于做客服或運營的小伙伴來說,星火還是能勝任“小助理”的角色的。

短視頻腳本也能生成,但仍需要人工進行引導、調(diào)整、潤色。

而到“藏頭詩”環(huán)節(jié),星火就失靈了。無論果醬妹如何更換藏頭的關鍵詞,星火一意孤行,堅持不按照傳統(tǒng)的藏頭詩形式作答?;蛟S是因為星火并未接受過這方面的訓練,其并不能正確理解“藏頭詩”的意思。

當果醬妹指出星火的錯誤之后,AI認錯但胡說八道的本能再次出現(xiàn)。顯然,在傳統(tǒng)文化方面,文心一言還是領先了一些距離的。

除了作文,星火在生成郵件方面的表現(xiàn)大致及格,會根據(jù)收件人是好朋友還是老板,轉(zhuǎn)變郵件的措辭風格。但相對來說,星火更擅長工作類型的郵件,而涉及情感因素的郵件仍然比較生硬。

可以說,星火在文本生成方面的能力是能超過及格線的,對問題及提問意圖都能夠做出相對正確的理解判斷,并生成基本合格的答案。但星火也有AI的通病,無法處理主觀性太強的內(nèi)容,及訓練不充分的傳統(tǒng)文化內(nèi)容。

2、知識問答

果醬妹首先向星火提問了曾經(jīng)難住文心一言的腦筋急轉(zhuǎn)彎——能否把大象放進冰箱。星火理解了問題的本質(zhì)并輕松解決,答案和Bing類似。

但除了這種非常經(jīng)典的問題,星火并不能夠回答出相對少見的腦筋急轉(zhuǎn)彎問題,即便這些問題對于人類小朋友來說并不難。

此外,星火在音樂方面暴露了短板。面對果醬妹提出的找歌和介紹樂隊的需求,星火出現(xiàn)了編造答案的的情況。且不論問題,其給出的答案中,事實錯誤包括歌曲《媽媽的吻》并非由李玟演唱,The Traveling Band這支樂隊和樂手在百度暫時查無此人等。

當然,如果回歸到相對常規(guī)的問題,星火還是能夠做好的,諸如腰疼的原因和應對、用PPT制作動畫的步驟等生活工作類型的問題。

可見,星火或許還是太年輕了,接受的訓練和數(shù)據(jù)庫的廣度都存在不足,導致其在知識問答方面有巨大短板。就這方面而言,具備搜索引擎業(yè)務的百度文心一言和微軟Bing顯然有更大的優(yōu)勢。

3、數(shù)學能力

鑒于此前在文心一言和Bing上都因為數(shù)學碰過壁,果醬妹對于星火的數(shù)學能力其實并沒有抱非常大的期待。結(jié)果也不出預料地翻車了,前兩者沒有解決的問題,星火也沒能做出來。

但如果換成《孫子算經(jīng)》上記錄的雞兔同籠問題,星火又可以了。

甚至包括雞兔同籠問題的變式,星火也能夠解出正確答案。

經(jīng)過幾次測試,星火的數(shù)學能力大約相當于小學生水平,初中及以上的題目基本都以失敗告終。(問AI還不如問更專業(yè)的XX搜題)

03#
寫在最后

近日發(fā)布的中文通用大模型綜合性評測基準SuperCLUE,其評測與排名的結(jié)果顯示,國產(chǎn)大模型中,科大訊飛研發(fā)的星火認知大模型總排名第三,國內(nèi)排名第一。

單看圖表,星火和文心一言差距極大。但一番測試下來,我們不難發(fā)現(xiàn),AI的優(yōu)勢和毛病,星火其實一個不落。

在交互方面,星火更類似于ChatGPT,不像文心一言那么生硬,脾氣也更好一點。而回歸業(yè)務能力,星火和文心一言其實差不多,日常的都能做,但難度一加碼就翻車,熱點熱梗跟不上,并且都是數(shù)學不好的偏科生。

當然,文心一言還年輕,星火更是在初生期,我們需要給國產(chǎn)大模型更多的耐心和時間。僅就當前階段來說,它們已經(jīng)能夠在生活工作中發(fā)揮一定的輔助作用,至于如何揚長避短,就是人類需要做的事情了。

這也意味著,AI工具普及已經(jīng)在潛移默化中開始了,我們不應該成為最后知道的那一批人。

本文來自投稿,不代表增長黑客立場,如若轉(zhuǎn)載,請注明出處:http://m.allfloridahomeinspectors.com/cgo/product/97681.html

(0)
打賞 微信掃一掃 微信掃一掃 支付寶掃一掃 支付寶掃一掃
上一篇 2023-05-17 14:30
下一篇 2023-05-17 14:37

增長黑客Growthhk.cn薦讀更多>>

發(fā)表回復

登錄后才能評論