網(wǎng)易有道在NLPCC中文語(yǔ)法錯(cuò)誤修正比賽中斬獲冠軍
2022-10-24 18:27:26 來(lái)源:
在第七屆國(guó)際自然語(yǔ)言處理與中文計(jì)算會(huì)議(以下簡(jiǎn)稱NLPCC)中,第一次新增了“中文語(yǔ)法錯(cuò)誤修正”共享任務(wù)比賽。最終網(wǎng)易有道AI團(tuán)隊(duì)貢獻(xiàn)出最佳糾錯(cuò)成果,于眾多參賽高手中脫穎而出,力壓包括阿里巴巴團(tuán)隊(duì)、北京大學(xué)團(tuán)隊(duì)在內(nèi)的5組全球?qū)W術(shù)界和業(yè)界知名研究團(tuán)隊(duì),斬獲冠軍。
高水準(zhǔn)的業(yè)界參賽團(tuán)隊(duì)
網(wǎng)易有道的召回率和綜合評(píng)價(jià)指標(biāo)均為第一
隨著中國(guó)影響力的日益擴(kuò)大,漢語(yǔ)學(xué)習(xí)熱潮席卷全球,越來(lái)越多機(jī)構(gòu)對(duì)于中文作為第二語(yǔ)言的(Chinese as Second Language,簡(jiǎn)稱CSL)研究開始推進(jìn)。NLPCC首次在比賽中加入中文語(yǔ)法錯(cuò)誤識(shí)別及糾正的項(xiàng)目,也是希望行業(yè)與時(shí)俱進(jìn),與社會(huì)熱點(diǎn)結(jié)合,提高CSL領(lǐng)域的研究熱情。
本次比賽中,主辦方提供的測(cè)試集是北京外國(guó)語(yǔ)大學(xué)的外籍學(xué)生撰寫的中文作文;訓(xùn)練集則采集自外國(guó)人學(xué)習(xí)中文的網(wǎng)站,包括非母語(yǔ)人士撰寫的中文文本和母語(yǔ)者的注釋和修正。
比賽伊始,需要由參賽者開發(fā)能自動(dòng)檢測(cè)、糾正CSL編寫者錯(cuò)誤的人工智能算法模型,利用訓(xùn)練集提高算法模型對(duì)相關(guān)問(wèn)題的熟悉程度和修正能力后,輸入測(cè)試集進(jìn)行正式研發(fā)成果檢驗(yàn)。主辦方就修正后結(jié)果的準(zhǔn)確度、召回率和綜合評(píng)價(jià)指標(biāo)這三重評(píng)判標(biāo)準(zhǔn)進(jìn)行打分。
最終,網(wǎng)易有道AI團(tuán)隊(duì)以召回率第一、綜合評(píng)價(jià)指標(biāo)第一的絕對(duì)優(yōu)勢(shì),首戰(zhàn)告捷。
對(duì)于外國(guó)人而言,漢語(yǔ)的主要難點(diǎn)在于它的孤立語(yǔ)特征。英語(yǔ)通過(guò)時(shí)態(tài)和詞綴表達(dá)語(yǔ)法和詞性,漢語(yǔ)則是依靠獨(dú)立的虛詞和固定詞序表達(dá)語(yǔ)法意義,通過(guò)一個(gè)個(gè)字詞的排列組合構(gòu)造句義語(yǔ)境,對(duì)解讀的要求很高。
以大賽考題為例,原句是“她已經(jīng)畢業(yè)了大學(xué),專業(yè)是視覺設(shè)計(jì)”,經(jīng)過(guò)有道AI團(tuán)隊(duì)人工智能修正后的結(jié)果是“她已經(jīng)大學(xué)畢業(yè),專業(yè)是視覺設(shè)計(jì)”。
看似簡(jiǎn)單的一步,實(shí)際是有道AI團(tuán)隊(duì)的人工智能先對(duì)訓(xùn)練集的人類專家給出的注釋和修正進(jìn)行學(xué)習(xí),再對(duì)比賽原句進(jìn)行錯(cuò)誤識(shí)別、衡量及修正,從分詞斷句、句子通順程度、邏輯連貫性等多個(gè)維度綜合考量。
有道AI團(tuán)隊(duì)表示,算法的高精準(zhǔn)度主要源自“多步推斷”的設(shè)計(jì)。第一層面的多步推斷是指,將表層錯(cuò)誤和深層次語(yǔ)法錯(cuò)誤分離、分層次解決。例如:
原句:晚上還要做作業(yè)或者跟朋友們一起完兒睡晚覺。
修正句:晚上還要做作業(yè)或者跟朋友們一起玩兒很晚。
模型會(huì)先將“完”和“玩”這類錯(cuò)別字、標(biāo)點(diǎn)符號(hào)等表層錯(cuò)誤識(shí)別糾正,再在理解句義的基礎(chǔ)上,調(diào)整深層語(yǔ)法錯(cuò)誤。
第二層面的多步推斷是指,在修正過(guò)程中更為本真地還原人類的認(rèn)知行為——推敲。為了更精準(zhǔn)周到的表達(dá),人類習(xí)慣先在腦海中反復(fù)推敲一句話的措辭、情緒等,幾番嘗試后才會(huì)將最滿意的搭配說(shuō)出口。在推敲的過(guò)程中,有些字被修改了,有些詞匯搭配也被修改了,對(duì)于AI而言,這是兩種不同粒度的修正。因此,有道人工智能團(tuán)隊(duì)設(shè)計(jì)了字級(jí)別和子詞級(jí)別兩種神經(jīng)網(wǎng)絡(luò)模型,并將兩種模型進(jìn)行不同搭配組合,對(duì)例句做逐層推敲,得到5種修訂結(jié)果,再使用一個(gè)表征句子流利度的語(yǔ)言模型來(lái)對(duì)修訂結(jié)果進(jìn)行篩選,從而獲得最終結(jié)果。
AI“推敲”的模型流程圖
目前,網(wǎng)易有道已將成熟的英文糾錯(cuò)研發(fā)成果應(yīng)用于有道精品課等教育類產(chǎn)品中,協(xié)助進(jìn)行英文作文批改。對(duì)于尚未完全成熟的中文語(yǔ)法錯(cuò)誤修正技術(shù),網(wǎng)易有道首席科學(xué)家段亦濤表示,當(dāng)人工智能可以理解復(fù)雜度高的語(yǔ)法錯(cuò)誤,積累足量中文語(yǔ)料庫(kù)后,才會(huì)作為產(chǎn)品功能落地。網(wǎng)易有道的產(chǎn)品矩陣中不乏針對(duì)CSL學(xué)習(xí)者的課程及產(chǎn)品,未來(lái)應(yīng)用場(chǎng)景廣闊,除了設(shè)計(jì)成面向中文學(xué)習(xí)者的自動(dòng)在線糾錯(cuò)學(xué)習(xí)工具,也可以與中小學(xué)校合作,為教師提供輔助批改。
-
揭秘特斯拉超級(jí)電池工廠:可以改變世界?
(原標(biāo)題:揭秘 Elon Musk 的超級(jí)電池工廠 Gigafactory ,一座可以改變世界的工廠) 10 分享到 易信 LOFTER 新浪微博 騰訊
2022-10-24 15:10
-
一加AcePro原神聯(lián)名限定版什么時(shí)候出發(fā)布會(huì)直播時(shí)間
伶俐巧思,蝶引梅香,獲取是去年嘗到了甜頭,今年一加依舊推出和原神的聯(lián)動(dòng),那么一加AcePro原神限定版發(fā)布會(huì)什么時(shí)候開始?下面就由小編
2022-10-24 11:58
-
航天員在空間站工作時(shí)呼吸的氧氣通常從哪里來(lái)?螞蟻莊園答案
航天員在空間站工作時(shí),呼吸的氧氣通常從哪里來(lái)?這是10月25日螞蟻莊園的問(wèn)題之一,答案已提前公布。下面,讓我們一起看看螞蟻莊園答案10
2022-10-24 10:05
-
中國(guó)天眼發(fā)現(xiàn)宇宙中最大原子氣體系統(tǒng)比銀河系大20倍
10月20日消息,中國(guó)科學(xué)院國(guó)家天文臺(tái)徐聰研究員領(lǐng)導(dǎo)的國(guó)際團(tuán)隊(duì),近日利用被譽(yù)為中國(guó)天眼的500米口徑球面射電望遠(yuǎn)鏡,對(duì)宇宙中著名致密
2022-10-24 08:55
-
蘭亭集勢(shì)發(fā)布魯智深云ERP免費(fèi)軟件平臺(tái)
網(wǎng)易科技訊11月9日消息,跨境電商企業(yè)、美國(guó)紐交所上市公司蘭亭集勢(shì)日正式對(duì)外發(fā)布云ERP免費(fèi)軟件平臺(tái)魯智深,旨在以免費(fèi)SasS模式重塑
2022-10-24 06:59
-
微軟量子計(jì)算研發(fā)如何?想在核心元件取得進(jìn)展
(原標(biāo)題:For faster quantum computing, Microsoft builds a better qubit) 網(wǎng)易科技訊 11月9日消息,據(jù)外媒報(bào)道,谷歌剛
2022-10-24 05:31
-

中國(guó)游戲出口穩(wěn)定增長(zhǎng)貝塔科技持續(xù)位列全國(guó) -
小鵬汽車收購(gòu)福迪汽車,為獲得生產(chǎn)資質(zhì)掃清 -
有了這樣的紅綠燈,低頭族再也不用擔(dān)心過(guò)馬 -
英國(guó)7歲女孩致信谷歌求職皮查伊:期待畢業(yè) -

邁克菲公司任命SteveRedman為邁克菲亞太區(qū)總裁 -
摩拜單車開始在日本札幌提供服務(wù)半小時(shí)收費(fèi) -
怎樣打造比“頭號(hào)玩家”更火的爆款區(qū)塊鏈游 -

消息稱中華網(wǎng)首席運(yùn)營(yíng)官禤文浩離職 -

6月25日:中華網(wǎng)投資集團(tuán)漲11.36% -
小扎學(xué)會(huì)包餃子啦還用中文祝福大家雞年吉祥



