您的位置：首頁(yè) >郵票收藏 > 郵票資訊 >

谷歌讓機(jī)器更懂語(yǔ)言的精深發(fā)布最大消歧語(yǔ)料庫(kù)

2022-11-02 13:10:22 來(lái)源：

（原標(biāo)題：谷歌讓機(jī)器更懂語(yǔ)言的博大精深，發(fā)布最大消歧語(yǔ)料庫(kù)）

　　本文作者：奕欣

　　理解語(yǔ)言的核心自然是了解詞語(yǔ)在文本中的不同含義。雷鋒網(wǎng)(公眾號(hào)：雷鋒網(wǎng))先說(shuō)個(gè)中文笑話先：

　　領(lǐng)導(dǎo)：「你這是什么意思？」

　　下屬：「沒(méi)什么意思，意思意思。」

　　領(lǐng)導(dǎo)：「你這就不夠意思了。」

　　下屬：「小意思，小意思。」

　　領(lǐng)導(dǎo)：「你這人真有意思。」

　　下屬：「其實(shí)也沒(méi)有別的意思。」

　　領(lǐng)導(dǎo)：「那我就不好意思了。」

　　下屬：「是我不好意思。」

　　如果讓機(jī)器來(lái)理解這些到底是什么意思，想必它也會(huì)頭疼的吧。

　　谷歌讓機(jī)器更懂語(yǔ)言的博大精深，發(fā)布最大消歧語(yǔ)料庫(kù)

　　那么用相對(duì)簡(jiǎn)單的英文？也沒(méi)有那么簡(jiǎn)單。畢竟一個(gè)單詞可能包括數(shù)十個(gè)意思。

　　舉個(gè)例子：「he will receive stock in the reorganized company」，這個(gè)句子中，我們結(jié)合上下詞就能知道，「stock」在這里是股票的意思，我們可以從牛津字典中找到更為專(zhuān)業(yè)的解釋。

　　但是同樣在牛津字典中，stock這個(gè)詞還有超過(guò)10個(gè)不同的含義，比如「（商店里的）庫(kù)存」或是「(鞭子、釣竿等的) 柄」。對(duì)于計(jì)算機(jī)算法而言，如何從博大精深的含義中找尋某個(gè)句子中對(duì)應(yīng)的詞義？這的確是一個(gè)詞義消歧難題，也就是AI-Complete問(wèn)題。

　　雷鋒網(wǎng)消息，今天谷歌研究院又發(fā)出了重磅新聞，他們發(fā)布了基于MASCSemCor數(shù)據(jù)集的大規(guī)模有監(jiān)督詞義消歧語(yǔ)料。這些語(yǔ)料會(huì)與牛津字典上的例句做映照，廣泛適用于各個(gè)社區(qū)。與此同時(shí)，本次發(fā)布也是最大的全句釋義語(yǔ)料庫(kù)之一。

　　有監(jiān)督詞義消歧

　　人們通過(guò)對(duì)句子中詞語(yǔ)的內(nèi)容進(jìn)行理解，因?yàn)槲覀兡芡ㄟ^(guò)常識(shí)判斷上下文的含義。比如同樣一個(gè)例子，「『stock』 in a business」代表的自然是股票的意思，而「『stock』 in a bodega」更有可能是庫(kù)存的意思，即使這里的bodega也可能指酒窖生意。我們希望為機(jī)器提供足夠的背景信息，并應(yīng)用于理解文本中詞語(yǔ)的含義。

　　有監(jiān)督詞義消歧（WSD）嘗試解決這一問(wèn)題，也就是讓機(jī)器學(xué)習(xí)使用人工標(biāo)記的數(shù)據(jù)，并與字典中的詞語(yǔ)所代表的典型含義匹配。我們希望構(gòu)建這樣的一個(gè)監(jiān)督模型，能夠不考慮復(fù)雜語(yǔ)境，并匹配句中單詞在詞典中最可能表達(dá)的含義。雖然這一點(diǎn)富有挑戰(zhàn)，但監(jiān)督模型在大量訓(xùn)練數(shù)據(jù)支持下表現(xiàn)良好。

　　通過(guò)發(fā)布數(shù)據(jù)集，我們希望社區(qū)能夠提出更好的算法，讓機(jī)器對(duì)自然語(yǔ)言產(chǎn)生更深刻的理解，支持以下的應(yīng)用：

　　從文本中自動(dòng)搭建數(shù)據(jù)庫(kù)存，這樣一來(lái)，機(jī)器可以回答問(wèn)題，并將文檔中的知識(shí)串聯(lián)起來(lái)。舉個(gè)例子，機(jī)器在經(jīng)過(guò)學(xué)習(xí)后，明白「hemi engine」指的是一種自動(dòng)化的機(jī)械；而「locomotive engine」則與火車(chē)有關(guān)。也能理解「Kanye West is a star」指的是名人的意思；而「Sirius is a star」則是天文學(xué)概念。

　　消除歧義。我們希望讓文本在查詢(xún)中能夠呈現(xiàn)不同的含義，避免張冠李戴，與此同時(shí)還能返回具有相關(guān)語(yǔ)義的文檔。

　　人工注釋

　　在我們?nèi)斯?biāo)記的數(shù)據(jù)集中，每一個(gè)詞義注釋都由五個(gè)評(píng)估者進(jìn)行審核。為了確保質(zhì)量，這些評(píng)估者會(huì)進(jìn)行訓(xùn)練（gold annotation），即讓語(yǔ)言學(xué)家們對(duì)一些研究樣本進(jìn)行標(biāo)記。以下是我們的標(biāo)記頁(yè)面。

　　谷歌讓機(jī)器更懂語(yǔ)言的博大精深，發(fā)布最大消歧語(yǔ)料庫(kù)

　　在頁(yè)面左邊呈現(xiàn)的是general的常用詞義及例句，在右側(cè)的文本中，general一詞會(huì)高亮顯示。除了匹配詞義外，評(píng)估者還能對(duì)詞語(yǔ)進(jìn)行判斷，可以指出包括「拼寫(xiě)錯(cuò)誤」、「上述情況都不符合」、「不確定」等三種情況。此外，評(píng)估者可以對(duì)一些含有隱喻的詞語(yǔ)進(jìn)行標(biāo)記并評(píng)論。

　　這些人工的詞義標(biāo)注采用了Krippendorffs alpha (α >；= 0。67則具有一定可信度，α >；= 0。80則表示具有很高的可信度) 進(jìn)行判斷，結(jié)果顯示得分為0。869。雷鋒網(wǎng)認(rèn)為這是一個(gè)非常不錯(cuò)的成績(jī)了。

　　谷歌讓機(jī)器更懂語(yǔ)言的博大精深，發(fā)布最大消歧語(yǔ)料庫(kù)

　　Wordnet Mappings

　　與此同時(shí)，谷歌也發(fā)布了兩個(gè)從牛津詞典到Wordnet的映射。小的數(shù)據(jù)集中含有2200個(gè)單詞，而大的數(shù)據(jù)集則是算法構(gòu)建的。這兩個(gè)映射內(nèi)容能夠更好地將Wordnet 的內(nèi)容應(yīng)用于牛津詞典的語(yǔ)料庫(kù)中，也能夠在使用過(guò)程中實(shí)現(xiàn)系統(tǒng)的構(gòu)建。

　　以上研究成果已經(jīng)收錄在「Semi-supervised Word Sense Disambiguation with Neural Models」中，主要采用的是 LSTM 語(yǔ)言處理模型及半監(jiān)督學(xué)習(xí)算法。

　　Via google blog，雷鋒網(wǎng)編譯

相關(guān)閱讀