色婷婷av一区二区_国产一区二区三区四区在线观看 _中文字幕一区二区在线观看_亚洲综合激情另类小说区

您的位置:首頁 >郵票收藏 > 郵票資訊 >

谷歌讓機器更懂語言的精深發布最大消歧語料庫

2022-11-02 13:10:22 來源:

  

(原標題:谷歌讓機器更懂語言的博大精深,發布最大消歧語料庫)

  

undefined

  本文作者:奕欣

  理解語言的核心自然是了解詞語在文本中的不同含義。雷鋒網(公眾號:雷鋒網)先說個中文笑話先:

  領導:「你這是什么意思?」

  下屬:「沒什么意思,意思意思。」

  領導:「你這就不夠意思了。」

  下屬:「小意思,小意思。」

  領導:「你這人真有意思。」

  下屬:「其實也沒有別的意思。」

  領導:「那我就不好意思了。」

  下屬:「是我不好意思。」

  如果讓機器來理解這些到底是什么意思,想必它也會頭疼的吧。

  

undefined

  谷歌讓機器更懂語言的博大精深,發布最大消歧語料庫

  那么用相對簡單的英文?也沒有那么簡單。畢竟一個單詞可能包括數十個意思。

  舉個例子:「he will receive stock in the reorganized company」,這個句子中,我們結合上下詞就能知道,「stock」在這里是股票的意思,我們可以從牛津字典中找到更為專業的解釋。

  但是同樣在牛津字典中,stock這個詞還有超過10個不同的含義,比如「(商店里的)庫存」或是「(鞭子、釣竿等的) 柄」。對于計算機算法而言,如何從博大精深的含義中找尋某個句子中對應的詞義?這的確是一個詞義消歧難題,也就是AI-Complete問題。

  雷鋒網消息,今天谷歌研究院又發出了重磅新聞,他們發布了基于MASCSemCor數據集的大規模有監督詞義消歧語料。這些語料會與牛津字典上的例句做映照,廣泛適用于各個社區。與此同時,本次發布也是最大的全句釋義語料庫之一。

  有監督詞義消歧

  人們通過對句子中詞語的內容進行理解,因為我們能通過常識判斷上下文的含義。比如同樣一個例子,「『stock』 in a business」代表的自然是股票的意思,而「『stock』 in a bodega」更有可能是庫存的意思,即使這里的bodega也可能指酒窖生意。我們希望為機器提供足夠的背景信息,并應用于理解文本中詞語的含義。

  有監督詞義消歧(WSD)嘗試解決這一問題,也就是讓機器學習使用人工標記的數據,并與字典中的詞語所代表的典型含義匹配。我們希望構建這樣的一個監督模型,能夠不考慮復雜語境,并匹配句中單詞在詞典中最可能表達的含義。雖然這一點富有挑戰,但監督模型在大量訓練數據支持下表現良好。

  通過發布數據集,我們希望社區能夠提出更好的算法,讓機器對自然語言產生更深刻的理解,支持以下的應用:

  從文本中自動搭建數據庫存,這樣一來,機器可以回答問題,并將文檔中的知識串聯起來。舉個例子,機器在經過學習后,明白「hemi engine」指的是一種自動化的機械;而「locomotive engine」則與火車有關。也能理解「Kanye West is a star」指的是名人的意思;而「Sirius is a star」則是天文學概念。

  消除歧義。我們希望讓文本在查詢中能夠呈現不同的含義,避免張冠李戴,與此同時還能返回具有相關語義的文檔。

  人工注釋

  在我們人工標記的數據集中,每一個詞義注釋都由五個評估者進行審核。為了確保質量,這些評估者會進行訓練(gold annotation),即讓語言學家們對一些研究樣本進行標記。以下是我們的標記頁面。

  

undefined

  谷歌讓機器更懂語言的博大精深,發布最大消歧語料庫

  在頁面左邊呈現的是general的常用詞義及例句,在右側的文本中,general一詞會高亮顯示。除了匹配詞義外,評估者還能對詞語進行判斷,可以指出包括「拼寫錯誤」、「上述情況都不符合」、「不確定」等三種情況。此外,評估者可以對一些含有隱喻的詞語進行標記并評論。

  這些人工的詞義標注采用了Krippendorffs alpha (α >;= 0。67則具有一定可信度,α >;= 0。80則表示具有很高的可信度) 進行判斷,結果顯示得分為0。869。雷鋒網認為這是一個非常不錯的成績了。

  

undefined

  谷歌讓機器更懂語言的博大精深,發布最大消歧語料庫

  Wordnet Mappings

  與此同時,谷歌也發布了兩個從牛津詞典到Wordnet的映射。小的數據集中含有2200個單詞,而大的數據集則是算法構建的。這兩個映射內容能夠更好地將Wordnet 的內容應用于牛津詞典的語料庫中,也能夠在使用過程中實現系統的構建。

  以上研究成果已經收錄在「Semi-supervised Word Sense Disambiguation with Neural Models」中,主要采用的是 LSTM 語言處理模型及半監督學習算法。

  Via google blog,雷鋒網編譯

相關閱讀
熱門新聞
探索之旅:金字塔懸案石門秘道布謎局(圖)

探索之旅:金字塔懸案石門秘道布謎局(圖)

        埃及最高文物委員會主席扎西哈瓦  尼羅河西岸的吉薩高地上,胡夫金字塔,長久以來被人們稱為一個地球偉大文明的遺囑,埃

2022-11-01 16:25
夢天實驗艙發射,90后博士自編程序拍下400公里外空間站建設全程

夢天實驗艙發射,90后博士自編程序拍下400公里外空間站建設全程

  10月31號,隨著夢天實驗艙成功發射,中國空間站建設進入收尾階段。自此,中國空間站三艙合體的T字基本構型即將建成。而這一過程被90后天體

2022-10-31 18:18
室內設計風格的爭論用實例分析來說話

室內設計風格的爭論用實例分析來說話

  一間尚未裝修的毛坯房在室內設計師的手中就如同一張白紙,鋪墨著色后,或體現著業主的風格,或透著設計師的風格。      作者:徐

2022-10-29 14:14
AAC瑞聲科技加入信息無障礙聯席會議,致力于讓信息可觸摸可感知

AAC瑞聲科技加入信息無障礙聯席會議,致力于讓信息可觸摸可感知

  10月28日,AAC瑞聲科技與信息無障礙聯席會議在南京大學產學研基地南區舉行了授牌儀式,宣布AAC瑞聲科技成為聯席會議的正式成員單位之一。

2022-10-28 19:37
區塊鏈沒能成救命稻草人人網還是被賣了

區塊鏈沒能成救命稻草人人網還是被賣了

  互聯網的世界,非常現實。人人網就是活生生的一個例子。  現實到什么程度呢?大概就是年初的人人網宣布進軍區塊鏈,其在美國上市的股

2022-10-28 18:57
動動腦子就能解鎖腦電波正在成為新型密匙

動動腦子就能解鎖腦電波正在成為新型密匙

  (原標題:動動腦子就能解鎖,腦電波正在成為新型密匙)    密碼、指紋和虹膜都是現有身份識別系統的中流砥柱,通過它們,我們才能

2022-10-27 18:57
主站蜘蛛池模板: 91国产中文字幕| 精品成在人线av无码免费看| 国产精品久久久久av| 日本最新高清不卡中文字幕V| 精品国产一区二区在线| 欧美一级片一区| 色综合久久久久久久久五月| 久久精品色欧美aⅴ一区二区| 日韩av在线综合| 日韩在线视频观看| 天天操天天干天天玩| 91精品国产91| 国产精品美女久久| 国产精品久久久一区| 国产精品成人一区二区| 国产精品久久久久免费| 国产精品乱码视频| 国产精品日韩在线观看| 国产日产欧美精品| 国模精品娜娜一二三区| 久久97精品久久久久久久不卡| 久久久久久国产免费| 欧美精品日韩三级| 欧美精品v日韩精品v国产精品| 日本亚洲精品在线观看| 日本视频一区在线观看| 欧美中文字幕在线观看视频| 日本精品国语自产拍在线观看| 日本精品久久久久中文字幕| 日本一区二区三区在线视频| 三级三级久久三级久久18| 99精彩视频在线观看免费| 91精品视频在线免费观看| 91精品视频观看| 91精品国产一区| 日韩免费在线播放| 免费国产成人看片在线| 国产一区二区在线播放 | 亚洲精品不卡| 秋霞久久久久久一区二区| 精品国产福利|