微軟周明:我們如何讓AI在閱讀理解上超過了人
2022-09-22 13:33:27 來源:
![]()
【網易智能訊 1月29日消息】昨日,《麻省理工科技評論》新興科技峰會EmTech China在北京開幕。會上,微軟亞洲研究院副院長周明發表了演講,介紹了自然語言技術在神經機器翻譯、聊天機器人、閱讀理解及機器創作四個領域的應用。
以下為周明演講實錄:
周明:人工智能最重要的分支就是自然語言的理解與處理,即語言智能,通過對詞、句子、篇章進行分析,對內容里面的人物、時間、地點等進行理解,然后在此基礎上,去支持一系列核心技術,比如跨語言的翻譯、問答系統、閱讀理解、知識圖譜等技術,基于這些技術,又可以把它應用到其它應用領域,比如說搜索引擎、客服、金融、新聞等等領域。總之,就是通過對語言的理解,實現人跟電腦的直接交流,從而實現人跟人更加有效地交流。自然語言技術不是一個獨立的技術,其受云計算、大數據、機器學習、知識圖譜等等各個方面的支撐。
接下來將從四個方面介紹自然語言的進展,即神經機器翻譯、聊天機器人、閱讀理解及機器創作。
1、神經機器翻譯
神經機器翻譯就是模擬人腦的翻譯過程,人在翻譯的時候,首先是理解這句話,然后在腦海里形成對這句話的語義表示,最后再把這個語義表示轉化到另一種語言。神經機器翻譯有兩個模塊,一個是編碼模塊,把輸入的源語言變成一個中間的語義表示,用一系列的機器的內部狀態來代表,另一個模塊是解碼模塊,根據語義分析的結果,逐詞生成目標語言。神經機器翻譯在這幾年發展非常迅速,2017年的研究熱度更是一發不可收拾,現在神經機器翻譯已經取代了統計機器翻譯,成為機器翻譯的主流技術。目前有統計數據表明,在一些傳統的統計機器翻譯難以完成的任務上,神經機器翻譯的性能遠遠超過了統計機器翻譯,而且跟人的標準答案非常接近,甚至說是相仿的水平。圍繞著神經機器翻譯,研究者們已做了很多的工作,比如如何提升訓練的效率,如何提升編碼和解碼的能力。還有一個重要的研究問題就是數據問題,神經機器翻譯依賴于雙語對照的大規模的數據集來訓練,端到端地訓練神經網絡參數,這涉及很多語音段和很多的垂直領域,但我們實際上并沒有那么多的數據,我們只有小量的雙語數據和大量的單語數據。
所以,我們就提出了半監督的聯合垂直模型,就是已知一個雙語推導語料,分別對之訓練,從而達到中英翻譯系統與英中翻譯系統的相互促進,比如拿中英翻譯系統去翻中文的語料,形成很多偽的中英對照語料,然后把這個語料去加到英中翻譯里面去。同樣,用英中翻譯系統去翻譯大量的英文語料,然后把這個語料加到中英翻譯里面,這樣經過多次迭代之后,翻譯水平大幅度提升。
微軟現在已經全面采用神經機器翻譯,最近還跟華為的Mate10手機合作,得到了神經機器翻譯類似于在云上的效果。
2、聊天機器人
第二個話題是聊天機器人。聊天機器人就是人和機器對聊,在聊天的時候機器要理解人的意圖,產生比較符合人的想法,以及符合當前上下文的回復,再根據人與機器各自的回復將話題進行下去。微軟小冰就是這樣的一個聊天機器人。基于當前的輸入信息,再加上對話的情感,以及用戶的畫像,經過一個類似于神經機器翻譯的解碼模型生成回復,可以達到上下文相關、領域相關、話題有關,而且是針對用戶特點的個性化的回復。
這樣的技術已經應用到微軟的很多產品里,比如會5種語言、擁有1億以上用戶的微軟小冰、可以進行自然人機交互的Cortana、可以在敦煌回答游客問題的敦煌小冰。
3、閱讀理解
下一個話題是閱讀理解,閱讀理解就是讓電腦看一遍文章,針對這些文章問一些問題,看電腦能不能回答出來。斯坦福大學曾做過一個比較有名的實驗,就是使用維基百科的文章提出5個問題,由人把答案做出來,然后把數據分成訓練集和測試集,訓練集是公開的,用來訓練閱讀理解系統,而測試集不公開,個人把訓練結果上傳給斯坦福,斯坦福在其云端運行,再把結果報在網站上,這也避免了一些人對測試集做手腳。閱讀理解技術,自2016年9月前后發布,就引起了很多研究單位的關注,大概有二三十家單位都在做這樣的研究,一開始的水平都不是很高,以100分為例,人的水平是82。3左右,機器的水平只有74分,相差甚遠,后來通過類似于開源社區模式的不斷改進,它的性能就得以逐步地提高了。
最近在閱讀理解領域出現的一個備受關注的問題,就是如何才能做到超越人的標注水平。現在微軟、阿里巴巴、科大訊飛和哈工大的系統,都超越了人工的標注水平,這標志著閱讀理解技術進入了一個新的階段。這幾個系統都來自中國,也體現中國在自然語言處理的進步。
一個閱讀理解的框架首先要得到每個詞的語義表示,再得到每個句子的語義表示,這可以用循環神經網絡RNN來實現,然后用特定路徑來找出潛在答案,基于這個答案再篩選出最優的答案,最后確定這個答案的邊界。在做閱讀理解的時候,是用到了外部的知識,可以用大規模的語料來訓練外部的知識,通過外部知識訓練的RNN模型,加入到原來端到端的訓練結果中,以此來大幅度地提高閱讀理解的能力。
4、機器創作
最后介紹機器創作,機器可以做很多理性的東西,那么它可以做一些創造性的東西嗎?10年以前,我們就開始做微軟對聯,在此基礎上,創作絕句、律詩、唐詩宋詞等等,現在進行寫歌譜曲。在微軟對聯里,用戶輸入上聯,系統就可以對出下聯,也可以給出橫批;在字謎游戲里,用戶給出謎面,讓系統猜出字;或系統給出謎面讓用戶猜出字。
我們的編碼解碼技術已經成功用于神經網絡機器翻譯、小冰機器人和詞曲創作中。中央電視臺《機智過人》節目就曾播過我們的小冰與人類選手進行詞曲創作比拼的環節,結果是小冰險勝人類。這件事說明如果有大數據,那么機器學習或者深度學習就可以模擬人類的創造智能,創造出一些作品來,也可以與專家合作,幫助專家產生更好的想法,然后兩者配合,產生出美妙的音樂。
這個在以前是難以想象的,做自然語言的人從來沒有想到自然語言還可以延伸到音樂上去,其實音樂也是一種語言,自然語言的所有技術就可以應用到音樂上去,這需要大家的想象力。
今天我快速介紹了自然語言處理在神經機器翻譯、閱讀理解、聊天機器人以及機器創作領域的進展。隨著未來大數據、云計算和深度學習的發展,模型還會進一步地提升,再加上合適的場景,技術就可以落地,就可以服務于成千上萬的用戶。可以預料,隨著自然語言處理技術的提高與普及,它將會與其他的人工智能技術一起提升人類的生活水平。(完)
-
新功能!特斯拉部分汽車看到交通信號燈會減速
網易科技訊 4月28日消息,據國外媒體報道,電動汽車制造商特斯拉宣布其電動汽車在行駛過程中可以識別交通信號燈和停止標志并減速停車,但
2022-09-22 10:33
-
時速600公里實車亮相!我國磁懸浮列車取得新進展
(原標題:我國高速磁懸浮列車研究取得突破性進展) 新華社杭州12月8日消息,記者從正在此間舉行的第二屆浙江國際智慧交通產業
2022-09-21 21:09
-
功能升級!新享科技UniPro給項目管理用戶帶來更多便捷
(原標題:功能升級!新享科技UniPro給項目管理用戶帶來更多便捷) 希望給研發管理者提供好幫手,這是國內項目管理軟件UniPro發布之
2022-09-21 20:14
-
不欺騙大腦永遠無法100%實現VR觸覺反饋?
GoTouch VR展示了一個觸覺環,來模擬用戶按下按鈕時手指所能感受到的壓力類型。截至目前為止,其演示仍然是處于一個相當尷尬的處境內
2022-09-21 18:47
-
知否防癌防胖降膽固醇!泡菜好處這么多為啥不能多吃?
(原標題:Is Kimchi Good or Bad for You?) 作者 過客 出品 網易科技《知否》欄目組(公眾號:tech_163) 提到泡菜大
2022-09-21 15:50










