色婷婷av一区二区_国产一区二区三区四区在线观看 _中文字幕一区二区在线观看_亚洲综合激情另类小说区

您的位置:首頁 >郵票收藏 > 郵票資訊 >

谷歌揭秘自家翻譯系統:如何利用AI技術提高翻譯質量

2022-04-27 14:23:04 來源:

  

(原標題:谷歌揭秘自家翻譯系統:如何利用AI技術提高翻譯質量)

  對于機器翻譯來說,如果一門語言可用的文字資料越多,經過人工智能模型訓練出來的翻譯效果就越好。但并不是所有語言都具備豐富可用訓練的文字資料,這樣一來,如何在數據不多的情況下,訓練出更好的翻譯器,成為機器翻譯領域里需要解決的問題之一。

  

/

  近日,谷歌在自己的博客上介紹了公司最新的翻譯創新技術,這些技術提升了谷歌翻譯的用戶體驗。目前谷歌翻譯可支持108種語言,平均每天翻譯1500億個單詞。

  谷歌翻譯最早亮相于2006年,在過去的13年間,翻譯水平有了重大飛躍。谷歌表示,其翻譯突破并不是由單一技術推動的,而是針對低資源語言、高資源語言、總體質量、推理速度等一系列技術組合的突破。在2019年5月到2020年5月之間,根據人工評估和BLEU(基于翻譯系統翻譯和人工參考翻譯之間相似性的衡量標準),谷歌翻譯在所有語言中平均提高了5分以上,在50種語料資源最少的語言中平均提高了7分以上。

  混合模型和數據挖掘器

  在這系列技術突破中,谷歌首先提到了混合模型和數據挖掘器。

  混合模型指的是由Transformer編碼器和遞歸神經網絡(RNN)解碼器構成的模型。在機器翻譯中,編碼器通常將單詞和短語編碼為內部表征,解碼器將其生成為所需要的語言文本。谷歌的研究人員在2017年稱首次提出,翻譯質量的提高主要依靠編碼器。谷歌團隊稱這可能是因為RNN和Transformer都設計為處理有序數據序列,但Transformers并不需要按順序處理序列。換句話說,如果所討論的數據是自然語言,則Transformer無需在處理結尾之前先處理句子的開頭。

  盡管如此,RNN解碼器在推理時間上仍然比Transformer中的解碼器要“快得多”。谷歌翻譯團隊認識到這一點,于是在將RNN解碼器與Transformer編碼器耦合之前,對RNN解碼器進行了優化,以創建低延遲、質量及穩定性均比此前所使用的RNN神經機器翻譯模型更勝一籌的混合模型。

  除了新穎的混合模型體系結構之外,谷歌還升級了爬蟲工具,爬蟲工具可以從數以百萬計的示例翻譯中收集編譯訓練數據。升級后,谷歌嵌入了14種大語言對,而不是單純基于字典數據。也就是說它是使用實數向量來表示單詞和短語,更多地聚焦于精確性(檢索數據中的相關數據部分),而非檢索(實際檢索的相關數據總量)。產出效果方面,谷歌說這使得該數據挖掘器提取到的句子數量平均增加了29%。

  “嘈雜”的數據和遷移學習

  谷歌翻譯性能提升的另一個技術突破來自更好地處理訓練數據中的“噪聲”。“噪聲”即嘈雜的數據,因含有大量無法正確理解或解釋的信息數據,從而會損害語料資源豐富的語言翻譯。因此谷歌翻譯團隊部署了一個系統,該系統使用經過訓練的模型為翻譯示例分配分數,進而篩選出“純凈”的數據。實際上,這些模型一開始基于所有的數據進行訓練,然后逐漸基于更小、更純凈的數據子集進行訓練,這種方法在人工智能研究領域被稱為課程學習。

  對于機器翻譯來說,傳統上依賴于源語言和目標語言中成對句子的語料統計。對于資源較少的語言,谷歌在谷歌翻譯中采用了一個回譯機制,來強化并行訓練數據,即語言中的每個句子都與其譯文相配對。在該機制中,訓練數據與合成的并行數據自動對齊,目標文本為自然語言,而源文本則由神經翻譯模型生成。結果是,谷歌翻譯充分利用更豐富的單語文本數據來訓練模型,谷歌稱這對提高翻譯流暢性特別有幫助。

  此外,谷歌翻譯團隊還建了一個M4模型。M4模型由團隊在2019年提出,該模型對100多種語言的250億對句子進行訓練后,提高了30多種低資源語言的翻譯質量。這一模型也證明了在機器翻譯過程中可以使用遷移學習技術。這也意味著收集包括法語、德語和西班牙語,這些有數十億個并行示例的高資源語言,并進行訓練后,可以應用于翻譯諸如約魯巴語,信德語和夏威夷語,這些僅有數萬個示例的低資源語言。

  機器翻譯的未來

  谷歌稱,自2010年以來,翻譯質量每年都在提高,但是機器翻譯絕不是翻譯問題的“終結者”。 谷歌承認,即使是增強后的模型也容易出錯,包括將一種語言的不同方言混合在一起,產生過多的直譯,以及在特定主題,非正式或口語上的表現不佳。

  谷歌嘗試用不同的方法來解決上述的問題。公司曾發布一項計劃旨在招募志愿者,通過檢查翻譯單詞和短語是否正確來幫助提高低資源語言的翻譯性能。今年2月份,谷歌翻譯與新興的機器學習技術相結合后就完成了進步,他們提供了僅有7500萬人使用的五種語言翻譯,例如Kinyarwanda(盧旺達語),Odia(奧里亞語),Tatar(韃靼語),Turkmen(土庫曼語)和Uyghur(維吾爾語)。

  追求真正通用翻譯的并不只有谷歌一家。在2018年8月,Facebook發布了一種AI模型,該模型結合了逐詞翻譯,語言模型和反向翻譯,在語言配對方面表現優異。最近,麻省理工學院計算機科學與人工智能實驗室的研究人員提出了一種無監督模型,即可以從未經明確標記或分類的測試數據中學習的模型,該模型可以在兩種語言的文本之間進行翻譯,而無需在兩種語言之間直接進行翻譯。

相關閱讀
熱門新聞
谷歌揭秘自家翻譯系統:如何利用AI技術提高翻譯質量

谷歌揭秘自家翻譯系統:如何利用AI技術提高翻譯質量

   (原標題:谷歌揭秘自家翻譯系統:如何利用AI技術提高翻譯質量)   對于機器翻譯來說,如果一門語言可用的文字資料越多,經過人工智

2022-04-27 14:23
諾基亞手機重回美國市場:還是入門機

諾基亞手機重回美國市場:還是入門機

  10月12日消息 諾基亞自Lumia系列之后,就再也沒有跟美國運營商Verizon有過合作了。近日,爆料大神@Evleaks發推文表示,HMD Global正通過

2022-04-27 13:06
美股周二全線大跌:納指重挫近4%特斯拉大跌逾12%

美股周二全線大跌:納指重挫近4%特斯拉大跌逾12%

  美國時間周二,美股收盤主要股指大幅下跌,納斯達克指數創2020年以來的最低水平。  道瓊斯指數收于33240。18點,下跌809。28點,跌幅2。

2022-04-27 09:16
5G真來了8K超高清、無人車上路還遠嗎?

5G真來了8K超高清、無人車上路還遠嗎?

   (原標題:5G真來了!8K超高清視頻、無人車上路還遠嗎?)   中新網客戶端北京6月6日電(記者吳濤)比計劃提前!6日,工信部向中國電信

2022-04-27 07:59
利用郭守敬望遠鏡,銀河系吞并矮星系發現新證

利用郭守敬望遠鏡,銀河系吞并矮星系發現新證

   (原標題:銀河系吞并矮星系發現新證)     郭守敬望遠鏡。受訪者供圖  銀河系的形成與演化是個令人著迷的科學問題。天文學界此

2022-04-27 04:26
80后科技新貴超高薪來襲,60后CEO相形見絀

80后科技新貴超高薪來襲,60后CEO相形見絀

   (原標題:80后科技新貴超高薪來襲,60后CEO相形見絀)    文 涌流商業   39歲的徐立,在上海交大完成本科和研究生學業后,到香

2022-04-27 02:11
主站蜘蛛池模板: 欧美日韩精品久久久免费观看| 天天综合中文字幕| 日韩视频在线一区| 久久伊人精品天天| 国产精品免费久久久久久| 日韩中文字幕一区二区| 国产日韩欧美亚洲一区| 99在线影院| 91精品在线观看视频| 久久人人爽人人爽人人片av高请| 欧美 日韩 国产在线| 国产精品免费久久久| 国产亚洲二区| 午夜精品久久久久久久男人的天堂 | 国产日韩中文在线| 国产精品精品视频| 日韩欧美精品一区二区三区经典| 亚洲精品国产一区| 亚洲专区在线视频| 欧美精品中文字幕一区二区| 欧美日韩999| 99视频免费观看| 国产mv久久久| 国产毛片久久久久久国产毛片| 91国在线精品国内播放| 久久国产成人精品国产成人亚洲| 久久97精品久久久久久久不卡| 久久久久国产视频| 亚洲精品中文字幕乱码三区不卡| 国产精品99久久久久久人| 91av在线国产| 国产欧美 在线欧美| 不卡伊人av在线播放| 中文字幕av日韩精品| 91精品视频播放| 日本一区二区在线播放| 国产精品久久77777| 欧美精品手机在线| 色婷婷综合成人av| 精品国产aⅴ麻豆| 国产精品专区在线|