四色草视频-四散的尘埃在线观看-四库国产精品成人-四虎最新网址入口-国产精品一区二区三区四区五区-国产精品一区二区三区四区

谷歌揭秘自家翻譯系統:如何利用AI技術提高翻譯質量

2020-06-13 17:19:12   來源:新浪科技   評論:0   [收藏]   [評論]
導讀:  對于機器翻譯來說,如果一門語言可用的文字資料越多,經過人工智能模型訓練出來的翻譯效果就越好。但并不是所有語言都具備豐富可用訓練的文字資料,這樣一來,如何在數據不多的情況下,訓練出更好的翻譯器,
  對于機器翻譯來說,如果一門語言可用的文字資料越多,經過人工智能模型訓練出來的翻譯效果就越好。但并不是所有語言都具備豐富可用訓練的文字資料,這樣一來,如何在數據不多的情況下,訓練出更好的翻譯器,成為機器翻譯領域里需要解決的問題之一。

  近日,谷歌在自己的博客上介紹了公司最新的翻譯創新技術,這些技術提升了谷歌翻譯的用戶體驗。目前谷歌翻譯可支持108種語言,平均每天翻譯1500億個單詞。

  谷歌翻譯最早亮相于2006年,在過去的13年間,翻譯水平有了重大飛躍。谷歌表示,其翻譯突破并不是由單一技術推動的,而是針對低資源語言、高資源語言、總體質量、推理速度等一系列技術組合的突破。在2019年5月到2020年5月之間,根據人工評估和BLEU(基于翻譯系統翻譯和人工參考翻譯之間相似性的衡量標準),谷歌翻譯在所有語言中平均提高了5分以上,在50種語料資源最少的語言中平均提高了7分以上。

  混合模型和數據挖掘器

  在這系列技術突破中,谷歌首先提到了混合模型和數據挖掘器。

  混合模型指的是由Transformer編碼器和遞歸神經網絡(RNN)解碼器構成的模型。在機器翻譯中,編碼器通常將單詞和短語編碼為內部表征,解碼器將其生成為所需要的語言文本。谷歌的研究人員在2017年稱首次提出,翻譯質量的提高主要依靠編碼器。谷歌團隊稱這可能是因為RNN和Transformer都設計為處理有序數據序列,但Transformers并不需要按順序處理序列。換句話說,如果所討論的數據是自然語言,則Transformer無需在處理結尾之前先處理句子的開頭。

  盡管如此,RNN解碼器在推理時間上仍然比Transformer中的解碼器要“快得多”。谷歌翻譯團隊認識到這一點,于是在將RNN解碼器與Transformer編碼器耦合之前,對RNN解碼器進行了優化,以創建低延遲、質量及穩定性均比此前所使用的RNN神經機器翻譯模型更勝一籌的混合模型。

  除了新穎的混合模型體系結構之外,谷歌還升級了爬蟲工具,爬蟲工具可以從數以百萬計的示例翻譯中收集編譯訓練數據。升級后,谷歌嵌入了14 種大語言對,而不是單純基于字典數據。也就是說它是使用實數向量來表示單詞和短語,更多地聚焦于精確性(檢索數據中的相關數據部分),而非檢索(實際檢索的相關數據總量)。產出效果方面,谷歌說這使得該數據挖掘器提取到的句子數量平均增加了29%。

  “嘈雜”的數據和遷移學習

  谷歌翻譯性能提升的另一個技術突破來自更好地處理訓練數據中的“噪聲”。“噪聲”即嘈雜的數據,因含有大量無法正確理解或解釋的信息數據,從而會損害語料資源豐富的語言翻譯。因此谷歌翻譯團隊部署了一個系統,該系統使用經過訓練的模型為翻譯示例分配分數,進而篩選出“純凈”的數據。實際上,這些模型一開始基于所有的數據進行訓練,然后逐漸基于更小、更純凈的數據子集進行訓練,這種方法在人工智能研究領域被稱為課程學習。

  對于機器翻譯來說,傳統上依賴于源語言和目標語言中成對句子的語料統計。對于資源較少的語言,谷歌在谷歌翻譯中采用了一個回譯機制,來強化并行訓練數據,即語言中的每個句子都與其譯文相配對。在該機制中,訓練數據與合成的并行數據自動對齊,目標文本為自然語言,而源文本則由神經翻譯模型生成。結果是,谷歌翻譯充分利用更豐富的單語文本數據來訓練模型,谷歌稱這對提高翻譯流暢性特別有幫助。

  此外,谷歌翻譯團隊還建了一個M4模型。M4模型由團隊在2019年提出,該模型對100多種語言的250億對句子進行訓練后,提高了30多種低資源語言的翻譯質量。這一模型也證明了在機器翻譯過程中可以使用遷移學習技術。這也意味著收集包括法語、德語和西班牙語,這些有數十億個并行示例的高資源語言,并進行訓練后,可以應用于翻譯諸如約魯巴語,信德語和夏威夷語,這些僅有數萬個示例的低資源語言。

  機器翻譯的未來

  谷歌稱,自2010年以來,翻譯質量每年都在提高,但是機器翻譯絕不是翻譯問題的“終結者”。 谷歌承認,即使是增強后的模型也容易出錯,包括將一種語言的不同方言混合在一起,產生過多的直譯,以及在特定主題,非正式或口語上的表現不佳。

  谷歌嘗試用不同的方法來解決上述的問題。公司曾發布一項計劃旨在招募志愿者,通過檢查翻譯單詞和短語是否正確來幫助提高低資源語言的翻譯性能。 今年2月份,谷歌翻譯與新興的機器學習技術相結合后就完成了進步,他們提供了僅有7500萬人使用的五種語言翻譯,例如Kinyarwanda(盧旺達語),Odia(奧里亞語),Tatar(韃靼語),Turkmen(土庫曼語)和Uyghur(維吾爾語)。

  追求真正通用翻譯的并不只有谷歌一家。在2018年8月,Facebook發布了一種AI模型,該模型結合了逐詞翻譯,語言模型和反向翻譯,在語言配對方面表現優異。最近,麻省理工學院計算機科學與人工智能實驗室的研究人員提出了一種無監督模型,即可以從未經明確標記或分類的測試數據中學習的模型,該模型可以在兩種語言的文本之間進行翻譯,而無需在兩種語言之間直接進行翻譯。

分享到:
責任編輯:zsz

網友評論