人類有超過7000種語言,其中包括使用人數不多、相關資料稀少的“小眾語言”。美國“元”公司新研發的一個人工智能模型,能翻譯200種不同語言,實現了對較多“小眾語言”在線翻譯。
人工智能翻譯目前多利用基于人工神經網絡的模型翻譯各種語言。這些模型通常需要大量可在線獲取的訓練數據。不過,有些特定語言的數據尚不能公開和低成本獲取或普遍可及,這類語言又被稱為“低資源語言”。
“元”公司團隊新研發的一種跨語言技術,能讓基于人工神經網絡的翻譯模型學習如何利用已有的翻譯高資源語言的能力來翻譯低資源語言。團隊應用該技術開發了一個名為NLLB-200的在線多語言翻譯工具,可容納200種語言,其能翻譯的低資源語言的數量是高資源語言數量的3倍。這一研究成果近期發表在英國《自然》雜志上。