Meta 的開源語音 AI 可識別 4,000 多種口頭語言
5月23日,據外媒報道,Meta 創建的AI 語言模型(MMS) 項目可以識別 4,000 多種口頭語言并生成 1,100 多種語音(文本到語音)。與大多數其他公開宣布的AI 項目一樣,Meta 今天正在開源 MMS,以幫助保護語言多樣性并鼓勵研究人員在其基礎上進行構建。“今天,我們公開分享我們的模型和代碼,以便研究界的其他人可以在我們的工作基礎上進行構建,”該公司表示。“通過這項工作,我們希望為保護世界上令人難以置信的語言多樣性做出一點貢獻。”
語音識別和文本轉語音模型通常需要對數千小時的音頻進行訓練,并附帶轉錄標簽。但對于一些口頭語言在未來幾十年有消失的危險。“這數據根本不存在,”正如 Meta 所說。Meta 使用了一種非常規的方法來收集音頻數據:利用翻譯宗教文本的錄音。該公司表示:“我們轉向宗教文本,例如圣經,這些文本已被翻譯成多種不同的語言,并且其譯文已被廣泛研究用于基于文本的語言翻譯研究。” “這些翻譯有公開的錄音,人們用不同的語言閱讀這些文本。” 結合圣經和類似文本的未標記錄音,Meta 的研究人員將模型的可用語言增加到 4,000 多種。
Meta 表示,“我們認為這是因為我們使用了連接主義時間分類 (CTC) 方法,與用于語音識別的大型語言模型 (LLM) 或序列到序列模型相比,這種方法受到的限制要大得多。” 在訓練了一個對齊模型以使數據更有用之后,Meta 使用了公司的“自監督語音表示學習”模型 wav2vec 2.0,它可以在未標記的數據上進行訓練。結合非常規數據源和自我監督的語音模型產生了令人印象深刻的結果。“我們的結果表明,與現有模型相比,大規模多語言語音模型表現良好,覆蓋的語言數量是現有模型的 10 倍。” 具體來說,Meta 將 MMS 與OpenAI 的 Whisper進行了比較,結果超出了預期。“我們發現,在 Massively Multilingual Speech 數據上訓練的模型實現了一半的單詞錯誤率,但 Massively Multilingual Speech 涵蓋的語言是原來的 11 倍。”
Meta 警告說它的新模型并不完美。該公司寫道:“例如,語音轉文本模型可能會錯誤轉錄選定的單詞或短語,這存在一定風險。” “根據輸出結果,這可能會導致攻擊性和/或不準確的語言。我們仍然相信,整個 AI 社區的協作對于負責任地開發 AI 技術至關重要。”既然 Meta 已經發布了用于開源研究的 MMS,它希望它能夠扭轉技術將世界語言減少到 100 種或更少的趨勢,這些語言是大技術公司最常支持的。它看到了一個輔助技術、TTS 甚至 VR/AR 技術讓每個人都能用母語說話和學習的世界。它說,“我們設想一個技術具有相反效果的世界,鼓勵人們保持他們的語言的活力,因為他們可以通過說他們喜歡的語言來獲取信息和使用技術。”