微軟推出首批自研AI模型:語音生成進入“秒級”時代
8月29日,微軟人工智能部門于本周四正式發布其首批兩款自研AI模型——MAI-Voice-1語音合成模型與MAI-1-preview通用語言模型。這一發布被視為微軟在AI領域從依賴合作伙伴走向自主創新的重要標志,兩款模型分別瞄準語音生成與智能文本交互兩大核心場景。
MAI-Voice-1展現出卓越的語音生成效率,僅需單塊GPU即可在1秒內生成長達1分鐘的高質量音頻,極大降低了語音合成任務的計算門檻和響應時間。該模型目前已投入實際應用,例如在“Copilot Daily”功能中擔任AI新聞主播,為用戶播報當日熱點,還可生成自然流暢的播客風格對話內容,輔助用戶理解各類話題。普通用戶現可通過Copilot Labs平臺親身體驗該模型,在輸入文本內容的同時,還可自由調整語音的音色、語調和風格,實現高度個性化的語音輸出。
同步推出的MAI-1-preview是一款經大規模訓練的語言模型,其訓練過程動用了約1.5萬塊英偉達H100 GPU。該模型專注于指令理解與實用回應生成,被定位為Copilot未來文本功能演進的關鍵技術基礎。微軟AI負責人穆斯塔法·蘇萊曼曾在訪談中透露,公司自研模型的核心目標并非企業級應用,而是打造真正優質的消費者產品,充分利用微軟在消費者行為數據和廣告業務中積累的信息優勢,構建更貼近用戶需求的“伙伴型”AI。
據悉,MAI-1-preview將逐步應用于Copilot助手的特定文本場景中,在一定程度上減少對OpenAI大型語言模型的依賴。該模型已在AI基準測試平臺LMArena開放公共測試,用于進一步優化其指令遵循與多輪對話能力。
微軟AI團隊在官方博文中表示,“我們擁有清晰的長期規劃,未來將持續推動自研模型的技術突破。我們堅信,通過一系列面向不同場景的專業化模型組合,將為用戶創造真正差異化的價值!