欧美三级不卡/成人97视频/四虎成人精品永久免费av九九 /国产一区二区精品91 - 成人三级在线播放

小米聲音理解大模型 MiDashengLM-7B 發布并全量開源

2025-08-04 14:05:30   |   弘樂   |   1756

8月4日,小米自研聲音理解大模型 MiDashengLM-7B 今日正式發布,并全量開源。據小米官方介紹,MiDashengLM-7B 速度精度上實現雙突破:單樣本首 Token 延遲僅為同類模型 1/4、同顯存下并發超 20 倍,在 22 個公開評測集上刷新多模態大模型最好成績(SOTA)。

據報道,MiDashengLM-7B 基于 Xiaomi Dasheng 作為音頻編碼器和 Qwen2.5-Omni-7B Thinker 作為自回歸解碼器,通過創新的通用音頻描述訓練策略,實現了對語音、環境聲音和音樂的統一理解。2024 年,小米發布的 Xiaomi Dasheng 聲音基座模型在國際上首次突破 AudioSet 50+ mAP,在 HEAR Benchmark 環境聲、語音、音樂三大領域建立領先優勢并保持至今。

Xiaomi Dasheng 在小米的智能家居和汽車座艙等場景有超過 30 項落地應用。行業首發的車外喚醒防御、手機音箱全天候監控異常聲音、“打個響指”環境音關聯 IoT 控制能力,以及小米 YU7 上搭載的增強哨兵模式劃車檢測等,背后都有 Xiaomi Dasheng 作為核心算法的賦能。MiDashengLM 的訓練數據由 100% 的公開數據構成,模型以寬松的 Apache License 2.0 發布,同時支持學術和商業應用。小米表示,不同于 Qwen2.5-Omni 等未公開訓練數據細節的模型,MiDashengLM 完整公開了 77 個數據源的詳細配比,技術報告中詳細介紹了從音頻編碼器預訓練到指令微調的全流程。

作為小米“人車家全生態”戰略的關鍵技術,MiDashengLM 通過統一理解語音、環境聲與音樂的跨領域能力,不僅能聽懂用戶周圍發生了什么事情,還能分析發現這些事情的隱藏含義,提高用戶場景理解的泛化性。

基于 MiDashengLM 的模型通過自然語言和用戶交互,為用戶提更人性化的溝通和反饋,比如在用戶練習唱歌或練習外語時提供發音反饋并制定針對性提升方案,又比如在用戶駕駛車輛時實時對用戶關于環境聲音的提問做出解答。

MiDashengLM 以 Xiaomi Dasheng 音頻編碼器為核心組件,是 Xiaomi Dasheng 系列模型的重要升級。在當前版本的基礎上,小米已著手對該模型做計算效率的進一步升級,尋求終端設備上可離線部署,并完善基于用戶自然語言提示的聲音編輯等更全面的功能。

特別提醒:本網信息來自于互聯網,目的在于傳遞更多信息,并不代表本網贊同其觀點。其原創性以及文中陳述文字和內容未經本站證實,對本文以及其中全部或者部分內容、文字、圖片等內容的真實性、完整性、及時性本站不作任何保證或承諾,請自行核實相關內容。本站不承擔此類作品侵權行為的直接責任及連帶責任。如若本網有任何內容侵犯您的權益,請及時發送相關信息至bireading@163.com,本站將會在48小時內處理完畢。

小米聲音理解大模型 MiDashengLM-7B 發布并全量開源

2025-08-04 14:05:30 瀏覽量: 1756 作者: 弘樂

8月4日,小米自研聲音理解大模型 MiDashengLM-7B 今日正式發布,并全量開源。據小米官方介紹,MiDashengLM-7B 速度精度上實現雙突破:單樣本首 Token 延遲僅為同類模型 1/4、同顯存下并發超 20 倍,在 22 個公開評測集上刷新多模態大模型最好成績(SOTA)。

據報道,MiDashengLM-7B 基于 Xiaomi Dasheng 作為音頻編碼器和 Qwen2.5-Omni-7B Thinker 作為自回歸解碼器,通過創新的通用音頻描述訓練策略,實現了對語音、環境聲音和音樂的統一理解。2024 年,小米發布的 Xiaomi Dasheng 聲音基座模型在國際上首次突破 AudioSet 50+ mAP,在 HEAR Benchmark 環境聲、語音、音樂三大領域建立領先優勢并保持至今。

Xiaomi Dasheng 在小米的智能家居和汽車座艙等場景有超過 30 項落地應用。行業首發的車外喚醒防御、手機音箱全天候監控異常聲音、“打個響指”環境音關聯 IoT 控制能力,以及小米 YU7 上搭載的增強哨兵模式劃車檢測等,背后都有 Xiaomi Dasheng 作為核心算法的賦能。MiDashengLM 的訓練數據由 100% 的公開數據構成,模型以寬松的 Apache License 2.0 發布,同時支持學術和商業應用。小米表示,不同于 Qwen2.5-Omni 等未公開訓練數據細節的模型,MiDashengLM 完整公開了 77 個數據源的詳細配比,技術報告中詳細介紹了從音頻編碼器預訓練到指令微調的全流程。

作為小米“人車家全生態”戰略的關鍵技術,MiDashengLM 通過統一理解語音、環境聲與音樂的跨領域能力,不僅能聽懂用戶周圍發生了什么事情,還能分析發現這些事情的隱藏含義,提高用戶場景理解的泛化性。

基于 MiDashengLM 的模型通過自然語言和用戶交互,為用戶提更人性化的溝通和反饋,比如在用戶練習唱歌或練習外語時提供發音反饋并制定針對性提升方案,又比如在用戶駕駛車輛時實時對用戶關于環境聲音的提問做出解答。

MiDashengLM 以 Xiaomi Dasheng 音頻編碼器為核心組件,是 Xiaomi Dasheng 系列模型的重要升級。在當前版本的基礎上,小米已著手對該模型做計算效率的進一步升級,尋求終端設備上可離線部署,并完善基于用戶自然語言提示的聲音編輯等更全面的功能。

,

Copyright ©2018 鉍讀網 All Rights Reserved.

京ICP備18051707號

京公網安備 11011302001633號