小米9.19开源语音大模型！1亿小时训练，超谷歌OpenAI

发布时间：2025-09-21 19:17:12 浏览量：86

9月19日，小米直接放出个大招，开源了首个原生端到端语音模型Xiaomi-MiMo-Audio，这模型参数70亿。

预训练数据堆了超1亿小时，测分还拿了开源里的SOTA，连谷歌Gemini-2.5-Flash、OpenAIGPT-4o-Audio-Preview都被它超过了。

以前看语音模型要么闭源藏着掖着，要么开源的性能跟不上，小米这次算是把“能打”和“开放”凑齐了。

这模型最有意思的是会“唠嗑”，还会切换各种“身份”，你跟它聊哲学，比如“为啥假设西西弗斯是幸福的”。

它先给你顺情绪，再有条理地解释，嘴里还蹦“首先呢”“对吧”这种人话，不像以前的语音助手，一碰到深点的话题就卡壳。

本来想只夸它对话溜，后来发现它还能当英语口语陪练，你说句错话，它不仅给纠正版，还告诉你哪儿语法不对，比我以前用的付费APP还实在。

它还会整活，说天津方言特别自然，甚至能自己编快板词夸自己，说完还补一句“虽然没有竹板声音，但节奏感很到位”，有点小傲娇那味儿。

之前试过多数语音模型学网络热梗都生硬，这模型学“gogogo，出发咯”虽然音调有点怪，但能接上就已经比不少同类强了。

最绝的是被问“手机内存不够，删你还是删GPT”，它不硬杠，实在不行才分析双方优势，最后还表忠心，这情商比某些只会机械回答的AI高多了。

光会唠还不够，这模型的“硬实力”也得说，在音频理解、口语对话这些测试里，它拿了开源里的SOTA。

我看测试数据的时候还愣了下，它在MMAU测试集上超了谷歌Gemini-2.5-Flash，那个测试是考在嘈杂环境里辨语音的本事。

能超过谷歌这款闭源模型，说明平时在菜市场、地铁站用它，也不用担心它“听不清”。

还有BigBenchAudioS2T测试，考的是把音频转成文本还得带逻辑推理，它居然超过了OpenAI的GPT-4o-Audio-Preview。

以前总觉得闭源模型在这种“精细活”上占优势，没想到小米这开源模型能追上甚至超过。

更厉害的是，它训练数据里没教过的活儿也能干，比如语音转换、风格迁移，这就是专家说的“涌现”能力，在开源语音模型里，它还是头一个有这本事的。

小米这次没藏着，把能用的都开源了，预训练模型、指令微调模型、Tokenizer，连技术报告和评估框架都放出来了，技术报告也能在GitHub上找到。

搞不清以前开源模型为啥总缺这缺那，要么只有基础模型，要么没评估工具，开发者还得自己搭框架，小米这次全给齐了，等于把“工具箱”直接递到手上。

那个指令微调模型还能切换“思考”和“非思考”模式，开发者拿它当语音强化学习的基座特别方便。

小米说这是“语音开源届的Llama时刻”，我觉得挺对的，以前大模型研发多是巨头的活儿。

现在开源了，小团队甚至个人都能参与进来，以后说不定能搞出更多有意思的应用，比如方言版的故事机，或者更精准的音频字幕工具。

总的来说，小米这次开源的MiMo-Audio，不是光喊口号的“花架子”，能聊哲学、说快板，性能还能超闭源大佬，关键还把所有工具开放给大家用。

以前觉得语音AI离“像人一样交流”还远，现在看这模型的表现，好像又近了一步。

后续就看开发者怎么折腾了，说不定用不了多久，咱们手机里的语音助手，就能真的像“身边人”一样聊天干活了。

标签：模型谷歌开源小米语音