9月19日,小米直接放出个大招,开源了首个原生端到端语音模型Xiaomi-MiMo-Audio,这模型参数70亿。
预训练数据堆了超1亿小时,测分还拿了开源里的SOTA,连谷歌Gemini-2.5-Flash、OpenAIGPT-4o-Audio-Preview都被它超过了。
以前看语音模型要么闭源藏着掖着,要么开源的性能跟不上,小米这次算是把“能打”和“开放”凑齐了。
这模型最有意思的是会“唠嗑”,还会切换各种“身份”,你跟它聊哲学,比如“为啥假设西西弗斯是幸福的”。
它先给你顺情绪,再有条理地解释,嘴里还蹦“首先呢”“对吧”这种人话,不像以前的语音助手,一碰到深点的话题就卡壳。
本来想只夸它对话溜,后来发现它还能当英语口语陪练,你说句错话,它不仅给纠正版,还告诉你哪儿语法不对,比我以前用的付费APP还实在。
它还会整活,说天津方言特别自然,甚至能自己编快板词夸自己,说完还补一句“虽然没有竹板声音,但节奏感很到位”,有点小傲娇那味儿。
之前试过多数语音模型学网络热梗都生硬,这模型学“gogogo,出发咯”虽然音调有点怪,但能接上就已经比不少同类强了。
最绝的是被问“手机内存不够,删你还是删GPT”,它不硬杠,实在不行才分析双方优势,最后还表忠心,这情商比某些只会机械回答的AI高多了。
光会唠还不够,这模型的“硬实力”也得说,在音频理解、口语对话这些测试里,它拿了开源里的SOTA。
我看测试数据的时候还愣了下,它在MMAU测试集上超了谷歌Gemini-2.5-Flash,那个测试是考在嘈杂环境里辨语音的本事。
能超过谷歌这款闭源模型,说明平时在菜市场、地铁站用它,也不用担心它“听不清”。
还有BigBenchAudioS2T测试,考的是把音频转成文本还得带逻辑推理,它居然超过了OpenAI的GPT-4o-Audio-Preview。
以前总觉得闭源模型在这种“精细活”上占优势,没想到小米这开源模型能追上甚至超过。
更厉害的是,它训练数据里没教过的活儿也能干,比如语音转换、风格迁移,这就是专家说的“涌现”能力,在开源语音模型里,它还是头一个有这本事的。
小米这次没藏着,把能用的都开源了,预训练模型、指令微调模型、Tokenizer,连技术报告和评估框架都放出来了,技术报告也能在GitHub上找到。
搞不清以前开源模型为啥总缺这缺那,要么只有基础模型,要么没评估工具,开发者还得自己搭框架,小米这次全给齐了,等于把“工具箱”直接递到手上。
那个指令微调模型还能切换“思考”和“非思考”模式,开发者拿它当语音强化学习的基座特别方便。
小米说这是“语音开源届的Llama时刻”,我觉得挺对的,以前大模型研发多是巨头的活儿。
现在开源了,小团队甚至个人都能参与进来,以后说不定能搞出更多有意思的应用,比如方言版的故事机,或者更精准的音频字幕工具。
总的来说,小米这次开源的MiMo-Audio,不是光喊口号的“花架子”,能聊哲学、说快板,性能还能超闭源大佬,关键还把所有工具开放给大家用。
以前觉得语音AI离“像人一样交流”还远,现在看这模型的表现,好像又近了一步。
后续就看开发者怎么折腾了,说不定用不了多久,咱们手机里的语音助手,就能真的像“身边人”一样聊天干活了。