新闻资讯-歌剧话剧

谷歌申请使用多阶段聚类加速说话者分类专利,聚类到相应类的说话者片段被指派相应说话者标签

发布时间:2025-06-07 11:32:10  浏览量:18

金融界2025年6月7日消息,国家知识产权局信息显示,谷歌有限责任公司申请一项名为“使用多阶段聚类加速说话者分类”的专利,公开号CN120112993A,申请日期为2022年10月。

专利摘要显示,一种方法(500)包括接收与由多个说话者说出的话语(120)相对应的输入音频信号(122)。该方法还包括处理输入音频以生成话语的转录(200)和说话者轮换标记(224)序列,每个说话者轮换标记指示相应说话者轮换的位置。该方法还包括基于说话者标记序列将输入音频信号分段成多个说话者片段(225)。该方法还包括从每个说话者片段中提取说话者辨别性嵌入,以及对说话者辨别性嵌入执行谱聚类以将多个说话者片段聚类为k个类。该方法还包括为聚类到相应类中的每个说话者片段指派相应说话者标签(250),该说话者标签不同于为聚类到k个类中的每个其他类中的说话者片段指派的相应说话者标签。

标签: 谷歌 说话 专利 音频信号 聚类
sitemap