日前,谷歌正式发布 Gemini Embedding 2 模型并开启公开预览,这是谷歌首款基于 Gemini 架构打造的原生多模态嵌入模型。该模型实现了文本、图像、视频、音频与文档的统一嵌入处理,简化了复杂的处理流程,可以增强RAG、语义搜索等应用的能力。
在多模态处理能力上,Gemini Embedding 2 有着明确的规格支持:文本输入上下文可达 8192 个token,单次请求可处理 6 张 PNG/JPEG 图片,还支持120 秒 MP4/MOV 视频输入,能原生处理音频数据无需转录,还可直接嵌入 6 页以内的 PDF 文档。
此外,模型支持多模态交错输入,比如图片和文本一起输入,因此它可精准捕捉不同媒体间的复杂关联,贴合真实世界的复杂数据场景。
模型还融入套娃表征学习(Matryoshka Representation Learning,MRL),输出维度可从默认 3072 动态缩放,开发者可根据需求平衡性能与存储成本,谷歌推荐 3072、1536、768 维度以保障处理质量。
在性能上,该模型树立了多模态嵌入新标杆,语音处理能力突出,在文本、图像、视频相关任务中表现优于同类主流模型。
谷歌表示,目前已有 Everlaw、Sparkonomy 等企业成为早期合作伙伴,利用 Gemini Embedding 2 在法律检索、创作者经济等领域实现了体验升级。开发者可通过,可通过 Gemini API 和 Vertex AI 访问该模型,谷歌也提供了代码示例和交互笔记,助力开发者快速开展多模态 AI 应用构建。