谷歌发布Gemini Embedding 2模型，支持多模态交错输入

发布时间：2026-03-11 10:09:19 浏览量：52

日前，谷歌正式发布 Gemini Embedding 2 模型并开启公开预览，这是谷歌首款基于 Gemini 架构打造的原生多模态嵌入模型。该模型实现了文本、图像、视频、音频与文档的统一嵌入处理，简化了复杂的处理流程，可以增强RAG、语义搜索等应用的能力。

在多模态处理能力上，Gemini Embedding 2 有着明确的规格支持：文本输入上下文可达 8192 个token，单次请求可处理 6 张 PNG/JPEG 图片，还支持120 秒 MP4/MOV 视频输入，能原生处理音频数据无需转录，还可直接嵌入 6 页以内的 PDF 文档。

此外，模型支持多模态交错输入，比如图片和文本一起输入，因此它可精准捕捉不同媒体间的复杂关联，贴合真实世界的复杂数据场景。

模型还融入套娃表征学习（Matryoshka Representation Learning，MRL），输出维度可从默认 3072 动态缩放，开发者可根据需求平衡性能与存储成本，谷歌推荐 3072、1536、768 维度以保障处理质量。

在性能上，该模型树立了多模态嵌入新标杆，语音处理能力突出，在文本、图像、视频相关任务中表现优于同类主流模型。

谷歌表示，目前已有 Everlaw、Sparkonomy 等企业成为早期合作伙伴，利用 Gemini Embedding 2 在法律检索、创作者经济等领域实现了体验升级。开发者可通过，可通过 Gemini API 和 Vertex AI 访问该模型，谷歌也提供了代码示例和交互笔记，助力开发者快速开展多模态 AI 应用构建。

标签：谷歌模态 gemini geminiembedding

相关资讯更多>>
分析师：美国司法部拆分谷歌的提议正中命门但成功几率不大

10-10 19:41
强制谷歌交出私有AI模型数据？美政府要对谷歌进行重大拆分

10-10 19:42
谷歌Pixel 9 Pro XL手机被曝存在严重安全问题，非法获取用户信息

10-10 19:20
谷歌谴责美国司法部提出的“激进”分拆计划

10-10 18:43
谷歌的非法搜索垄断：行业反应、影响

10-10 18:43
面对AI作图的日渐流行，谷歌想让相册应用提示照片是否经过AI处理

10-10 18:27
美国司法部考虑拆分谷歌

10-10 17:49
什么是ASO评论管理：管理苹果和谷歌应用商店评论的指南

10-10 15:44