最近,一款名为 Nano Banana 的匿名模型悄然出现在海外AI测评平台 LMArena。
没有开发者信息,没有品牌背书,甚至连模型描述都极为简略。唯一留下的,仅仅是一个看似玩笑的代号:“Nano Banana”。
但就是这根“香蕉”,在上线后不到一周内,在图像一致性、编辑能力等多个维度,连续击败多款知名AI模型,被网友称作“Photoshop杀手”。短短几天时间,它的热度已经成为AI圈中讨论最激烈的焦点。
八月底,谷歌终于解释了这个谜题。通过官方渠道确认,Nano Banana是他们新一代图像生成与编辑模型 Gemini 2.5 Flash Image 的实验版本。
但网友真正关心的并不是这个——而是Nano Banana背后所代表的AI图像技术的转折点。
很多人第一次接触Nano Banana,用户只需要上传一张包含多个物品的图像,配上简短的文字指令,模型就能生成一张构图很合理的图片。
一位用户分享了自己的操作:上传13个物品,配上一个场景描述,Nano Banana生成了一张堪比VOGUE风格的大片。即使指令中有模糊表达,模型也能精准修改,不破坏整体风格。
这在以前是很难做到的。Midjourney、DALL·E等平台虽然生成效果很好,但对文字理解能力不够,但凡复杂的需求就得用户反复尝试。而Nano Banana的优势,就是能理解、生成和修改。
Nano Banana表现这么好不是没有原因的。它不是在传统单模态架构下打磨出来的“美图工具”,而是从训练阶段就采用了文本、图像、代码等多种模态输入,共同学习。
这让模型在面对混合输入时,不再需要“翻译”或“适配”,直接就能理解然后回复。这也解决了过去AI图像生成中最头疼的问题之一——一致性。
传统模型在生成一组人物图时,常常出现“每张图的人都不太一样”的问题。但Nano Banana可以在多个场景中保持人物特征不变,就算用户没有重复描述也可以。
这一点在漫画分镜、广告系列图设计中非常重要。
Nano Banana的走红,很大程度上是因为用户社区的积极参与。从穿搭推荐、手办建模,到建筑图还原、地图三维建模,用户不断解锁新玩法,推动模型能力。
在电商场景中,Nano Banana也开始被用作模特图生成工具。上传服装图和基本人物照片,模型便可生成不同姿态、不同背景的试穿图。这对于中小商家来说,不仅节省成本,更大幅缩短了产品上线时间。
Nano Banana的爆发,已经引发连锁反应。谷歌公布模型当天,Adobe股价下跌约2%。在过去一年,Adobe因AI工具冲击,已累计下跌超过35%。
一位电商模特表示,自己每天拍摄收入在1500元左右,但现在商家已经开始试用AI图像代替真人拍摄。“如果效果越来越好,我可能就没有这个工作了。”
Nano Banana的热度虽然不一定能长期维持,但它引发的话题却不会那么快过去。它不是又一个“AI热词”,而是完整的技术跳跃和产业信号释放。
当AI从“文本生成”进入“图像理解”,从“模型能力”走向“产品闭环”,我们面临的不只是新工具,而是新范式。