文:奇史怪谈
编辑:奇史怪谈
谷歌新AI实测,NanoBananaPro不止会画图,还能当"推理大师"?
谷歌最近在AI圈动作频频,前脚刚推出Gemini3和Antigravity,后脚就把NanoBananaPro塞进了VertexAI。
这款名叫gemini-3-pro-image-preview的模型,本来以为只是个普通生图工具,实测一圈下来才发现,这货已经悄悄解锁了"推理技能"。
我第一个测试就玩了把大的,让科技圈五大巨头和二次元角色开视频会议。
提示词里写得明明白白,要Zoom风格的界面,六个参会者各有各的造型和表情,还特意让二次元角色转头右上方。
一开始真没抱太高期待,马斯克、扎克伯格这些人都是大众脸,稍微画偏一点就会穿帮。
结果NanoBananaPro交出的答卷相当惊喜,每个人的特征都抓得很准,SamAltman的专注、马斯克的浅笑,连SundarPichai的黑框眼镜和胡子都还原到位了。
更有意思的是跨次元融合,二次元角色没有被强行改成写实风,保留着自己的二维质感,放在真实会议画面里居然不违和。
最让我意外的是那个转头指令,本来想测试它会不会敷衍了事,结果它不仅让角色转了头,还懂视频会议是镜像的,从我们视角看,角色其实是转向左上方。
更绝的是细节补充,每位CEO身后都加上了对应公司的logo,右下角聊天框里的内容也和他们的身份匹配,连拼写错误都没有。
这哪是生图啊,简直是在还原一个真实的会议场景。
玩完跨次元,我又测试了它的文字处理能力,让它生成英、中、日、俄四种语言的菜单。
每种菜单都指定了版式、风格和分类,比如川菜菜单要标注"招牌川菜""热菜",还要有辣椒、花椒的小插画。
从整体效果看,NanoBananaPro的排版能力没话说,川菜菜单的"大正宗川味小馆"标题很有那味儿,分类也完全按照提示词来。
日本居酒屋菜单的"おすすめ""焼き物"等标题规范,俄罗斯菜单的字体和插画也贴合传统风格。
但只要凑近了看文字细节,AI的马脚就露出来了,川菜菜单里,"蒜泥"两个字模糊不清,58元的菜品名称直接认不出是什么。
这短板也太明显了,它能完美还原提示词里的文字,但自己生成的文字就没谱了。
为了验证这个想法,我把完整的川菜菜单文字都写进提示词,结果生成的菜单虽然部分字体有点虚,但所有菜品名称和价格都准确还原了。
看来文字生成这块,它还得再修炼修炼。
既然文字测试里用到了川菜菜单,我干脆再考考它中国独有的文化场景,先让它给一只手看手相,再问它"对肾好该按哪里"。
看手相的结果有点意思,NanoBananaPro确实画出了生命线、感情线和智慧线,像模像样的,但仔细一看,智慧线和感情线居然画反了。
这就有点尴尬了,看来它对中医手相的深层逻辑还没吃透。
不过足底穴位的测试倒是挽回了一局,它明确指出对肾好要按涌泉穴,还精准标注了穴位位置,这波常识储备值得点赞。
如此看来,NanoBananaPro对中国文化的理解处于"一知半解"的状态,能get到核心知识点,但细节上容易出错。
这可能和训练数据有关,毕竟中医穴位、手相这类文化内容,需要更精准的标注才能保证生成质量。
最后我突发奇想,既然它能理解场景和常识,会不会还能处理逻辑问题?于是找了两道初中数学题,一道代数题一道几何题,让它生成解题过程。
本来想的是,生图模型做数学题大概率是瞎蒙,无奈本人数学早就还给老师了,只好请GPT5来当裁判。
结果让我大吃一惊,代数题在默认实数条件下解答完全成立,几何题的答案也和GPT5的计算结果一致。
毫无疑问,这是这次测试最意外的收获,传统生图模型只懂像素拼接,而NanoBananaPro已经能理解数学逻辑,先在脑子里算出答案,再把解题过程画出来。
这种"推理+生成"的模式,已经超出了普通生图工具的范畴,整体测下来,NanoBananaPro让我看到了AI生图的新可能。
它既能精准还原人物、场景细节,又能理解语义逻辑、文化常识,甚至还能解数学题,但它也不是完美的,文字生成、文化细节等方面还有明显短板。
说到底,这款模型的核心突破在于"不再机械生成,而是学会思考",它正在搭建一个粗糙的世界观,知道谁属于哪个公司,菜单该是什么版式,数学题该怎么解答。
虽然现在还有不少bug,但这种进化方向很值得期待。
不知道您对此有什么看法呢?欢迎在下方评论区留下你的想法,喜欢文章记得点赞关注我们下期再见。