自打GPT-image推出以后,人们衡量生图模型的能力就从简单的“以假乱真”进化到了“融合稳定”,尤其是对于图片中的元素的融合、修改、创作,都提出了新的要求。Flux、Qwen、字节Seedance等模型在自然语言支持和生成图像的细腻性都打出了不俗的表现。而在上周,Google正式推出了代号为“NanoBanana”的生图模型,把图像融合和编辑的稳定性又提升了一个台阶。
NanoBanana的正式名称是Gemini-2.5-flash-image,是Gemini多模态模型家族的一员。因此,依托Gemini的语言理解能力,它对自然语言提示词的支持自然是没得说(实测对英文支持更佳)。另外,Google大善人目前对NanoBanana的收费政策是:API收费(成本大约3美分一张图),Google AI Studio网页版本完全免费!
卷!请继续卷!

除了费用之外,令人啧啧称道的是NanoBanana的用户指令理解和生图稳定性。作为一个图像编辑模型,它必须要按照用户要求、保留既定元素、修改指定元素。比起多数模型会出现的随机性,NanoBanana在稳定性方面非常优秀,尤其保持脸容、动作等方面,基本没有抽卡的问题!而且它的生成速度非常快,一般的更换元素图片,只需要不到20秒就能生成(非繁忙时段更快),而生成比较复杂的图片(包括复杂指令)也在2分钟以内完成指令推理和生图的全过程!上线仅一周,它就击败了霸榜近3个月的Flux Kontext,拿下了LM Arena的图像编辑模型排行榜第一位。


我们来做一些小测试,看看这个“纳米香蕉”模型有什么厉害。大家留意脸容、动作和其他原有元素的稳定性。以下所有图片均是一次生成,无抽卡环节。
测试一:元素添加



测试二:换装 测试三:换背景 测试四:换动作【王炸级别】
测试五:增加多种元素


测试六:最近非常火的3D等身手办【王炸级别】


国内用户的使用渠道
目前NanoBanana的官网(Google AI Studio)使用是完全免费且无限token,非常良心。国内用户如果没有Google账户或网络环境不佳,除了各大中转站外,小编在这里推荐使用文首提到的LM Arena(实测国内环境可连)(https://lmarena.ai)。
-
登录网站后,在首页上方的选项(默认是Battle)更改为Direct Chat。
-
在下方对话框中,选中“Generate images”
-
这样就可以在上方的模型选择菜单中选用nanobanana(gemini-2.5-flash-image-preview)啦!
-
除了nanobanana之外,还可以体验国内外主流(以及部分非主流)的文字和图片大模型呢!希望大家玩得愉快哦!



END
本篇文章来源于微信公众号: AI x G-Race
文章评论