第一时间捕获有价值的信号
本文译自 Google Nano Banana 2 vs ByteDance Seedream 5.0 Lite: Which AI Image Generator Is Best?。文章对谷歌 Nano Banana 2(Gemini 3.1 Flash Image)与字节跳动 Seedream 5.0 Lite 进行了全面实测对比,两款模型均引入生成前多步推理能力,在复杂提示词处理、参考图片和扩展编辑工作流上表现亮眼。
核心要点
- 两款模型均在图像生成前引入多步推理,相比早期扩散系统能更可靠地处理复杂提示词、参考图片和扩展编辑工作流。
- Seedream 在价格上更具优势,支持本地运行和真实图片编辑;Nano Banana 则深度整合进谷歌消费者和企业生态系统。
- 测试显示,Seedream 在多轮编辑中更好地保留角色身份和空间一致性;Nano Banana 输出更快,图像内文字渲染效果更佳。
本周,两款当前最强大的 AI 图像模型在短短几天内相继发布,有望重塑用户创作内容的方式。
Nano Banana 2——谷歌对 Gemini 3.1 Flash Image 的内部代号——于 2 月 26 日发布,几乎立即主导了 AI 领域的讨论。它是 Nano Banana Pro 的继任者,后者在 2025 年 11 月发布后成为 AI 图像编辑的黄金标准。而字节跳动图像生成产品线的最新产品 Seedream 5 Lite 则在几天前发布。
前者伴随着谷歌营销机器的大肆宣传,后者则几乎没有新闻稿就悄悄问世。尽管报道差距巨大,但能力差距却更小。
为什么这很重要?
两款模型都围绕同一个核心架构理念构建:让图像生成器在绘制前先思考。
这意味着在生成开始前集成实时网络搜索,以及多步思维链推理来解释复杂或模糊的提示词,以及在扩展编辑工作流中处理参考图片的能力。
这与一年前的生成模型相比是真正的转变,当时 Stable Diffusion 被广泛认为是革命性的。
两款模型都输出高达 4K 分辨率。都支持多图片参考输入以保持一致性。都能在单个会话中保持角色和物体的视觉连贯性。
都能在图像中生成风格化、清晰可辨的文字,尽管效果不尽相同。两者都进入了一个已经包含 OpenAI 的 GPT Image 1.5、Black Forest Labs 的 Flux.2,以及价格和灵活性上竞争激烈的中国模型目录的市场。
但对于最终用户来说哪个选项最好?我们测试了两款模型来帮助找到答案。
技术与价格对比
价格差距是首先要了解的。
谷歌通过 Gemini API 为 Nano 定价为每百万输出图像 token 60 美元。实际使用中,这分解为 512px 图像约 0.045 美元,1K 分辨率 0.067 美元,2K 0.101 美元,4K 0.151 美元。
Seedream 每幅图像统一收费 0.035 美元,无论输出分辨率如何,因此在任何 512px 以上的任何尺寸,Seedream 都是更便宜的选择。
在 4K 时,Nano 每幅图像的成本是四倍多。对于大批量生产流水线,这会迅速累积。
可用性遵循完全不同的分发路径。Nano 在谷歌的完整消费者和开发者生态系统中上线,包括 Gemini 应用、谷歌搜索 AI 模式、谷歌镜头、AI Studio、Vertex AI 以及用于视频创作的 Google Flow。它嵌入在数亿人已经日常使用的基础设施中。
Seedream 通过字节跳动的 CapCut 和剪映创意应用、第三方 API 聚合平台,以及字节跳动专门的图像生成界面 Dreamina 触达用户。一个关键区别:Seedream 可以本地运行。谷歌不允许这样做。
平台体验是另一个需要考虑的差异。Gemini 首先是一个聊天机器人,其次才是图像生成器。它生成图像非常好且速度很快;谷歌的速度声称在实践中站得住脚。
但你是在一个不是为迭代视觉工作流设计的对话界面中工作。
Dreamina 是专门为图像创建而构建的。它具有专门用于参考管理、多步编辑和构图控制的专用工具。
此外,Dreamina 的生成队列比通过 Gemini 界面的 Nano 要长得多。对于快速测试或单个图像,Gemini 更快。对于持续的多轮编辑会话,Dreamina 的结构更连贯。
在内容审核方面,Gemini 在大多数情况下拒绝与真实人物合作——提示它进行相似性编辑、涉及公众人物的照片操作,或任何涉及可识别主体的暗示性内容,它都会拒绝。
Seedream 在宽松得多的规则下运行。字节跳动允许编辑真实图像并以谷歌不会参与的方式与可识别主体合作,这解释了 Seedream 在内容创作者社区追随者中很大一部分的原因。
具体在 API 上,两款模型都支持可配置的推理深度。Nano 让开发者将思考级别从最小设置为高或动态,允许模型在提交渲染前通过复杂提示词进行推理。
Seedream 在其架构中实施思维链监督,从而提高多约束和空间复杂生成任务的提示词保真度。
两款模型都没有对开发者完全透明地展示推理,但两者在困难提示词上都比没有推理的前代表现更好。
角色一致性:小型活动测试

这测试模型是否能在真实图像的多个编辑迭代中保持可识别的身份。原始主体是在购物中心拍摄的真实情侣。
目标是在五次迭代中交换他们的服装和照片中的其他元素,在整个过程中保持相同的面孔、体型和视觉身份可识别。
Gemini 聊天机器人完全拒绝与真实照片合作——与其内容政策一致。测试 Nano Banana 2 需要直接通过 API。
Nano:

Nano 的结果虽然视觉上很精致,但在后来的迭代中显示出显著的身份漂移。
场景几何保持不变——LED 隧道环境、瓷砖走道透视和背景标志放置都保持连贯。
但主体本身实际上被重新选角。到迭代结束时,女性不再是原来的。男性在迭代中几乎完全被替换:不同的年龄范围、不同的体型、不同的面部结构、不同的头发。
模型生成了美丽的东西,但不是实际在那里的人。如果用于编辑原件的参考上传时没有可能混淆模型的面孔,这可以在一定程度上修复。
Seedream:

Seedream 在相同工作流中的身份保留表现明显更好。女性的面部结构、微笑几何和头部倾斜通过多轮保持锚定在源图像上。
男性保留了更多他原始的体型和身体存在感。两个主体之间的姿势连续性也得到了更好的保持——手臂放置、接近度和站姿对齐保持一致,这对于任何需要感觉像同一场景而不是新场景的事情都很重要。
不过,在温和的皮肤平滑、轻微的腰部重塑以及主体整体质量下降方面存在小的迹象。
但这对情侣仍然可识别为这对情侣。对于同一个人需要出现在多个创意输出中的活动工作流,这种差异不是微不足道的。
外绘和画布扩展
外绘测试让两款模型将现代极简客厅图像扩展到 16:9,在保持光照一致性和空间逻辑的同时自然地向左右扩展场景。
提示词指定了白色墙壁、米色沙发、木质咖啡桌和室内植物——一个具有清晰建筑参数的简单说明。
Nano:

Nano Banana 2 产生了干净、无缝的结果,在原始裁剪边界没有可见的拼接伪影或色调带。墙壁颜色、日光平衡和地板材料在整个扩展过程中保持一致。
来自隐含窗口源的光照方向合理地延续到扩展框架中。从技术上讲,混合几乎完美无瑕。
但模型引入了一些不属于场景的元素,例如右侧的篮子和背景中的建筑物。也就是说,与之前的模型相比,这非常令人印象深刻。
Seedream:

Seedream 在原始输出中更基础,这使编辑更容易。
扩展的左侧引入了第二个大型盆栽植物和完整的窗帘流动,相对于隐含的窗口源在空间上感觉合理。
右侧延伸到次要墙壁、带框艺术和低矮木质控制台,始终保持极简主义材料语言——浅色木材、柔和中性色,没有任何与原始美学规则相矛盾的东西。光照在整个扩展框架中保持方向连贯。
天花板平面、吊灯放置和地板人字形图案都保持逻辑对齐。房间感觉像一个可信的更宽框架,而不是重新构图的概念。我们没有发现任何明显的伪影或错误。
对于空间保真度和建筑诚实性重要的生产环境,Seedream 5 Lite 是这里更可靠的工具。如果现实主义比保真度更重要,Nano Banana 2 可能是更好的选择。
非真实感图像生成:YouTube 缩略图测试
此测试从编辑和扩展转向纯生成领域,具有高特异性说明:一个 YouTube 缩略图,上面写着“AI IMAGE WAR”,副标题命名两款模型,分屏布局,左侧有大号粗体标题文字,对比鲜明的高能色彩,以及 16:9 构图。
缩略图生成需要准确的排版、刻意的构图层次和即时的视觉能量——所有这一切都同时发生。
Nano:

Nano 完美理解缩略图语法。
它产生了一个构图,左侧是超大号高对比度排版,右侧是戏剧性的分屏对决,暖橙色和电光蓝之间的饱和霓虹色彩冲突,以及中央闪电分隔线强化对决动态。
标题层次干净——“AI IMAGE WAR”在视觉上占主导地位,带有描边轮廓和发光效果,在小型移动屏幕尺寸上也能保持。
文字渲染准确,没有拼写失真、没有乱码字符,整个过程中字距一致。面部超细节且情感强烈。
视觉能量很高。它看起来完全像一个设计用来获得点击的缩略图。
Seedream:

Seedream 采用了不同的方法。它没有生成照片般逼真的戏剧性面孔,而是生成了风格化的吉祥物——一个香蕉角色和一个发光的神经球体——来代表每个模型,给比较带来更图形化、图标化的感觉。
布局更干净且结构良好,标题占主导地位,副标题清晰可辨,每个模型名称都用框起来以便即时扫描。
排版很强:干净的描边粗细,可缩放阅读,没有主要伪影。在 Nano Banana 倾向于壮观和情感强度的地方,Seedream 产生了不那么爆炸性、更差异化且可作为 recurring 视觉身份缩放的东西。
这可能是一种风格选择,但在我们的主观意见中,对于积极的病毒式点击率优化,Nano Banana 2 的电影强度具有优势。
真实感图像生成:多约束准确性
最终测试衡量每个模型在不违反或误解任何约束的情况下,遵循详细多元素提示词的精确程度。
说明:一位 32 岁女建筑师在日落时在屋顶上的电影般肖像,穿着米色风衣和圆框眼镜,具体左手拿着卷起的蓝图,背景中城市天际线稍微失焦,黄金时段光照带有柔和的轮廓光,模拟 50mm 镜头的浅景深,垂直 4:5 纵横比,逼真的皮肤纹理,以及微妙的胶片颗粒。该列表中的每个元素都是一个可以独立失败的约束。
Nano:

Nano 生成了一个白人女性,她的视线从相机移开——这是提示词中未指定的叙事选择,暗示了对创造性解释而不是严格遵守约束的偏见。
米色风衣、圆框眼镜和左手中卷起的蓝图都正确渲染。屋顶和模糊的天际线存在且在空间上令人信服。
存在黄金时段光照,但与提示词要求的暖色调相比,它稍微偏冷。轮廓光比较低调而不是清晰定义。景深执行得很好,但空间压缩感觉更接近 35mm 到 40mm 模拟,而不是真正的 50mm。
胶片颗粒最小到难以察觉的程度。皮肤纹理逼真,但带有美容训练扩散系统常见的温和平滑偏见。总体执行扎实,有一些安静的替代,模型在那里做出了自己的选择。
Seedream:

Seedream 生成了一个直接面向相机的亚洲女性——这是未指定视线方向提示词的中性默认。
所有指定的元素都存在并正确实施。黄金时段温暖更物理地存在(可能甚至被夸大了),清晰定义的轮廓光将主体与背景分开,符合提示词的意图。
景深执行和焦距压缩更接近实际的 50mm 模拟,具有自然的主体与背景比例。皮肤纹理准确,具有比 Nano Banana 的输出更好的微对比度保留和更少的平滑伪影。
也就是说,其中一张蓝图生成不正确,看起来更像是生成中的伪影而不是适当的元素。
在构图上,Seedream 的结果更居中且技术上更精确,解释性添加更少,但 Nano Banana 生成了更逼真的图像。
你可能想要考虑的一致性错误
在涉及大量连续生成的扩展 API 会话中,两款模型都显示出在工作流开始时不存在的降级。
Seedream 开始在早期生成中清晰渲染的主体上产生模糊、 indistinct 的面孔。Nano 开始完全失去主体身份,生成与会话开始时建立的主体没有一致关系的角色。
两款模型似乎都随着会话长度增加而减少它们的推理深度——好像它们在每一代上花费的精力越少,它们已经做的越多。
这是故意的计算节流、 heavy API 流量下的负载平衡行为,还是架构中的某些东西从外部不清楚。
但它足够一致,可以在任何运行长生成链的生产流水线中规划。两款模型在会话开始时表现最佳。两者都随着持续的数量而降级。
理想情况下,不是进行连续迭代,而是要求模型在单次迭代中进行合理数量的编辑以避免降级。
但这是一门艺术。一轮中太多编辑导致提示词依从性差;太少导致需要连续迭代,这会降低主体一致性。
结论:谁赢了?
Nano 在文字渲染、原始生成速度、生态系统集成和生成能量方面获胜。文字准确性是其最明确的优势——没有乱码字符、没有不一致的字体、没有重复的文字。
它生成得很快。它在数十亿人已经使用的产品中工作。而且它的世界知识集成,模型在决定渲染什么之前搜索网络,产生感觉编辑上有根据而不是一般审美的输出。
如果你的工作流存在于谷歌的生态系统中,如果图像中的文字准确性是不可协商的,或者如果你需要快速迭代而不与真实人物合作,Nano 对于那些特定条件是更强的工具。
Seedream 在成本、平台设计、内容灵活性、空间任务中的结构纪律以及多步编辑中的角色保留方面获胜。
统一的 0.035 美元定价使其成为任何批量生成图像的流水线的实际默认值。Dreamina 的专用界面对于持续的创意会话比 Gemini 的聊天机器人包装器更连贯。
宽松的内容政策开启了谷歌不会参与的用例。对于需要在真实主体的多个迭代中保持一致身份的工作流——活动工作的核心需求,Seedream 在我们运行的每个测试中都表现得更好。