商汤上线了一款 AI 剧组搭子—— Seko，这下要和手搓剪辑工具说再见了

2025-08-18 126点热度 0人点赞 0条评论

做视频这件事，创意表达是一方面，工具与团队协作又是另一方面。想象脑海中已经有了一幅画面，但一想到要写分镜、配音、剪辑、找素材，再打开几个软件来回折腾，人就先累了。

商汤最近上线了一款叫 Seko 的工具，想做的事情很直接 —— 给每个有想法但没时间、没人手、也不太熟技术的创作者，配一支 AI 剧组。你负责灵光乍现，它负责把你说的场景、节奏、角色甚至配音安排好。剪辑、口型、转场、节奏都能一条龙跟上。

你不用会写 prompt，不用打开四五个软件，在 Seko 上说清楚想拍什么，它就能替你把片子顺下来。

Seko 的核心逻辑是让“自然语言”成为创作入口，用户只需用中文描述想法，系统就能自动完成剧本理解、镜头拆解、画面生成和台词配音，全程无需 prompt，也无需在多个平台之间来回切换。

整个流程的底层逻辑，是一个以 Agent 为核心的系统，在你说出想法的那一刻，它就自动去调动背后的各个模型，协同完成一条完整的短片。包括文生图、图生视频、图转图、分镜规划、角色驱动、对口型生成等模块，都已经集成在一起，用户不用操心哪个环节靠哪个模型。

真正厉害的是，它不是直接“把文字变成视频”，而是会先读懂你说的这句话背后要讲一个什么样的故事，是什么风格，要用几个角色，有没有对白，哪些地方该转场，音乐节奏要不要跟上……它是“理解完再动手”，所以最后做出来的片子不只是能看，而是有逻辑、有节奏、有情绪的。

比如你说“奥特曼在便利店唱情歌”，系统会立刻识别出这是一条“轻松搞笑”的角色类短片，然后自动开始拆解：奥特曼是主角、便利店是主场景，可能出现的镜头是他进门、点歌、唱歌、被路人围观，再到最后搞笑收尾，音乐节奏也要偏轻快、带点复古调调。这些不是你要去一个个想清楚的，而是 Seko 替你“脑补”出来的。

它背后的这些模型就像一支 agent 组成的剧组团队，围绕你的点子产出剧本和最终的内容，包括：

谁出场、怎么设定长相动作，用角色生成模块来完成；
画面风格是写实还是卡通，用文生图/图转图来配合；
每个镜头具体拍什么、节奏怎么走，靠分镜调度来安排；
如果有对白，用 Seko Talk 去做对口型，中文、英文、日语都能配；
多个镜头之间的角色外观、动作一致性，也全部自动对齐。

现在很多生成工具都会有一个问题：分镜之间风格不一、人物前后不一样，节奏跳。Seko 做得最好的一点就是，它能把这些全都保持一致。角色、光线、背景、甚至语气和口型都能从头到尾稳定不变，哪怕你写的是一条多角色、多场景、多个对白的复杂剧本，也能顺下来不出戏。

这一整套流程背后最重要的转变，其实不是“你能不能做出一条视频”，而是“你能不能表达出你想要什么样的视频”。Seko 把创作的难点从工具操作变成了表达想法，只要你描述得够清楚，它就能自动替你做出来。

Seko 的首页创作提供了一个选项 —— 添加主体，用户可以个人新建一个主体角色，并填上该主体的角色设定。为了展示实际演示效果，挑了一张 Labubu 照片试了下：

Seko 会根据上传的图片自动分类并给出主体描述，实在是“懒人”的福音。随即又输入一个刚才脑海中想到的画面—— “ Labubu 在西班牙餐厅热情跳舞”，接下来 Seko 会根据这句话拆解并优化一串 Prompt，覆盖短片的故事、视觉风格、角色形象、场景元素、音乐风格以及分镜头设计等 6 个维度：

相比于同类工具，Seko 在细节方面更加详细。

1）策划摘要：定义了视频类型以及内容梗概，并结构化的给出了剧本的主要亮点：

2）美术风格：确定了画面主要风格为 3D 卡通，对画面的设计以及颗粒度也做出了明显的要求：

3）角色主体：在角色设定上，Seko 根据前期策划摘要与剧本安排了 5 个角色，并且角色的设计细致到在剧本中的定位、动作以及外观：

4）场景概念：场景方面细致到了道具、材质、视觉风格以及光线的设计，与剧本设定呼应。

5）音乐风格：对于一个不太懂音乐的创作者，Seko 给到的 Prompt 非常友好，从音乐类型、情绪氛围、节奏特点、关键乐器以及参考作品等多个维度明确需求。

试听了一下 Seko 生成的 BGM，清晰融合了弗拉明戈这类舞曲的元素，步调轻快：

6）分镜剧本：Seko 设定了 5 个场景，10 个分镜，并搭配了旁白银色；以场景 1 为例，Seko 给到了 2 个分镜，并且强调了画面和镜头设计，涉及到了镜头语言&参数、角色动作、画面色彩与切换。

点击视频生成。首先，Seko 会生成分镜头的画面；其次，待用户确认镜头画面后，点击转视频会得到 10 个分镜头的视频，对于创作过程的把控设计非常合理。

仔细看 Seko 生成的分镜头画面，角色和剧本的一致性把握的质量很高。用户可以在编辑轨道上添加配音和添加字幕，也可以在左侧栏中继续对整个剧本和画面提出修改的内容。

例如，分镜 1 中测试中希望 Seko 给 Labubu 挂一个小铃铛：

在每个分镜头的右上角，Seko 还支持快速的裁剪功能：

商汤上线了一款 AI 剧组搭子—— Seko，这下要和手搓剪辑工具说再见了

此外，还可以点击左侧的「配音」，Seko 提供了台词、音色、音量以及语速等基础功能，还能通过「动作描述」，编辑动态 Prompt 生成对口型的视频：

筛选了 Seko 生成的分镜头视频后，导出的效果如下：

在众多 AI 视频工具中，Seko 的最大优势不是模型堆叠，而是站在创作者思维中构建工具逻辑，将创意落地从“拼能力”变为“拼表达”。

这背后，是一套多模型能力的协同系统。当前版本已集成文生图、图生视频、首尾帧一致生成、参考图生成、角色驱动、Seko Talk 对口型等多个模块，底层模型具备多镜头一致性调度能力，能够维持角色形象、场景材质与镜头走位的一致性。即使是包含复杂对白和多角色互动的剧本，也能保持结构稳定与视觉统一。

例如，我们在输入一句描述 —— “一个日本蒸汽波风格的音乐MV，迷幻，动感，电子，二次元画风，复古朋克的少女驾驶着飞机在空中飞行”，这次即使没有选择具体的 IP 形象，Seko 也会生成风格高度匹配的角色与元素，还拟了一个项目标题《蒸汽纪元：迷幻少女飞行物语》：

区别于传统“生成完只能导出”的视频工具，Seko 提供了一套可视化的成片编辑体验，编辑的是结果，而不是中间过程，让每一个修改都直接体现在最终画面上。

与同类视频生成工具相比，Seko 提供了一个固定环节的编辑界面，对于新手创作者来讲，更容易熟悉上手，同时对于画面每一帧的内容呈现更有掌控感。

依然是《蒸汽纪元：迷幻少女飞行物语》这个案例，总计生成了 13 个镜头，其中人物特写镜头出现了 4 个，Seko 在人物表现上基本保持一致性 —— 带着眼镜的双发色少女：

编辑器还支持分镜复制、上下文记忆、成片回看与单镜头替换等功能，极大增强了复杂剧本的制作灵活度。角色在多个场景间移动时，Seko 可以复用前面设定的细节，例如在视频分镜最后再补一个收尾镜头，并要求剧本中的少女出镜，效果如下：

创作者除了通过系统的轨道视图对每帧镜头画面做调整，还可以微调语速、口型、配音以及人物动作等细节，并且所有参数都是联动修改。

官方也透露，后续将陆续推出包括一键换脸、局部重绘、音效自动生成等高呼声功能，进一步提高创作效率与成片质量。

目前，Seko 已开放邀请注册机制，用户可通过专属链接注册领取创作积分，用于解锁更多高级功能与模板内容。如果你也想体验一句话生成短片、从想法直接看到成片效果，可以通过下面这个链接注册使用，领取免费额度开启创作：

https://seko.sensetime.com/invite/8V5PBA0H

本篇文章来源于微信公众号: 有新Newin

商汤上线了一款 AI 剧组搭子—— Seko，这下要和手搓剪辑工具说再见了

文章评论