
做视频这件事,创意表达是一方面,工具与团队协作又是另一方面。想象脑海中已经有了一幅画面,但一想到要写分镜、配音、剪辑、找素材,再打开几个软件来回折腾,人就先累了。
商汤最近上线了一款叫 Seko 的工具,想做的事情很直接 —— 给每个有想法但没时间、没人手、也不太熟技术的创作者,配一支 AI 剧组。你负责灵光乍现,它负责把你说的场景、节奏、角色甚至配音安排好。剪辑、口型、转场、节奏都能一条龙跟上。
你不用会写 prompt,不用打开四五个软件,在 Seko 上说清楚想拍什么,它就能替你把片子顺下来。
Seko 的核心逻辑是让“自然语言”成为创作入口,用户只需用中文描述想法,系统就能自动完成剧本理解、镜头拆解、画面生成和台词配音,全程无需 prompt,也无需在多个平台之间来回切换。
整个流程的底层逻辑,是一个以 Agent 为核心的系统,在你说出想法的那一刻,它就自动去调动背后的各个模型,协同完成一条完整的短片。包括文生图、图生视频、图转图、分镜规划、角色驱动、对口型生成等模块,都已经集成在一起,用户不用操心哪个环节靠哪个模型。
真正厉害的是,它不是直接“把文字变成视频”,而是会先读懂你说的这句话背后要讲一个什么样的故事,是什么风格,要用几个角色,有没有对白,哪些地方该转场,音乐节奏要不要跟上……它是“理解完再动手”,所以最后做出来的片子不只是能看,而是有逻辑、有节奏、有情绪的。
比如你说“奥特曼在便利店唱情歌”,系统会立刻识别出这是一条“轻松搞笑”的角色类短片,然后自动开始拆解:奥特曼是主角、便利店是主场景,可能出现的镜头是他进门、点歌、唱歌、被路人围观,再到最后搞笑收尾,音乐节奏也要偏轻快、带点复古调调。这些不是你要去一个个想清楚的,而是 Seko 替你“脑补”出来的。
它背后的这些模型就像一支 agent 组成的剧组团队,围绕你的点子产出剧本和最终的内容,包括:
-
谁出场、怎么设定长相动作,用角色生成模块来完成;
-
画面风格是写实还是卡通,用文生图/图转图来配合;
-
每个镜头具体拍什么、节奏怎么走,靠分镜调度来安排;
-
如果有对白,用 Seko Talk 去做对口型,中文、英文、日语都能配;
-
多个镜头之间的角色外观、动作一致性,也全部自动对齐。
现在很多生成工具都会有一个问题:分镜之间风格不一、人物前后不一样,节奏跳。Seko 做得最好的一点就是,它能把这些全都保持一致。角色、光线、背景、甚至语气和口型都能从头到尾稳定不变,哪怕你写的是一条多角色、多场景、多个对白的复杂剧本,也能顺下来不出戏。
这一整套流程背后最重要的转变,其实不是“你能不能做出一条视频”,而是“你能不能表达出你想要什么样的视频”。Seko 把创作的难点从工具操作变成了表达想法,只要你描述得够清楚,它就能自动替你做出来。

Seko 的首页创作提供了一个选项 —— 添加主体,用户可以个人新建一个主体角色,并填上该主体的角色设定。为了展示实际演示效果,挑了一张 Labubu 照片试了下:

Seko 会根据上传的图片自动分类并给出主体描述,实在是“懒人”的福音。随即又输入一个刚才脑海中想到的画面—— “ Labubu 在西班牙餐厅热情跳舞”,接下来 Seko 会根据这句话拆解并优化一串 Prompt,覆盖短片的故事、视觉风格、角色形象、场景元素、音乐风格以及分镜头设计等 6 个维度 :

相比于同类工具,Seko 在细节方面更加详细。
1)策划摘要:定义了视频类型以及内容梗概,并结构化的给出了剧本的主要亮点:

2)美术风格:确定了画面主要风格为 3D 卡通,对画面的设计以及颗粒度也做出了明显的要求:

3)角色主体:在角色设定上,Seko 根据前期策划摘要与剧本安排了 5 个角色,并且角色的设计细致到在剧本中的定位、动作以及外观:


4)场景概念:场景方面细致到了道具、材质、视觉风格以及光线的设计,与剧本设定呼应。

5)音乐风格:对于一个不太懂音乐的创作者,Seko 给到的 Prompt 非常友好,从音乐类型、情绪氛围、节奏特点、关键乐器以及参考作品等多个维度明确需求。

试听了一下 Seko 生成的 BGM,清晰融合了弗拉明戈这类舞曲的元素,步调轻快:
6)分镜剧本:Seko 设定了 5 个场景,10 个分镜,并搭配了旁白银色;以场景 1 为例,Seko 给到了 2 个分镜,并且强调了画面和镜头设计,涉及到了镜头语言&参数、角色动作、画面色彩与切换。

点击视频生成。首先,Seko 会生成分镜头的画面;其次,待用户确认镜头画面后,点击转视频会得到 10 个分镜头的视频,对于创作过程的把控设计非常合理。

仔细看 Seko 生成的 分镜头画面,角色和剧本的一致性把握的质量很高。用户可以在编辑轨道上添加配音和添加字幕,也可以在左侧栏中继续对整个剧本和画面提出修改的内容。
例如,分镜 1 中测试中希望 Seko 给 Labubu 挂一个小铃铛:

在每个分镜头的右上角,Seko 还支持快速的裁剪功能:
此外,还可以点击左侧的「配音」,Seko 提供了台词、音色、音量以及语速等基础功能,还能通过「动作描述」,编辑动态 Prompt 生成对口型的视频:

筛选了 Seko 生成的分镜头视频后,导出的效果如下:
在众多 AI 视频工具中,Seko 的最大优势不是模型堆叠,而是站在创作者思维中构建工具逻辑,将创意落地从“拼能力”变为“拼表达”。
这背后,是一套多模型能力的协同系统。当前版本已集成文生图、图生视频、首尾帧一致生成、参考图生成、角色驱动、Seko Talk 对口型等多个模块,底层模型具备多镜头一致性调度能力,能够维持角色形象、场景材质与镜头走位的一致性。即使是包含复杂对白和多角色互动的剧本,也能保持结构稳定与视觉统一。
例如,我们在输入一句描述 —— “一个日本蒸汽波风格的音乐MV,迷幻,动感,电子,二次元画风,复古朋克的少女驾驶着飞机在空中飞行”,这次即使没有选择具体的 IP 形象,Seko 也会生成风格高度匹配的角色与元素,还拟了一个项目标题《蒸汽纪元:迷幻少女飞行物语》:

区别于传统“生成完只能导出”的视频工具,Seko 提供了一套可视化的成片编辑体验,编辑的是结果,而不是中间过程,让每一个修改都直接体现在最终画面上。
与同类视频生成工具相比,Seko 提供了一个固定环节的编辑界面,对于新手创作者来讲,更容易熟悉上手,同时对于画面每一帧的内容呈现更有掌控感。
依然是《蒸汽纪元:迷幻少女飞行物语》这个案例,总计生成了 13 个镜头,其中人物特写镜头出现了 4 个,Seko 在人物表现上基本保持一致性 —— 带着眼镜的双发色少女:
编辑器还支持分镜复制、上下文记忆、成片回看与单镜头替换等功能,极大增强了复杂剧本的制作灵活度。角色在多个场景间移动时,Seko 可以复用前面设定的细节,例如在视频分镜最后再补一个收尾镜头,并要求剧本中的少女出镜,效果如下:

创作者除了通过系统的轨道视图对每帧镜头画面做调整,还可以微调语速、口型、配音以及人物动作等细节,并且所有参数都是联动修改。
官方也透露,后续将陆续推出包括一键换脸、局部重绘、音效自动生成等高呼声功能,进一步提高创作效率与成片质量。
目前,Seko 已开放邀请注册机制,用户可通过专属链接注册领取创作积分,用于解锁更多高级功能与模板内容。如果你也想体验一句话生成短片、从想法直接看到成片效果,可以通过下面这个链接注册使用,领取免费额度开启创作:
https://seko.sensetime.com/invite/8V5PBA0H
本篇文章来源于微信公众号: 有新Newin
文章评论