Seedance 2.0 提示词指南:四模态视频生成的 12 项技巧
Seedance 2.0 由 ByteDance Seed 团队于 2026 年 2 月 12 日发布。它是首个产品级的 AI 视频模型,能在一次前向传播中同时接收文本、图像、音频和视频四种模态输入,并输出同步视频与双声道音频——单次调用最多 9 张参考图、3 段视频片段、3 段音频片段,4 至 15 秒的多镜头成片,8+ 种语言的原生音素级口型同步,以及面向低延迟批量场景的 Seedance 2.0 Fast 加速版本。模型在火山引擎 Ark(中国)和 BytePlus Ark(国际)上的 ID 为 `doubao-seedance-2-0-260128`。
大多数 AI 视频用户都遇过同一种情况:提示词越具体,模型越悄悄抹掉细节。Seedance 2.0 的反应不一样——浓密的提示词在这里通常比简化版工作得更好,但前提是结构在做实事。本指南按技巧逐项讲解生产中反复出现的套路,浓缩成 12 个可复制的示例,依据 ByteDance 官方文档与社区测试。
Seedance 2.0 提示词的解剖
Seedance 2.0 比大多数主流视频模型更宽容长提示词,并且独特地宽容混合了文字与多模态参考的提示词。这种宽容不是给「写更长」的许可,而是给「保持更具体的细节」和「显式声明每个参考的角色」的许可。
跨用例最稳定的结构顺序是:参考声明先行,场景与时序其次,主体第三,镜头语言第四,光线与质感第五,声音意图第六。前面的 token 决定渲染「模式」——四模态组合、多镜头、talking head、产品广告——后面的 token 补充细节。把这些层次混在自由句子里容易漂移;按层次有序的提示词在多次重跑时形态稳定。
- 参考声明 — 给每张图、每段视频、每段音频参考列出索引和角色("Image 1: 主角"、"Video Clip 1: 镜头运动")。
- 场景与时序 — 何时何地("清晨阳光下的东京咖啡馆,10 秒")。
- 主体 — 画面里的人或物,包括尺度、姿态、视线和动作。
- 镜头语言 — 运动、角度、景别("低角度慢速环绕,180 度弧线,眼平面 ~30 cm 离地")。
- 光线与质感 — 方向、性质、时刻光线("画面左侧柔和窗光,浅景深,50mm 镜头")。
- 声音意图 — 画外音(加引号)、对白(加引号)、Foley(具体命名)、环境声床。
复杂提示词请使用短的带标签段落或换行,不要写成一整段长文。可读的模板更易在生产代码中维护,也更易在某个段落需要收紧时调试。
示例 1 — 调用「照片真实」渲染模式
Seedance 2.0 有显式的「照片真实」渲染语境,最可靠的触发方法是在提示词里出现「photorealistic」一词——或类似短语:「shot like a 35mm film photograph」、「documentary style」、「iPhone-style handheld」。具体的相机规格(特定镜头、传感器、ISO)会被宽松地理解;把它们当成观感线索而非物理仿真。更大的杠杆是命名瑕疵:毛孔、细纹、布料磨损、自然光、轻微动态模糊。「no glamorization」「no heavy retouching」之类的反向 cue 会把模型推离通用 AI 人像观感。
提示词
A photorealistic candid clip of an elderly fisherman standing on a small wooden fishing boat. Weathered skin, visible wrinkles, sun-darkened arms, faded traditional sailor tattoos. He is calmly adjusting a net while a small dog sits on the deck beside him. Shot like a 35mm film photograph, eye-level medium close-up, 50mm lens. Soft coastal daylight, shallow depth of field, subtle film grain, natural color balance. Audio (dual-channel stereo): gentle waves against the hull, distant gulls, the soft creak of wood, no music, no dialogue. No glamorization, no heavy retouching. 720p, 16:9, ten seconds.
示例 2 — 镜头语言与提示词驱动的镜头规划
Seedance 2.0 严格执行提示词中的镜头语言 token——模型卡称之为「提示词驱动的镜头规划」。可靠的运镜词典:push-in、pull-back、dolly、tracking shot、orbit、handheld follow、locked-off、slow pan、tilt up、tilt down、crane up、crane down。把运动与角度(low-angle、eye-level、overhead、Dutch)、景别(wide、medium、close-up、extreme close-up)组合,命中具体电影语境。轨迹请同时给出两端——「from frame-right to frame-left」——而不是让模型自己推理起点和终点。
| 运动 | 含义 | 提示词写法 |
|---|---|---|
| 推近 (push in) | 相机靠近主体 | slow push-in, dolly in, no more than X% |
| 拉远 (pull back) | 相机远离主体 | pull back, dolly out, reveal |
| 横移 (track) | 相机沿主体侧面平移 | tracking shot, side tracking, parallel |
| 环绕 (orbit) | 相机绕主体环绕 | slow orbit, 180-degree arc, low-angle orbit |
| 跟随 (follow) | 相机跟随移动主体 | handheld follow, steadicam follow |
| 静止 (static) | 相机锁定不移动 | locked-off camera, static shot |
| 摇 / 仰 (pan / tilt) | 相机原地旋转 | slow pan, tilt up, tilt down |
提示词
A photorealistic editorial sports clip. Scene: a coastal road at golden hour, ocean horizon visible on the right, ten seconds. Subject: a long-distance runner in a charcoal grey training kit, mid-stride, captured running directly toward the camera. Framing: medium-wide, full body visible, feet included. Camera: low-angle tracking shot, eye height roughly 30 cm above the asphalt, parallel to the runner. Subject placed left of center with negative space on the right two-thirds. Lighting: warm golden hour key from camera-right, soft fill from the ocean reflection on the left, long subject shadow falling toward the lower-left. Audio: rhythmic foot strikes, soft wind, distant ocean, no music. 720p, 16:9, ten seconds.
示例 3 — 对白与音素级口型同步(引号规则)
对白是 Seedance 2.0 最有特色的能力之一。把对白原文写在引号内即可触发口型同步路径——模型把引号内文本视为对白轨道,并在生成画面其余部分的同一去噪步骤里把口型对齐到音素。最佳实践:显式点明语言、对白加引号、为声床加约束子句("no music, ambient room tone only")。
最有用的额外短语是给原文加上「EXACT, verbatim, no extra characters」。不加它,模型偶尔会改写或追加短的语气词;加上它,渲染出的音频精确匹配提示词。
提示词
A medium close-up of a man in his early 30s, short dark hair, light grey crewneck sweater, sitting in a sunlit home office. He looks directly at the camera and says calmly in clear English (EXACT, verbatim, no extra characters): "I think the simplest version of the idea is also the strongest." Soft diffused window light from camera-left, slightly out-of-focus bookshelf in the background. Eye-level shot, 50mm lens look, shallow depth of field. Audio: subtle natural ambient room tone, no music, no other voices. 720p, 16:9, six seconds.
提示:对白里出现刁钻品牌名或不寻常拼写时,按它们应被读出来的方式拼写。口型同步路径基于音素训练,更贴合发音的拼写比规范书面形式产生更紧的同步。
示例 4 — 多语言提示词与音素级口型同步
Seedance 2.0 自带 8+ 种语言的原生音素级口型同步:英语、中文(普通话)、日语、韩语、西班牙语、法语、德语、葡萄牙语。各语言的提示词规则一致:把对白原文写在引号内、显式点明语言、让模型把口型对齐到该语言的音素。非拉丁字符脚本(日语、普通话、粤语、韩语)请使用本族文字而非罗马化转写——口型同步路径基于真实音素训练,而非按转写近似。
混语场景(一个角色说英语、另一个说普通话),把每句单独列出并标注说话人和语言。只要要素清晰,模型会自动处理语言搭配。
提示词
A medium close-up of a young Korean woman in her late 20s, sitting in a quiet Seoul bookshop with shelves of Korean books behind her, slightly out of focus. She looks toward the camera and says clearly in Korean (EXACT, verbatim): "안녕하세요, 오늘 만나서 정말 반갑습니다." Soft diffused warm light from a window camera-right, eye-level shot, 50mm lens, shallow depth of field. Audio: a faint distant page-turn, soft ambient bookshop tone, no music. 720p, 16:9, six seconds.
示例 5 — 人物:尺度、姿态、视线与动作几何
场景中的人物,请描述尺度、身体画框、视线和物体交互。「a person doing X」之类通用短语容易在身体比例和肢体衔接上漂移。具体短语——「full body visible, feet included」、「child-sized relative to the table」、「looking down at the open book, not at the camera」、「hands naturally gripping the handlebars」——把几何关系钉死。
这是「两个朋友在笑」渲染成僵硬宣传照与渲染成可信的瞬间记录之间的差别。当你不希望主体看镜头时,请显式给出视线方向;默认倾向是面向镜头的画框。
提示词
A photorealistic candid clip. Scene: a sunlit kitchen, late morning, soft window light from camera-left, six seconds. Subject: a six-year-old child sitting at a wooden kitchen table, reading an oversized hardcover picture book. Scale and framing: child-sized relative to the table, the book takes up about half the visible tabletop, full upper body visible. Pose and gaze: leaning slightly forward on the elbows, looking down at the open book — not at the camera. Action: right hand turns a page slowly, left hand resting flat on the corner of the book. Background: a slightly out-of-focus kitchen counter with a fruit bowl. Lens: 50mm, shallow depth of field. Audio: soft page-turn, faint kitchen ambience, no music. No glamorization, no heavy retouching. 720p, 16:9, six seconds.
示例 6 — 显式声音意图(双声道立体声)
Seedance 2.0 默认产出双声道立体声音频——不命名声床,模型自己挑。Seedance 2.0 提示词最被低估的部分就是声音意图行。请显式写:画外音(加引号)、对白(加引号)、Foley(具体命名 — 海浪声床、车流、脚步、布料摩擦、陶瓷敲击)、环境声床、音乐(或 "no music")。需要某个声音落在某一帧时,把它绑到视觉事件("a soft ceramic tap as the dropper cap is lifted")。立体声方位请命名一侧("ocean wave bed panned across the frame from camera-right to camera-left")。
提示词
A wide shot of a rocky North Atlantic beach in late afternoon. Strong wind, white-capped waves crashing against dark stones, a single figure in a long grey raincoat walking from frame-right to frame-left. Subject occupies the lower third, sky takes the upper two-thirds. Audio (dual-channel stereo, named explicitly): ocean wave bed panned across the frame; gusty wind that intensifies during stronger waves and softens between them; the faint cry of a distant gull at the four-second mark; the soft sound of footsteps on wet stone synchronized to the figure's walk. No music, no dialogue. 720p, 16:9, ten seconds.
示例 7 — 索引化参考组合
传多张图、多段视频或多段音频时,建议按索引和角色引用每个输入("Image 1: 主角"、"Image 2: 场景"、"Video Clip 1: 镜头运动"、"Audio Clip 1: 环境声床"),并描述它们如何交互("把 Image 1 的主角放进 Image 2 的场景;应用 Video Clip 1 的镜头运动;使用 Audio Clip 1 的环境声")。哪些元素去到哪里,要显式写出来。
这种索引惯例正是「把这个产品 / 人物丢进那个场景」工作流的关键,无需重新生成整帧。它还能在一次调用中组合多个参考——比如 Image 1 的人物穿着 Image 2、3、4 的服装——模型把每个输入当作独立资产,而非合成一个复合参考。参考预算:每次调用 9 图 + 3 视频 + 3 音频。
提示词
Image 1: a specific dark-roast coffee bag with a kraft-paper finish and a visible brand mark. Image 2: a wooden kitchen counter at sunrise with golden window light. Audio Clip 1: a soft milk-pour and morning kitchen ambience. Place the bag from Image 1 into the scene from Image 2, standing upright on the counter near the window. Match the lighting direction, color temperature, and depth of field of Image 2 so the bag looks naturally captured in the original photo. Use the ambience from Audio Clip 1. Slow push-in from a medium shot to a tight close-up on the brand mark. Do not change the bag's shape, color, or brand mark. 720p, 16:9, eight seconds.
示例 8 — 单次调用的多镜头序列
序列工作——短叙事场景、含起承转合的品牌片、分镜到镜头的转换——Seedance 2.0 在一段 15 秒成片内生成多镜头序列。可靠写法:先在最上面把主角描述一遍,再把每个镜头作为带编号的节拍列出,每个节拍包含自己的画框、动作、光线和声音。把一致性要求(脸、发型、衣着)显式写出来,模型才会在所有镜头间保留。总时长必须落在 15 秒成片预算内。
提示词
A four-shot coffee shop sequence in multi-shot mode. Same character throughout: a tall man in his mid-30s, dark hair, a charcoal grey wool coat over a cream sweater. Keep his face, hair, coat, and sweater identical across all four shots. Shot 1 (4 s): wide establishing shot, he enters a small bright coffee shop on a rainy morning, water on the windows. Audio: gentle rain outside, door bell. Shot 2 (4 s): medium shot at the counter, he orders, light steam from an espresso machine. Audio: soft espresso machine hiss, faint chatter. Shot 3 (3 s): over-the-shoulder of the barista pouring milk into a small cup, latte art forming. Audio: milk pouring sound, gentle steam. Shot 4 (4 s): tight beauty close-up on the finished cup placed on the counter, his hand entering the frame to pick it up. Audio: ceramic tap, quiet music in the background — soft acoustic guitar. 720p, 16:9, fifteen seconds total.
对帧时序敏感的场景(某个声音必须落在特定秒数),请把声音 cue 绑到同一镜头块内的视觉事件("a soft ceramic tap as the dropper cap is lifted")。这种事件对齐的声音描述会被模型当成渲染目标,而非软建议。
示例 9 — 外科手术式编辑:「change only X, keep everything else」
Seedance 2.0 通过编辑端点支持对指定片段、人物、动作和故事线做定向修改,无需显式遮罩,但提示词必须收紧才能避免漂移。固定写法是:「change only X」+「keep everything else the same」+ 重复保留清单。真正的外科手术式编辑——时刻光线替换、衣服颜色变更、物体移除——请显式写明不要改动运动、画框、镜头运动或周围物体,并指明声床应保留还是重生成。
重复写出保留清单,是干净的一次成片编辑与需要三次重试的差别所在。重复是有意的:模型把变更指令和保留清单都当作约束,把保留元素列两次会提高每一项的权重。
提示词
Take this input clip and change ONLY the white kitchen chairs to chairs made of warm oak wood. Preserve the camera angle, camera move, room lighting, floor shadows, ceiling, walls, table, dishes on the table, plants, and every other object exactly as they appear. Do not alter saturation, contrast, motion, framing, or any object that is not a white chair. Keep the audio bed exactly the same — same room tone, same foley, no music. Photorealistic contact shadows where the new wooden chair legs meet the floor. 720p, 16:9, eight seconds.
示例 10 — 视频续写:「continuing the shoot」
Seedance 2.0 ships 团队所称的「continuing the shoot」(继续拍摄)视频续写能力。它接收一段现有片段加一条续写提示词,输出从原片尾接续的新镜头——同一人物、同一场景、同一视觉风格。可靠写法:喂入原片,把接下来发生的事按一个或多个有清晰节拍的镜头描述,并重申你需要保留的不变量(人物身份、场景、时刻光线、声床连续性)。
提示词
Take this input clip — the man in the charcoal coat picking up his coffee cup at the counter — and continue the shoot with two new shots inside the same coffee shop. Same character, same coat, same sweater, same bookshelf and counter behind him. Shot 1 (5 s): medium tracking shot, he walks from the counter to a small two-person table by the window, places the cup down, and sits. Shot 2 (5 s): static eye-level close-up of him taking the first sip, eyes closing briefly, a slow exhale. Audio: continued ambient cafe tone, soft espresso machine, no music. 720p, 16:9, ten seconds total.
示例 11 — 利用双语世界知识
Seedance 2.0 由 ByteDance Seed 团队同时使用中英两种语言训练,因此对文化特定场景——北京胡同、粤式街市、四川茶馆、韩国书店、日本居酒屋——具备异常强的世界知识。提示的启示:用更能捕捉文化特异性的语言写场景。东亚场景,本族语言提示词通常比翻译过来的英文提示词产出更准确的物理细节。
对任何有充分记录的事件、地点或文化时刻,可用情境线索(日期、地点、知名画面)让模型推断视觉上下文,无需逐项写明。这适用于发布前的参考;非常近期的发布后事件,请提供参考图,而不是依赖世界知识。
提示词
一条传统的北京胡同清晨场景。一位老人骑着一辆旧二八自行车,缓缓从画面右侧驶向左侧。两侧是灰砖灰瓦的四合院围墙,几只鸽子从屋顶飞过。柔和的清晨阳光从画面左上方洒下,地面上有淡淡的晨雾。镜头位置低角度,缓慢横移跟随老人。声音:远处的鸽哨声、自行车链条的轻响、几声晨练的吆喝。720p,16:9,十秒。
注意:世界知识受训练截止时间约束。模型训练后才出现的品牌身份、产品设计或 2026 年事件,请提供参考图,而不是寄望于模型自己推断。模型不会标识知识缺口——它会沉默地编造。
示例 12 — 迭代细修胜过一条超级提示词
长提示词在 Seedance 2.0 上能跑得很好,但调试更容易的做法是从一个干净的基线提示词起步,再用小幅、单点变化的后续 prompt 细修。推荐套路:先在 Fast 版本上发一条干净的初始提示词,然后用「make the lighting warmer」、「remove the music」、「tighten the framing」之类短语迭代。可以用「same scene as before」、「the subject」之类引用利用上下文——但若关键细节开始漂移,请重新写明。
这与设计工具反射相反——后者每一轮都加更多约束。在 Seedance 2.0 上,每一轮细修应当移除上一轮的噪音,最多只改一两处。多区域同步编辑(一次调用里三处或更多独立变化)通常需要两到三次迭代才能干净。
提示词
Pass 1 (base prompt, Seedance 2.0 Fast): A photorealistic still life of a single ripe tomato on a wooden cutting board, soft daylight from camera-left, locked-off camera, 50mm lens, shallow depth of field. Audio: faint kitchen ambience, no music. 720p, 16:9, six seconds. Pass 2 (refinement, edit on output of Pass 1): Make the lighting warmer — shift toward golden-hour color temperature, add a subtle rim light on the right side of the tomato. Keep everything else the same: same tomato, same cutting board, same composition, same framing, same audio bed. Pass 3 (refinement, edit on output of Pass 2): Tighten the framing — crop in by about 20%, the tomato should fill more of the frame, cutting board still partially visible at the bottom. Do not change the lighting, color grade, surface texture, or audio. Restate: keep the same tomato, the same cutting board grain, the same background.
版本与分辨率:选对设置
Seedance 2.0 提供两个版本——完整 Seedance 2.0 与 Seedance 2.0 Fast——支持 4 至 15 秒、6 种画幅(16:9、9:16、1:1、4:3、3:4、21:9)下的 480p 或 720p 原生输出。音频默认开启,且为双声道立体声。Seedance 2.0 Fast 对短视频、构思以及会进下游评审的片段已经够用。完整 Seedance 2.0 是对白戏、品牌英雄镜头、多镜头序列、四模态参考组合(画质瓶颈场景)的默认值。
| 工作流 | 推荐分辨率 | 推荐版本 | 画幅 | 备注 |
|---|---|---|---|---|
| 草稿、构思、批量生成 | 480p | Seedance 2.0 Fast | 9:16 或 16:9 | 最便宜;出片最快。 |
| 英语 talking head 口型同步 | 720p | Seedance 2.0 | 16:9 | 完整模型的音素级对齐最干净。 |
| 多语言口型同步(8+ 种) | 720p | Seedance 2.0 | 16:9 | 非英语音素,完整模型显著更好。 |
| 电影级产品广告 | 720p | Seedance 2.0 | 16:9 或 21:9 | 联合双声道音频是核心价值。 |
| 四模态参考组合 | 720p | Seedance 2.0 | 匹配 brief | 参考保真度受益于完整模型。 |
| 图生视频动画 | 720p | Seedance 2.0 | 匹配输入 | 支持首帧 / 末帧约束。 |
| 9:16 TikTok / Reels | 720p | Seedance 2.0 Fast | 9:16 | Fast 对拇指区内容已够用。 |
| 多镜头场景(最多 15 秒) | 720p | Seedance 2.0 | 16:9 | 人物一致性受益于完整模型。 |
| 21:9 影院级宽屏 | 720p | Seedance 2.0 | 21:9 | 原生 21:9 构图。 |
| 风格化 I2V 转换 | 720p | Seedance 2.0 | 匹配输入 | 画风运动细节需完整模型。 |
| 定向视频编辑 | 匹配输入 | Seedance 2.0 | 匹配输入 | 编辑会自动保留输入保真度。 |
| 视频续写("continuing the shoot") | 匹配输入 | Seedance 2.0 | 匹配输入 | 请重申不变量以获得干净接续。 |
常见坑及避免方法
- 通用风格增强词("8K, ultra-detailed, masterpiece, cinematic")大多被忽略——它们是早期扩散模型遗留的写法。把这些 token 预算花在运动、声音和参考声明上。
- 忘记声明参考角色。传多张图 / 视频 / 音频时,请在提示词最上面给每个参考一个索引和角色。没有角色声明,参考会混合而非保持独立。
- 忘记给对白加引号。不加引号,模型会改写台词、口型同步精度下降。加上引号 + 「EXACT, verbatim」,台词被当作固定对白轨道,并在同一去噪步骤里对齐到音素。
- 在静态输入上要求过多镜头运动。图生视频对小幅、命名运动效果最好("slow push-in, no more than 5%")。在静态图上请求大幅运镜常会破坏原构图。
- 跳过声音意图。Seedance 2.0 默认产出双声道立体声音频——不命名声床,模型自己挑。请显式写:画外音、对白、Foley、环境声床、音乐或 no music。
- 在提示词中混用语言。挑英语或普通话其中一种,把六个要素都用同一种语言写。混用偶尔会让镜头运动产生理解漂移。
- 在一次编辑里同时改三处或更多独立区域。多区域编辑通常需要两到三次迭代才能干净。把编辑拆成连续的单点变化。
- 把多镜头模式塞太满。多镜头要落在 15 秒成片预算内;各镜头时长之和不能超过它。更长叙事请串多次调用,或用视频续写。
- 迭代编辑里省略保留清单。每一次细修都要重申不变量——不写就会让漂移在多个 pass 之间累加。
- 超出参考素材上限。Seedance 2.0 单次调用接收 9 张图、3 段视频、3 段音频。超出后模型会把输入当成软合成参考,而非各自独立的引用。
一份可复用的提示词模板
如果你只想从这份指南里带走一样东西,请带走这套模板。它遵循推荐的结构顺序,几乎可以直接复制到本指南所有用例里:
参考声明(Image 1: …、Image 2: …、Video Clip 1: …、Audio Clip 1: …)→ 用途 → 场景与时序 → 主体(含尺度、姿态、视线)→ 镜头语言(运动、角度、景别)→ 光线与质感(方向、性质)→ 提示词内的对白原文(加引号、EXACT, verbatim)→ 声音意图(画外音、Foley、环境声床、音乐或 no music)→ 分辨率、画幅、时长。
先用 Seedance 2.0 Fast、480p、16:9(短视频用 9:16)、音频开启起步。先跑两次校准提示词,再切到完整 Seedance 2.0 与 720p 出最终成品。需要细修时,用自然语言去编辑现有片段,而不是从头再生成一遍——后者是生产中漂移最大的来源。