在利用开源AI视频生成模型,如Wan2.1和混元模型时,仅使用简单的提示词可能无法达到理想的生成效果。可灵、海螺等平台已经上线了镜头控制、光影等功能,而我们在ComfyUI上使用Wan2.1和混元模型时,也可以通过融入电影制作中的关键元素——例如镜头控制、照明、氛围以及视觉风格——可以显著提升最终视频的质量,使其更贴近您的创意设想。

提示词结构与优化技巧
创建高质量的AI生成视频不仅仅是输入一个简单的描述。您提供的细节水平将直接影响到输出的质量。为了充分利用这些模型,理解如何构建有效的提示词至关重要。以下是编写高效提示词的一些要点:
- 详细性:最佳提示词长度大约在80至100字之间,提供对所需视频场景的具体描绘。
- 具体性:包括对相机视角、光线条件、情绪及任何相关电影技巧的描述。
- 上下文:根据需要添加时间、天气状况等背景信息。
- 迭代改进:尝试不同的提示词版本,以找到最能产生理想结果的那个。
通过融入电影元素(如相机移动、照明、氛围、构图和视觉风格),可以使视频生成提示词更为有效。这些元素是专业视频摄影师和电影制作人常用的技巧。然而,每个模型对提示词结构和元素的反应都有其独特之处,因此使用 Wan 2.1 和混元模型时需要反复试验。
创建有效视频提示词的关键元素通常包括:
- 左右平移(Pan Left/Right): 相机的水平移动。
- 上下倾斜(Tilt Up/Down): 相机的垂直移动。
- 推近/拉远(Dolly In/Out): 平滑的缩放效果,常用于戏剧性强调。
- 跟踪拍摄(Tracking Shot): 相机跟随主体。
- 急速变焦(Crash Zoom): 快速放大或缩小主体。(参见此处示例)
- 相机翻滚(Camera Roll): 相机沿自身轴旋转。
柔光(Soft Light): 柔和且扩散,营造温暖氛围。 硬光(Hard Light): 强烈且直接,增加紧张感。 背光(Backlight): 创建剪影和戏剧性对比。 体视照明(Volumetric Lighting): 通过雾或尘埃显示可见光束。
设置正确的氛围可确保生成的视频传达所需的情调:
忧郁(Somber): 阴郁、反思,常伴随阴天光线。 狂热(Euphoric): 明亮、多彩、充满活力。 神秘(Mysterious): 黑暗、多雾、悬疑。 梦幻(Dreamlike): 超现实、柔焦、空灵光线。
描述主体如何在镜头中被框定有助于创造引人入胜的视觉效果:
特写(Close-Up): 聚焦于主体的面部表情或细节。 广角(Wide Shot): 通过广阔视野建立场景。 低角度(Low Angle): 使主体显得威严或强大。 高角度(High Angle): 向下看,使主体显得渺小或脆弱。
定义视频的外观和感觉对于指导 Wan 2.1 至关重要:
电影感(Cinematic): 丰富、高对比度的影视品质视觉效果。 复古电影外观(Vintage Film Look): 颗粒纹理和柔和色彩。 浅景深(Shallow Depth of Field): 背景模糊,主体清晰聚焦。 运动模糊(Motion Blur): 模拟现实世界的相机移动以获得自然感。
以Wan 2.1 为例,在生成视频中,哪些镜头控制有效,哪些无效?
经过大量实验,发现 Wan 2.1 并非总是能准确执行每种相机移动。有些效果很好,而其他则被忽略或导致场景静止。以下是我们详细的发现。本实验使用 14B 文本到视频模型,所有内容以 480p 生成以加快迭代。
左右平移与快速平移(Pan Left/Right and Whip Pan)
Wan 2.1 能成功生成平移动作,但并非总是尊重指定方向。 要实现左或右平移,需要多次尝试和提示词优化。 快速平移(Whip Pan,快节奏的平移过渡)无法实现——Wan 2.1 拒绝快速运动。

A low angle shot of a jazz pianist in a dimly lit 1920s jazz bar, playing the piano with concentration. He wears a white shirt with suspenders and black trousers, his hands move rapidly on the keys. Camera pans left to low angle shot of a cute girl with pigtails and glasses playing the trumpet.
拉远(Pull Back)
如果结构正确,此功能效果良好。 最可靠的公式是:[开场镜头细节] + [相机移动] + [相机移动后揭示的细节]

Close up shot of the determined face of a battle-worn samurai. Camera pulls back to reveal him standing alone on a foggy battlefield, gripping his katana. Camera pulls back to reveal fallen warriors behind him. Wind whips through the trees, sending red autumn leaves swirling.
推近/拉远(Dolly In/Out,希区柯克变焦/眩晕效果)
推近效果良好,但拉远始终失败。 提示词结构很重要——在描述移动前提及背景元素可能导致效果失效。 在这里,我们使用了 Wan 2.1 团队使用的提示词,然后尝试添加相机移动。

In the style of an American drama promotional poster, Walter White sits in a metal folding chair wearing a yellow protective suit, with the words "Breaking Bad" written in sans-serif English above him, surrounded by piles of dollar bills and blue plastic storage boxes. He wears glasses, staring forward, dressed in a yellow jumpsuit, with his hands resting on his knees, exuding a calm and confident demeanor. Camera hitchcock zooms in. The background shows an abandoned, dim factory with light filtering through the windows. There's a noticeable grainy texture. A medium shot with a straight-on close-up of the character
倾斜(Tilt)
获取倾斜效果同样困难。我们设想了一个登山者凝视前方险峻山峰的场景。镜头应从聚焦于人开始,相机向上倾斜以揭示前方的山峰。这可能需要更多实验,但我们发现必须从脚部开始镜头然后向上移动。结果效果更接近升降镜头(Boom Shot)而非向上倾斜,但外观和感觉类似。

A close-up shot of the feet of a man wearing mountaineering gear, standing in a grassy field. Camera slowly tilts up, revealing the full body of a mountaineer wearing gear. In the distance, majestic rocky mountains tower above
跟踪拍摄(Tracking Shot)
当明确描述时,Wan 2.1 能很好地处理跟踪拍摄。

A sprawling cyberpunk metropolis, neon lights reflecting off rain-soaked streets. Pedestrians in futuristic outfits rush by as holographic advertisements flicker in the air. The camera follows a hooded figure in a long tracking shot, weaving through the crowded market. Overhead lights cast a moody glow, while fog drifts through the alleyways. The scene is dark and mysterious, with blue and purple lighting creating a high-tech, dystopian feel
急速变焦(Crash Zoom)
与快速平移类似,这种相机技巧涉及快速运动,我们无法用 Wan 2.1 获得良好结果。 尝试急速变焦会导致静态或过渡不良的结果。

In a large dimly lit midcentury modern room, a man sits with an authoritative and pensive pose on a leather chair. He is wearing a dark suit jacket and grey trousers. He has silver hair. The chair is in the center of the screen. Behind the chair, there is an oak console with a lamp. The wall is made of oak panels. The man looks directly at the camera. Camera rapidly zooms in on the man's face. Then he lets out a slight smirk
相机翻滚(Camera Roll)
在多次提示词优化后有些可行,尽管生成的旋转从不完全沿相机轴进行。

Overhead shot of a man fallen asleep on his desk in front of his computer. The room is dark except for the light from the monitor. The man's head is on his arms by the keyboard. Around the desk, there is a mess of papers and floppy disks. The camera rolls in full 360 motion
虽然 Wan 2.1 能有效生成一些相机移动,但其他移动则不一致或不起作用。我们建议仔细构建提示词,避免过快的相机动作,并根据结果进行迭代。(来源)