Character.AI 推出 AI 视频生成工具 AvatarFX，让静态图像“活”起来

298 0

Character.AI 近日又有了新动作，推出了一款名为 AvatarFX 的 AI 视频生成工具。这款工具的出现，让静态图像也能“活”起来，为用户带来了全新的交互体验。

项目主页：https://character.ai/video

AvatarFX 的核心功能是将静态图像转化为动态角色。用户只需上传一张图片并选择对应的声音，就能生成会说话、能移动且富有情感的动态头像。这项技术基于先进的“基于 SOTA DiT 的扩散视频生成模型”，经过精心策划的数据训练，并结合特定的音频条件和高效生成技术进行优化。它能够以惊人的速度创建高保真、时间上连贯的视频，即使是较长的序列，甚至包含多个说话者和多次对话轮流，也能轻松应对。

在竞争激烈的视频生成领域，AvatarFX 以其独特的定位脱颖而出。与 OpenAI 的 Sora 和 Google 的 Veo 等竞争对手不同，AvatarFX 专注于将用户上传的图像转化为动画，而非完全从零开始或从文本生成视频。这不仅为用户提供了更大的创作自由度，也带来了一系列独特的可能性和潜在挑战。例如，用户可以上传真实人物的照片，生成看似逼真的视频，描绘他们说或做一些虚构的事情。这种技术被滥用的潜力不容忽视，但 Character.AI 已经采取了一系列措施来确保其安全性和合规性。

AvatarFX 的强大功能不仅体现在其生成的视频质量和多样性上，还在于它对各种风格和场景的适应能力。从逼真的角色到神话生物，甚至是有面孔的无生命物体，该模型都能表现出色。其数据专家构建了一个复杂的数据流程，专注于策划多样化的视频风格，过滤掉低质量的视频数据，并选择具有不同运动和美学水平的视频，最终获得一个强大的数据集，将模型的生成能力提升到一个新的水平。在音频方面，Character.AI 专有的 TTS 语音模型也为视频的真实感提供了有力支持。

为了确保生成过程的成本和时间效率，AvatarFX 利用了最先进的蒸馏技术来减少扩散步骤的数量，从而在几乎不降低质量的情况下显著加速推理。这一技术的突破，使得生成高质量视频变得轻松且高效。

AvatarFX 在多个方面突破了现有技术的界限：

它可以生成高质量的 2D 动画角色、3D 卡通角色和非人类面孔（比如宠物）的视频。
它能够保持面部、手部和身体运动的一流时间连贯性，即使在长视频中也能维持这种连贯性。
它可以从预先存在的图像生成高质量的视频，而不是依赖于文本到图像的生成，为用户提供了对其想要创建的视频的最大可控性。

这些特性代表了显著的技术进步，将极大地提升 Character.AI 的产品，帮助创作者和用户借助 AI 讲述下一代故事。

Character.AI 正在努力将 AvatarFX 模型集成到其产品中，预计在未来几个月内供所有用户使用。CAI+ 订阅用户将率先体验这些新的视频功能，感兴趣的用户可以加入候补名单。

在技术实现方面，AvatarFX 的多模态团队在 DiT 架构的基础上，设计了一个参数高效的训练流程，允许扩散模型根据音频序列生成逼真的嘴唇、头部和身体运动。为此，团队开发了一种新颖的推理策略，可以在任意长度的视频中保持视觉质量、运动连贯性和富有表现力的多样性。

在安全方面，Character.AI 已经为 AvatarFX 实施了强大的安全措施。这些措施包括对用户编写的对话进行安全过滤，使用行业领先的工具阻止使用未成年人、知名政治家和其他知名人士的照片生成视频，对其他人上传的人类照片进行 AI 处理以使其无法识别具体人物，以及在视频上应用水印以表明它们不是真实镜头。此外，用户必须同意一套严格的条款才能使用测试功能，这些条款明确禁止冒充、欺凌、深度伪造以及未经许可使用受保护的知识产权。

随着产品的不断发展，Character.AI 将持续改进这些控制措施，确保社区的安全始终是产品开发过程中的首要考虑因素。