快手可灵 3.0 系列发布:图片 / 视频生成升级,内测正式开启

早报3天前发布 小马良
9 0

快手正式宣布推出新一代视频生成模型——可灵3.0系列,当前该系列模型已进入超前内测阶段。可灵3.0系列包含图片3.0、视频3.0、视频3.0 Omni三大版本,均在原有模型技术底座上完成全面升级,从图像生成、视频创作到角色特征复用,覆盖专业视觉创作与多场景视频生成的核心需求,进一步提升AI生成内容的专业性、可控性与实用性。

快手可灵 3.0 系列发布:图片 / 视频生成升级,内测正式开启

图片3.0:四大功能升级,适配专业视觉创作

作为可灵3.0系列的基础版本,图片3.0模型聚焦图像生成的实用性与专业性,完成四项核心功能升级,同时依托全新技术架构优化生成效果,满足影视、设计等专业场景的创作需求。

核心功能升级

  1. 新增组图生成能力
    支持以单张或多张输入图像为基础,批量生成逻辑连贯的系列画面,无需逐一生成即可完成故事板、分镜草图、场景序列等批量创作,大幅提升视觉内容的生产效率,尤其适配影视前期筹备、游戏场景设定等需要系列化图像的场景。
  2. 输出分辨率提升至2K/4K
    突破原有分辨率限制,生成图像可直接输出2K与4K级别高清画质,不再局限于普通社交场景的低分辨率需求,能够直接适配影视预演图、高清场景设定图、商业海报设计等专业创作场景,满足专业创作者对画质的高要求。
  3. 增强画面细节一致性,降低“AI感”
    针对AI生成图像常见的纹理失真、光影违和、细节割裂等问题,模型优化了纹理、光影的呈现逻辑,强化画面细节的连贯性与真实感,有效降低生成内容的“AI痕迹”,让图像质感更贴近人工创作的自然效果。
  4. 强化构图与视角控制精度
    提升对构图、视角、镜头语言等专业视觉元素的控制能力,创作者可更精准地指定画面构图方式、拍摄视角,生成内容更贴合影视类创作的镜头规范,减少后期调整成本,适配专业视觉创作的严谨需求。

核心技术支撑

图片3.0的升级并非单纯功能叠加,而是依托底层技术革新实现效果突破:采用视觉思维链(vCoT) 技术,在图像生成前完成场景解构与逻辑推理,让生成画面更具合理性与叙事性;通过Deep-Stack视觉信息流机制,增强模型对画面细粒度的感知能力,优化纹理、光影等细节表现;同时在模型训练中引入强化学习框架,以“真实感”与“电影质感”为双重评估标准,持续迭代优化输出效果。

视频3.0:多模态统一框架,视频创作能力全面进阶

视频3.0版本采用统一的多模态训练框架,打破单一输入形式限制,同时在时长、分镜、主体控制、音画同步等核心维度完成升级,覆盖短视频创作、影视短片制作、广告片生成等多场景需求。

核心功能升级

  1. 多模态输入+灵活时长设置
    支持文本、图像、视频片段等多种输入形式,创作者可根据需求灵活选择输入素材,无需局限于纯文本指令;单次视频生成时长最高可达15秒,同时支持3-15秒区间的灵活时长设置,适配短视频、短广告、影视片段等不同时长的创作需求。
  2. 新增智能分镜系统
    内置智能分镜能力,可根据文本指令自动调度景别、机位与镜头切换逻辑,无需创作者手动设计分镜脚本,即可生成具备专业镜头语言的视频内容,降低视频创作的技术门槛,尤其适合非专业创作者快速产出结构化视频。
  3. 增强主体一致性控制
    针对AI视频生成中常见的主体漂移、形象突变问题,模型支持通过多图或视频片段锚定特定视觉元素,锁定角色、物体等核心主体的外观与特征,确保视频全程主体形象稳定一致,解决系列化视频创作的核心痛点。
  4. 音画同步能力全面升级
    实现音画同步的精准优化,支持中、英、日、韩、西五种主流语言及各类方言的精准口型匹配,口型与语音的贴合度大幅提升;同时支持多人场景下的角色定向发声,明确不同角色的语音归属,适配对话类视频、短剧等多人场景创作。
  5. 提升文字生成清晰度
    优化视频中招牌、字幕、标识等文字元素的生成效果,解决AI生成视频文字模糊、变形、不可辨识的问题,确保文字信息清晰可读,适配广告、宣传视频、影视字幕等需要文字呈现的场景。

视频3.0 Omni:新增角色特征库,实现角色形象与音色复用

作为可灵3.0系列的进阶版本,视频3.0 Omni在视频3.0的基础上,新增核心能力——视频主体特征库,进一步满足系列化、IP化内容创作的需求。

该版本支持从3-8秒的视频片段中,提取角色的形象特征与音色特征,生成专属角色特征库,后续创作中可直接调用该特征库,还原角色的外观、神态与音色,无需重复输入指令或素材,大幅提升系列视频、数字人内容、IP短剧的创作效率。

从技术层面来看,这一能力依托多模态指令解析架构优化、音频采样区间调整,以及特征解耦重组方案实现,确保提取的角色特征精准、稳定,复用过程中不会出现形象或音色的失真、偏差。

可灵3.0系列核心价值与适用场景

可灵3.0系列的全面升级,核心围绕“专业性、可控性、实用性”三大方向,打破AI生成内容在专业场景的应用壁垒,同时降低普通创作者的使用门槛,适用场景覆盖多个领域:

  • 影视行业:影视预演图生成、分镜脚本制作、短片试拍、角色形象设计;
  • 广告营销:短视频广告生成、品牌宣传视频、产品展示视频;
  • 内容创作:自媒体短视频、数字人内容、IP系列短剧、游戏场景动画;
  • 设计领域:高清场景设定图、系列化视觉素材、商业海报设计。

目前,可灵3.0系列仍处于超前内测阶段,具体开放范围、使用权限及正式上线时间,需以快手官方后续通知为准。

© 版权声明

相关文章

暂无评论

none
暂无评论...