快手可灵 3.0 系列发布：图片 / 视频生成升级，内测正式开启

17 0

快手正式宣布推出新一代视频生成模型——可灵3.0系列，当前该系列模型已进入超前内测阶段。可灵3.0系列包含图片3.0、视频3.0、视频3.0 Omni三大版本，均在原有模型技术底座上完成全面升级，从图像生成、视频创作到角色特征复用，覆盖专业视觉创作与多场景视频生成的核心需求，进一步提升AI生成内容的专业性、可控性与实用性。

图片3.0：四大功能升级，适配专业视觉创作

作为可灵3.0系列的基础版本，图片3.0模型聚焦图像生成的实用性与专业性，完成四项核心功能升级，同时依托全新技术架构优化生成效果，满足影视、设计等专业场景的创作需求。

核心功能升级

新增组图生成能力
支持以单张或多张输入图像为基础，批量生成逻辑连贯的系列画面，无需逐一生成即可完成故事板、分镜草图、场景序列等批量创作，大幅提升视觉内容的生产效率，尤其适配影视前期筹备、游戏场景设定等需要系列化图像的场景。
输出分辨率提升至2K/4K
突破原有分辨率限制，生成图像可直接输出2K与4K级别高清画质，不再局限于普通社交场景的低分辨率需求，能够直接适配影视预演图、高清场景设定图、商业海报设计等专业创作场景，满足专业创作者对画质的高要求。
增强画面细节一致性，降低“AI感”
针对AI生成图像常见的纹理失真、光影违和、细节割裂等问题，模型优化了纹理、光影的呈现逻辑，强化画面细节的连贯性与真实感，有效降低生成内容的“AI痕迹”，让图像质感更贴近人工创作的自然效果。
强化构图与视角控制精度
提升对构图、视角、镜头语言等专业视觉元素的控制能力，创作者可更精准地指定画面构图方式、拍摄视角，生成内容更贴合影视类创作的镜头规范，减少后期调整成本，适配专业视觉创作的严谨需求。

核心技术支撑

图片3.0的升级并非单纯功能叠加，而是依托底层技术革新实现效果突破：采用视觉思维链（vCoT） 技术，在图像生成前完成场景解构与逻辑推理，让生成画面更具合理性与叙事性；通过Deep-Stack视觉信息流机制，增强模型对画面细粒度的感知能力，优化纹理、光影等细节表现；同时在模型训练中引入强化学习框架，以“真实感”与“电影质感”为双重评估标准，持续迭代优化输出效果。

视频3.0：多模态统一框架，视频创作能力全面进阶

视频3.0版本采用统一的多模态训练框架，打破单一输入形式限制，同时在时长、分镜、主体控制、音画同步等核心维度完成升级，覆盖短视频创作、影视短片制作、广告片生成等多场景需求。

核心功能升级

多模态输入+灵活时长设置
支持文本、图像、视频片段等多种输入形式，创作者可根据需求灵活选择输入素材，无需局限于纯文本指令；单次视频生成时长最高可达15秒，同时支持3-15秒区间的灵活时长设置，适配短视频、短广告、影视片段等不同时长的创作需求。
新增智能分镜系统
内置智能分镜能力，可根据文本指令自动调度景别、机位与镜头切换逻辑，无需创作者手动设计分镜脚本，即可生成具备专业镜头语言的视频内容，降低视频创作的技术门槛，尤其适合非专业创作者快速产出结构化视频。
增强主体一致性控制
针对AI视频生成中常见的主体漂移、形象突变问题，模型支持通过多图或视频片段锚定特定视觉元素，锁定角色、物体等核心主体的外观与特征，确保视频全程主体形象稳定一致，解决系列化视频创作的核心痛点。
音画同步能力全面升级
实现音画同步的精准优化，支持中、英、日、韩、西五种主流语言及各类方言的精准口型匹配，口型与语音的贴合度大幅提升；同时支持多人场景下的角色定向发声，明确不同角色的语音归属，适配对话类视频、短剧等多人场景创作。
提升文字生成清晰度
优化视频中招牌、字幕、标识等文字元素的生成效果，解决AI生成视频文字模糊、变形、不可辨识的问题，确保文字信息清晰可读，适配广告、宣传视频、影视字幕等需要文字呈现的场景。