SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 工具
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 知识库
  • 导航
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 工具
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 知识库
    • 导航

    字节跳动

    共 45 篇文章
    排序
    发布更新浏览点赞
    字节跳动提出MAGREF:支持多参考图像和文本提示的高质量视频生成框架

    新字节跳动提出MAGREF:支持多参考图像和文本提示的高质量视频生成框架

    近年来,随着扩散模型等深度生成技术的发展,视频生成能力取得了显著进步。然而,在涉及多个参考主体的场景中,如何保证各主体之间的视觉一致性、身份一致性和生成稳定性,依然是一个重大挑战。 为了解决这一问题...
    视频模型# MAGREF# 字节跳动# 视频生成框架
    18小时前
    040
    字节跳动发布 LatentSync 1.6:聚焦高分辨率视频生成,解决模糊问题

    字节跳动发布 LatentSync 1.6:聚焦高分辨率视频生成,解决模糊问题

    字节跳动发布了其对口型视频生成模型 LatentSync 的新版本 1.6,重点解决了此前版本中生成牙齿和嘴唇区域模糊的问题。 模型:https://huggingface.co/ByteDance...
    视频模型# LatentSync 1.6# 字节跳动
    3天前
    0110
    字节跳动发布Seaweed APT2:专为实时交互式场景设计的流式视频生成模型

    字节跳动发布Seaweed APT2:专为实时交互式场景设计的流式视频生成模型

    字节跳动研究团队推出了Seaweed APT2,一款专为实时交互式场景设计的流式视频生成模型。该模型能够在单块H100 GPU上实现每秒24帧、分辨率高达736x416(等效640x480)的不间断视...
    视频模型# Seaweed APT2# 字节跳动
    3天前
    0110
    字节跳动推出视频生成模型 Seedance 1.0,视频生成迈入“电影级”体验

    字节跳动推出视频生成模型 Seedance 1.0,视频生成迈入“电影级”体验

    字节跳动正式发布了其最新的视频生成模型 Seedance 1.0。该模型已集成在字节旗下 AI 创作平台“即梦”中,并以“视频生成3.0 Pro”版本面向用户开放(需会员权限使用)。目前,每生成一个5...
    视频模型# Seedance 1.0# 字节跳动# 视频生成模型
    4天前
    0180
    字节跳动 Seed 团队正式发布 SeedEdit 3.0:支持 4K 图像编辑,编辑可用率显著提升

    字节跳动 Seed 团队正式发布 SeedEdit 3.0:支持 4K 图像编辑,编辑可用率显著提升

    今日,字节跳动 Seed 团队正式发布了新一代图像编辑模型 SeedEdit 3.0。该模型基于文生图模型 Seedream 3.0,融合多样化的训练数据与奖励机制,在图像主体与背景一致性、指令理解能...
    图像模型# SeedEdit 3.0# 字节跳动
    1周前
    0370
    字节跳动推出全新视频生成框架 ATI:用“画轨迹”控制视频运动,对象、视角、局部变形一应俱全!

    字节跳动推出全新视频生成框架 ATI:用“画轨迹”控制视频运动,对象、视角、局部变形一应俱全!

    字节跳动 AI 实验室发布了一项令人眼前一亮的视频生成技术 —— ATI(Any Trajectory Instruction),它让普通人也能通过“画轨迹”的方式,精准控制视频中物体的运动、镜头的移...
    视频模型# ATI# ATI-Wan2.1 14B# 字节跳动
    2周前
    0490
    字节释出Phantom-Wan-14B!从参考图像中提取关键主体元素生成一致性视频

    字节释出Phantom-Wan-14B!从参考图像中提取关键主体元素生成一致性视频

    字节跳动于4月份正式开源了其统一视频生成框架 Phantom,这是一个专注于“主体一致性(Subject-to-Video, S2V)”的视频生成框架。它能够从参考图像中提取关键主体元素,并结合文本描...
    工作流# Phantom-Wan-14B# 字节跳动# 视频编辑
    3周前
    01230
    开源版GPT-4o!字节跳动开源新一代多模态模型 BAGEL:多模态理解、图像生成、图像编辑,还能“思考”

    开源版GPT-4o!字节跳动开源新一代多模态模型 BAGEL:多模态理解、图像生成、图像编辑,还能“思考”

    字节跳动发布了一款名为 BAGEL 的开源多模态基础模型,该模型拥有 70 亿活跃参数(总规模为 140 亿),在大规模交错多模态数据上进行训练。BAGEL 不仅在标准多模态理解排行榜中超越了当前主流...
    图像模型# BAGEL# GPT-4o# 多模态模型
    3周前
    03710
    字节跳动推出多模态文档图像解析模型Dolphin

    字节跳动推出多模态文档图像解析模型Dolphin

    在复杂文档图像理解和结构化提取任务中,如何准确识别并组织交织的文本段落、公式、表格和图像,一直是业界的技术难点。 模型:https://huggingface.co/ByteDance/Dolphin...
    多模态模型# Dolphin# 多模态模型# 字节跳动
    4周前
    01380
    字节跳动推出专注于提升多模态理解与推理能力的视觉-语言基础模型Seed1.5-VL

    字节跳动推出专注于提升多模态理解与推理能力的视觉-语言基础模型Seed1.5-VL

    字节跳动正式推出 Seed1.5-VL,这是一款专注于提升多模态理解与推理能力的视觉-语言基础模型。Seed1.5-VL 不仅在视觉和视频理解任务中表现出色,还在智能体相关任务及复杂推理挑战中展现了卓...
    多模态模型# Seed1.5-VL# 字节跳动# 视觉-语言基础模型
    1个月前
    0720
    字节跳动推出Seed-Coder:轻量级开源代码大模型,性能媲美更大规模模型

    字节跳动推出Seed-Coder:轻量级开源代码大模型,性能媲美更大规模模型

    字节跳动近日发布了全新的开源代码大语言模型(LLM)系列——Seed-Coder,标志着其在开源大语言模型生态系统中的首次重要贡献。这一系列模型以轻量化和高性能为核心特点,包括基础模型、指令模型和推理...
    大语言模型# Seed-Coder# 代码大模型# 字节跳动
    1个月前
    0700
    字节跳动推出新型图像编辑方法 SuperEdit :通过改进监督信号来提升基于指令的图像编辑性能

    字节跳动推出新型图像编辑方法 SuperEdit :通过改进监督信号来提升基于指令的图像编辑性能

    字节跳动和佛罗里达中央大学计算机视觉研究中心的研究人员推出新型图像编辑方法 SuperEdit ,通过改进监督信号来提升基于指令的图像编辑性能。 项目主页:https://liming-ai.gith...
    图像模型# SuperEdit# 图像编辑# 字节跳动
    1个月前
    0830
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    友链申请免责声明广告合作关于我们

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2025 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    朱雀大模型检测

    朱雀大模型检测

    腾讯朱雀 AI 检测是于 2025 年 1 月 17 日推出的一款 AI 生成内容检测工具,主要用于帮助用户识别 AI 生成的文本和图像内容。每位用户每天最多可检测20次文本和20次图片。
    扣子空间

    扣子空间

    扣子空间(Coze Space)是一个通用型 AI Agent 平台,允许用户用自然语言描述任务,比如生成一份研究报告或一个 PPT。平台会自动分析需求,调用合适的工具和插件来完成任务,输出如网页、文档或表格等内容。它特别适合没有编程经验的用户,通过可视化界面快速搭建 AI 应用。
    RunningHub

    RunningHub

    RunningHub 是一个云平台,让用户轻松开发和分享 AI 应用。它特别适合那些希望通过浏览器直接操作的创作者,无需复杂的本地设置。平台基于 ComfyUI 工作流,提供强大的 GPU 云计算支持,确保高效任务执行。
    Open ASR 排行榜

    Open ASR 排行榜

    Open ASR 排行榜 对 Hugging Face Hub 上的语音识别模型进行排名和评估。我们报告平均 WER(字错误率)(⬇️ 越低越好)和 RTFx(实时因子)(⬆️ 越高越好),模型根据其平均 WER 从低到高进行排名。
    Tripo

    Tripo

    Tripo AI 是一家领先的 AI 驱动 3D 建模解决方案提供商,允许用户使用文本、单张图像、多张图像、涂鸦或视频等输入,快速创建高质量的 3D 模型和环境。
    AI Speaker

    AI Speaker

    AI Speaker 是一款基于微软 TTS 服务的在线文字转语音(TTS)工具,能够将文字即时转换为自然流畅的 语音,支持100多种语言和600多种AI语音。
    查看完整榜单