SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    字节跳动

    共 80 篇文章
    排序
    发布更新浏览点赞
    字节跳动推出多模态模型Vidi:专门用于视频理解和编辑

    字节跳动推出多模态模型Vidi:专门用于视频理解和编辑

    字节跳动推出多模态模型Vidi,专门用于视频理解和编辑。Vidi 的主要目标是支持高质量、大规模视频内容的创作,通过处理原始输入材料(如未编辑的视频片段)和编辑组件(如视觉效果),帮助用户更高效地完成...
    多模态模型# Vidi# 多模态模型# 字节跳动
    9个月前
    02130
    Self-Forcing++:一种无需长视频训练即可生成高质量长视频的新方法

    Self-Forcing++:一种无需长视频训练即可生成高质量长视频的新方法

    近年来,扩散模型在图像和短片视频生成方面取得了突破性进展。然而,当扩展到长视频生成(如数十秒甚至数分钟)时,现有方法普遍面临一个核心问题:质量随长度增加而显著下降。 这主要源于两个限制: 计算成本高...
    新技术# Self Forcing# 字节跳动
    4个月前
    02080
    Lynx:字节跳动提出的单图驱动个性化视频生成方案,实现高保真身份保留

    Lynx:字节跳动提出的单图驱动个性化视频生成方案,实现高保真身份保留

    在内容创作、虚拟社交等场景中,“基于单张图像生成个性化视频”是重要需求——比如用一张自拍生成动态表情视频,或让历史人物照片“动起来”讲述故事。但这类任务长期面临核心挑战:如何在保证视频自然流畅的同时...
    视频模型# Lynx# 个性化视频生成# 字节跳动
    4个月前
    02060
    字节跳动推出新型框架ImmerseGen:用于从文本提示自动生成沉浸式 3D 场景

    字节跳动推出新型框架ImmerseGen:用于从文本提示自动生成沉浸式 3D 场景

    字节跳动和浙江大学的研究人员推出新型框架ImmerseGen ,用于从文本提示自动生成沉浸式 3D 场景。ImmerseGen 通过使用轻量级的几何代理(如简化地形和带有 alpha 通道的纹理平面...
    3D模型# ImmerseGen# 字节跳动
    7个月前
    02040
    字节跳动 Seed 团队正式发布 SeedEdit 3.0:支持 4K 图像编辑,编辑可用率显著提升

    字节跳动 Seed 团队正式发布 SeedEdit 3.0:支持 4K 图像编辑,编辑可用率显著提升

    今日,字节跳动 Seed 团队正式发布了新一代图像编辑模型 SeedEdit 3.0。该模型基于文生图模型 Seedream 3.0,融合多样化的训练数据与奖励机制,在图像主体与背景一致性、指令理解能...
    图像模型# SeedEdit 3.0# 字节跳动
    8个月前
    01920
    字节跳动开源 VeOmni:一个面向全模态大模型的 PyTorch 原生训练框架

    字节跳动开源 VeOmni:一个面向全模态大模型的 PyTorch 原生训练框架

    在大模型从“能说”向“能看、能听、能理解”演进的当下,多模态统一模型(Omni-Modal LLMs)正成为技术前沿。然而,训练一个同时处理文本、图像、语音和视频的全能模型,仍面临工程复杂、扩展困难...
    多模态模型# VeOmni# 多模态统一模型# 字节跳动
    6个月前
    01890
    字节跳动推出新型框架 InfiniteYou (InfU):用于在保留个人身份特征的前提下,通过自由形式的文本描述重新创作照片

    字节跳动推出新型框架 InfiniteYou (InfU):用于在保留个人身份特征的前提下,通过自由形式的文本描述重新创作照片

    字节跳动推出新型框架 InfiniteYou (InfU),用于在保留个人身份特征的前提下,通过自由形式的文本描述重新创作照片。该框架利用先进的扩散变换器(Diffusion Transformers...
    图像模型# InfiniteYou# InfU# 字节跳动
    11个月前
    01890
    字节跳动 & 南大联合推出 CriticLean 框架:让 AI 更准确地翻译数学为代码

    字节跳动 & 南大联合推出 CriticLean 框架:让 AI 更准确地翻译数学为代码

    将自然语言数学语句自动转化为形式化代码(如 Lean 4)是计算数学中的核心挑战之一。尽管已有许多自动化工具尝试解决这一问题,但其准确性仍面临瓶颈,尤其是在需要深入理解语义的复杂场景中。 为此,字节跳...
    大语言模型# CriticLean# 字节跳动
    7个月前
    01690
    字节跳动Seed团队发布新一代机器人操作大模型Seed GR-3

    字节跳动Seed团队发布新一代机器人操作大模型Seed GR-3

    字节跳动Seed团队近日推出一款面向复杂操作任务的大规模机器人模型——Seed GR-3(Generalist Robot Model-3)。该模型具备良好的泛化能力,支持长序列任务执行与多模态指令理...
    多模态模型# Seed GR-3# 字节跳动
    6个月前
    01650
    字节跳动提出OmniInsert:无需遮罩,任意对象都能自然插入视频

    字节跳动提出OmniInsert:无需遮罩,任意对象都能自然插入视频

    在影视后期、广告制作乃至虚拟内容创作中,“将一个新角色或物体自然地加入已有视频”是一项高频需求。传统方法依赖精确的遮罩标注、关键帧追踪和复杂的合成流程,成本高、耗时长。 近期,基于扩散模型的技术为这一...
    视频模型# OmniInsert# 字节跳动# 视频编辑
    4个月前
    01540
    字节跳动 Seed 团队推出Seed Diffusion:打破自回归瓶颈,实现 5.4 倍代码生成加速

    字节跳动 Seed 团队推出Seed Diffusion:打破自回归瓶颈,实现 5.4 倍代码生成加速

    字节跳动 Seed 团队近期发布了一款实验性语言模型——Seed Diffusion 预览版,它采用离散状态扩散机制,专注于代码生成任务,在推理速度上实现了显著突破:最高可达 2,146 token...
    大语言模型# Seed Diffusion# 字节跳动
    6个月前
    01420
    RewardDance:用生成式奖励重塑视觉强化学习,让AI生成的图像和视频真正“理解”你的需求

    RewardDance:用生成式奖励重塑视觉强化学习,让AI生成的图像和视频真正“理解”你的需求

    在视觉生成领域,强化学习(Reinforcement Learning, RL)正成为提升模型表现的关键手段。其中,奖励模型(Reward Model, RM)作为引导生成方向的核心组件,直接影响最终...
    新技术# RewardDance# 字节跳动
    5个月前
    01230
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    Clawdbot/Moltbot

    Clawdbot/Moltbot

    Clawdbot 是一款可在您自己的设备上运行的个人 AI 助手。它在您已使用的渠道(WhatsApp、Telegram、Slack、Discord、Google Chat、Signal、iMessage、Microsoft Teams、WebChat)以及扩展渠道(如 BlueBubbles、Matrix、Zalo 和 Zalo Personal)上为您提供应答。它可以在 macOS/iOS/Android 上进行语音交谈,并能渲染一个您可控制的实时画布。网关仅是控制平面——核心产品是助手本身。
    Situation Monitor

    Situation Monitor

    Situation Monitor 是由开发者 Reggie James 创建的一个免费、开源的全球风险监测平台。它通过一张交互式地图,实时整合并可视化全球范围内的关键地缘政治与安全信息,帮助用户快速掌握潜在冲突热点和战略动态。
    Higgsfield AI

    Higgsfield AI

    Higgsfield AI平台支持文生图和图生视频,近期对图生视频功能进行了全面升级,专为追求高质量、风格化内容创作并渴望真正电影级操控的创意人士打造——无论是MV导演、商业片制作人、AI创作者,还是社交媒体叙事者。
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    QoderWork

    新QoderWork

    阿里发布旗下首个桌面Agent工具QoderWork,用户无需任何复杂部署工作,输入一句话,QoderWork就能按需调用授权的本地应用,完成文件整理、数据处理、文档生成等任务。
    CivitAI

    CivitAI

    CivitAI是一个AI图像及视频模型托管平台,主要聚焦于 AI 生成的图像、视频和模型。它为用户提供了一个空间,可以上传、分享和发现由特定数据集训练的自定义 AI 模型,这些模型可用于生成独特的内容,如图像、视频。
    查看完整榜单