SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    字节跳动

    共 80 篇文章
    排序
    发布更新浏览点赞
    字节跳动旗下 AI 编程助手Trae 一周年福利:免费领 600~800 次「超快请求」额度

    字节跳动旗下 AI 编程助手Trae 一周年福利:免费领 600~800 次「超快请求」额度

    字节跳动旗下 AI 编程助手 Trae 迎来上线一周年。为感谢用户支持,官方推出限时周年庆活动:登录 Trae 国际版,即可免费领取额外「Fast Request」(快速请求)额度,用于加速代码生成与...
    早报# AI 编程助手# Trae# 字节跳动
    2周前
    0140
    Dolphin-v2:字节跳动发布支持21类元素的通用文档解析模型

    Dolphin-v2:字节跳动发布支持21类元素的通用文档解析模型

    在办公自动化、知识管理与智能体工作流中,将非结构化文档转化为结构化数据是关键第一步。然而,现实中的文档来源复杂:既有干净的 PDF、Word,也有手机拍摄的带畸变、阴影、模糊的纸质文件。现有解析模型往...
    多模态模型# Dolphin-v2# 字节跳动# 文档解析模型
    2个月前
    01000
    字节跳动发布Vidi2:攻克细粒度时空定位,视频检索性能领先GPT - 5

    字节跳动发布Vidi2:攻克细粒度时空定位,视频检索性能领先GPT - 5

    字节跳动智能创作团队推出的第二代多模态视频模型Vidi2,凭借在时空定位、时间检索和视频问答三大核心能力上的突破,打破了传统视频模型在长视频理解和精细交互上的局限。该模型不仅在核心任务中实现对Gemi...
    多模态模型# Vidi2# 多模态视频模型# 字节跳动
    2个月前
    01180
    Self-Forcing++:一种无需长视频训练即可生成高质量长视频的新方法

    Self-Forcing++:一种无需长视频训练即可生成高质量长视频的新方法

    近年来,扩散模型在图像和短片视频生成方面取得了突破性进展。然而,当扩展到长视频生成(如数十秒甚至数分钟)时,现有方法普遍面临一个核心问题:质量随长度增加而显著下降。 这主要源于两个限制: 计算成本高...
    新技术# Self Forcing# 字节跳动
    4个月前
    02080
    字节跳动发布统一加速多模态理解与生成的新框架Hyper-Bagel

    字节跳动发布统一加速多模态理解与生成的新框架Hyper-Bagel

    随着多模态大模型在图文理解、文本到图像生成、图像编辑等任务中表现日益强大,其高昂的推理成本也逐渐成为落地瓶颈。传统的自回归解码与扩散去噪过程需要大量迭代计算,在长上下文或多轮交互场景下响应迟缓。 为此...
    图像模型# Hyper-Bagel# 字节跳动
    4个月前
    02180
    Lynx:字节跳动提出的单图驱动个性化视频生成方案,实现高保真身份保留

    Lynx:字节跳动提出的单图驱动个性化视频生成方案,实现高保真身份保留

    在内容创作、虚拟社交等场景中,“基于单张图像生成个性化视频”是重要需求——比如用一张自拍生成动态表情视频,或让历史人物照片“动起来”讲述故事。但这类任务长期面临核心挑战:如何在保证视频自然流畅的同时...
    视频模型# Lynx# 个性化视频生成# 字节跳动
    4个月前
    02060
    字节跳动提出OmniInsert:无需遮罩,任意对象都能自然插入视频

    字节跳动提出OmniInsert:无需遮罩,任意对象都能自然插入视频

    在影视后期、广告制作乃至虚拟内容创作中,“将一个新角色或物体自然地加入已有视频”是一项高频需求。传统方法依赖精确的遮罩标注、关键帧追踪和复杂的合成流程,成本高、耗时长。 近期,基于扩散模型的技术为这一...
    视频模型# OmniInsert# 字节跳动# 视频编辑
    4个月前
    01540
    字节跳动发布OneReward 框架:用单一奖励模型革新多任务图像编辑

    字节跳动发布OneReward 框架:用单一奖励模型革新多任务图像编辑

    在图像生成领域,AI 已经能完成许多复杂操作:补全残缺画面、扩展图像边界、移除干扰物体,甚至在图中添加可读文本。但这些任务通常由不同模型分别处理——每个任务有自己的训练流程、评估标准和奖励机制。 这带...
    图像模型# FLUX.1-Fill-dev-OneReward# OneReward# 字节跳动
    5个月前
    02990
    清华大学 & 字节跳动联合推出 HuMo:一个以人为中心的多模态视频生成框架

    清华大学 & 字节跳动联合推出 HuMo:一个以人为中心的多模态视频生成框架

    一段文字描述 + 一张人物照片 + 一段语音音频,能否生成一个口型同步、动作自然、形象一致的高质量人物视频? 现在,可以了。 清华大学与字节跳动智能创作团队合作推出 HuMo(Human-Centri...
    视频模型# HuMo# 字节跳动
    5个月前
    0940
    字节跳动Seedream 4.0 正式接入 ComfyUI:一模型打通生成与编辑全流程

    字节跳动Seedream 4.0 正式接入 ComfyUI:一模型打通生成与编辑全流程

    ComfyUI官方宣布字节跳动的Seedream 4.0 已集成至 ComfyUI,通过官方 API 节点即可直接调用,无需额外部署,开箱即用。 这一次更新不只是“多一个模型选项”,而是带来了一种全新...
    工作流# ComfyUI# Seedream 4.0# 字节跳动
    5个月前
    08290
    字节跳动开源UMO:统一多身份优化框架,让AI准确“认出”每个人

    字节跳动开源UMO:统一多身份优化框架,让AI准确“认出”每个人

    在图像定制领域,个性化生成已逐渐从“一个人一个风格”迈向“多人协同场景”的复杂需求。然而,当一张图中需要同时呈现多个真实人物时,模型常常出现“张冠李戴”——面部特征混淆、身份错位,导致输出失真。这不仅...
    图像模型# UMO# 字节跳动
    5个月前
    03260
    RewardDance:用生成式奖励重塑视觉强化学习,让AI生成的图像和视频真正“理解”你的需求

    RewardDance:用生成式奖励重塑视觉强化学习,让AI生成的图像和视频真正“理解”你的需求

    在视觉生成领域,强化学习(Reinforcement Learning, RL)正成为提升模型表现的关键手段。其中,奖励模型(Reward Model, RM)作为引导生成方向的核心组件,直接影响最终...
    新技术# RewardDance# 字节跳动
    5个月前
    01230
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    Clawdbot/Moltbot

    Clawdbot/Moltbot

    Clawdbot 是一款可在您自己的设备上运行的个人 AI 助手。它在您已使用的渠道(WhatsApp、Telegram、Slack、Discord、Google Chat、Signal、iMessage、Microsoft Teams、WebChat)以及扩展渠道(如 BlueBubbles、Matrix、Zalo 和 Zalo Personal)上为您提供应答。它可以在 macOS/iOS/Android 上进行语音交谈,并能渲染一个您可控制的实时画布。网关仅是控制平面——核心产品是助手本身。
    Higgsfield AI

    Higgsfield AI

    Higgsfield AI平台支持文生图和图生视频,近期对图生视频功能进行了全面升级,专为追求高质量、风格化内容创作并渴望真正电影级操控的创意人士打造——无论是MV导演、商业片制作人、AI创作者,还是社交媒体叙事者。
    Situation Monitor

    Situation Monitor

    Situation Monitor 是由开发者 Reggie James 创建的一个免费、开源的全球风险监测平台。它通过一张交互式地图,实时整合并可视化全球范围内的关键地缘政治与安全信息,帮助用户快速掌握潜在冲突热点和战略动态。
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    CivitAI

    CivitAI

    CivitAI是一个AI图像及视频模型托管平台,主要聚焦于 AI 生成的图像、视频和模型。它为用户提供了一个空间,可以上传、分享和发现由特定数据集训练的自定义 AI 模型,这些模型可用于生成独特的内容,如图像、视频。
    打滑作业平台

    打滑作业平台

    “打滑作业”是一个面向学生和自学者的开源工具,帮助用户快速理解题目、获取答案,从而节省时间,把精力投入到更重要的兴趣与生活中。
    查看完整榜单