字节跳动推出视频生成模型Seaweed-7B:以较低的计算成本实现高效的训练和生成近年来,随着视频生成技术的快速发展,如何在资源有限的情况下实现高性能的模型训练成为研究热点。字节跳动提出了一种创新的训练策略,推出了一个中等规模的视频生成模型——Seaweed-7B。这个模型拥有约7...视频模型# Seaweed-7B# 字节跳动# 视频生成模型10个月前02660
字节跳动推出视频生成模型训练新方法APT:通过在扩散预训练的基础上对真实数据进行对抗训练,以实现一步视频生成扩散模型在图像和视频生成领域展示了卓越的能力,但其迭代性质导致了生成过程缓慢且计算成本高昂。尽管现有的蒸馏方法尝试通过一步生成来解决这一问题,但往往伴随着显著的生成质量下降。为了解决这些挑战,字节跳动...新技术# APT# Seaweed-APT模型# 字节跳动1年前02640
开源版GPT‑4o?新型多模态生成模型 Liquid,用一个模型搞定视觉与语言任务在OpenAI旗下GPT‑4o凭借原生生成及编辑图像功能,火爆网络后,大家都在期待有相对应的开源模型推出。而将视觉和语言任务高效整合一直是研究的热点。华中科技大学、字节跳动和香港大学的研究人员推出了新...图像模型# GPT‑4o# OpenAI# 多模态生成模型10个月前02630
字节跳动推出多模态大语言模型ChatTS:专门用于时间序列分析清华大学和字节跳动的研究人员推出多模态大语言模型ChatTS ,专门用于时间序列分析。它通过自然语言命令帮助用户快速理解时间序列数据,执行日常任务,并处理复杂的推理问题。ChatTS 的核心优势在于其...多模态模型# ChatTS# 多模态大语言模型# 字节跳动10个月前02620
字节跳动推出新型单目深度估计方法Video Depth Anything:专门用于超长视频(数分钟)的高质量、一致的深度估计字节跳动推出新型单目深度估计方法Video Depth Anything,专门用于超长视频(数分钟)的高质量、一致的深度估计。该方法基于 Depth Anything V2,通过引入高效的空间-时间头...新技术# Video Depth Anything# 字节跳动1年前02610
字节跳动推出具备长期记忆的多模态智能体 M3-Agent字节跳动 Seed 团队推出新型多模态智能体框架M3-Agent ,首次实现了以实体为中心、支持长期记忆积累的自主推理能力。 项目主页:https://m3-agent.github.io GitHu...多模态模型# M3-Agent# 多模态智能体# 字节跳动6个月前02580
字节跳动推出新型图像编辑方法 SuperEdit :通过改进监督信号来提升基于指令的图像编辑性能字节跳动和佛罗里达中央大学计算机视觉研究中心的研究人员推出新型图像编辑方法 SuperEdit ,通过改进监督信号来提升基于指令的图像编辑性能。 项目主页:https://liming-ai.gith...图像模型# SuperEdit# 图像编辑# 字节跳动9个月前02580
字节跳动发布DAPO(动态采样策略优化):提升大语言模型的推理能力来自字节跳动、清华大学和香港大学的研究团队共同推出了一款名为 DAPO(动态采样策略优化)的开源系统,旨在提升大语言模型(LLM)的推理能力。DAPO 的发布标志着在强化学习(RL)技术应用于大规模语...新技术# DAPO# 动态采样策略优化# 大语言模型10个月前02580
字节跳动Pico团队推出新型框架EX-4D:从单目视频生成高质量的极端视角 4D 视频字节跳动Pico团队推出新型框架EX-4D,旨在从单目视频生成高质量的极端视角 4D 视频。该框架通过深度防水网格(Depth Watertight Mesh, DW-Mesh)表示法,有效处理边界遮...新技术# EX-4D# 字节跳动7个月前02500
字节跳动发布Seaweed APT2:专为实时交互式场景设计的流式视频生成模型字节跳动研究团队推出了Seaweed APT2,一款专为实时交互式场景设计的流式视频生成模型。该模型能够在单块H100 GPU上实现每秒24帧、分辨率高达736x416(等效640x480)的不间断视...视频模型# Seaweed APT2# 字节跳动8个月前02410
字节跳动提出MAGREF:支持多参考图像和文本提示的高质量视频生成框架近年来,随着扩散模型等深度生成技术的发展,视频生成能力取得了显著进步。然而,在涉及多个参考主体的场景中,如何保证各主体之间的视觉一致性、身份一致性和生成稳定性,依然是一个重大挑战。 为了解决这一问题...视频模型# MAGREF# 字节跳动# 视频生成框架8个月前02350
字节跳动发布统一加速多模态理解与生成的新框架Hyper-Bagel随着多模态大模型在图文理解、文本到图像生成、图像编辑等任务中表现日益强大,其高昂的推理成本也逐渐成为落地瓶颈。传统的自回归解码与扩散去噪过程需要大量迭代计算,在长上下文或多轮交互场景下响应迟缓。 为此...图像模型# Hyper-Bagel# 字节跳动4个月前02180