字节跳动开源 Seed-X:70亿参数的多语言翻译模型,性能媲美 GPT-4 和 Gemini字节跳动推出Seed-X,这是一个开源的多语言翻译模型系列,包括指令模型、强化学习模型和奖励模型,参数规模为 70亿(7B),却在翻译能力上展现出媲美甚至超越超大规模闭源模型(如 Gemini-2.5...大语言模型# SEED-X# 多语言翻译模型# 字节跳动5个月前01100
字节跳动 & 复旦大学联合提出智能海报生成新框架 DreamPoster在 AI 生成图像(AIGC)领域,海报设计一直是极具挑战性的任务之一。它不仅要求模型理解文本描述,还需要兼顾视觉美感、排版逻辑和品牌一致性。近日,字节跳动与复旦大学的研究团队联合提出了一种新的文本...图像模型# DreamPoster# 字节跳动# 海报设计5个月前02550
字节跳动 & 南大联合推出 CriticLean 框架:让 AI 更准确地翻译数学为代码将自然语言数学语句自动转化为形式化代码(如 Lean 4)是计算数学中的核心挑战之一。尽管已有许多自动化工具尝试解决这一问题,但其准确性仍面临瓶颈,尤其是在需要深入理解语义的复杂场景中。 为此,字节跳...大语言模型# CriticLean# 字节跳动5个月前01600
字节跳动智能创作团队推出ComfyUI批量处理扩展插件ComfyUI-Lumi-Batcher在ComfyUI进行图像、视频创作过程中,你是否也遇到过这些令人抓狂的场景? 😭 模型选择困难症晚期:反复替换模型手动跑图,3 小时都试不出最佳风格 😭 参数调试逼疯设计师:手动调整尺寸/权重/采样步...插件# ComfyUI-Lumi-Batcher# 字节跳动# 批量处理5个月前02600
字节跳动Pico团队推出新型框架EX-4D:从单目视频生成高质量的极端视角 4D 视频字节跳动Pico团队推出新型框架EX-4D,旨在从单目视频生成高质量的极端视角 4D 视频。该框架通过深度防水网格(Depth Watertight Mesh, DW-Mesh)表示法,有效处理边界遮...新技术# EX-4D# 字节跳动5个月前02000
字节跳动推出 X-UniMotion:首个能精准复刻手部动作的视频生成模型字节跳动研究团队发布了一项令人瞩目的视频生成新成果 —— X-UniMotion。该模型能够基于参考人物和驱动动作视频,实现对全身动作(尤其是复杂手部动作)的高精度复现,几乎看不出瑕疵,尤其在手部细节...新技术# X-UniMotion# 字节跳动5个月前03680
字节跳动发布 InfiniteYou官方 ComfyUI 插件ComfyUI_InfiniteYou字节跳动发布了其基于FLUX的身份保持模型InfiniteYou 的官方 ComfyUI 原生节点 —— ComfyUI_InfiniteYou,为开发者和创作者提供了更便捷的集成方式,支持在 Com...插件# ComfyUI_InfiniteYou# InfiniteYou# 字节跳动6个月前02920
DreamActor-H1:字节跳动推出高保真人类-产品演示视频生成框架在电商广告、虚拟试穿、交互式媒体等场景中,如何高效生成高质量的人类-产品演示视频,一直是视觉生成领域的重要挑战。 近日,字节跳动 AI 实验室提出了一种全新的视频生成框架——DreamActor-H1...新技术# DreamActor-H1# 字节跳动6个月前02600
字节跳动推出新型框架ImmerseGen:用于从文本提示自动生成沉浸式 3D 场景字节跳动和浙江大学的研究人员推出新型框架ImmerseGen ,用于从文本提示自动生成沉浸式 3D 场景。ImmerseGen 通过使用轻量级的几何代理(如简化地形和带有 alpha 通道的纹理平面...3D模型# ImmerseGen# 字节跳动6个月前02030
字节跳动提出MAGREF:支持多参考图像和文本提示的高质量视频生成框架近年来,随着扩散模型等深度生成技术的发展,视频生成能力取得了显著进步。然而,在涉及多个参考主体的场景中,如何保证各主体之间的视觉一致性、身份一致性和生成稳定性,依然是一个重大挑战。 为了解决这一问题...视频模型# MAGREF# 字节跳动# 视频生成框架6个月前02240
字节跳动发布 LatentSync 1.6:聚焦高分辨率视频生成,解决模糊问题字节跳动发布了其对口型视频生成模型 LatentSync 的新版本 1.6,重点解决了此前版本中生成牙齿和嘴唇区域模糊的问题。 模型:https://huggingface.co/ByteDance...视频模型# LatentSync 1.6# 字节跳动6个月前02750
字节跳动发布Seaweed APT2:专为实时交互式场景设计的流式视频生成模型字节跳动研究团队推出了Seaweed APT2,一款专为实时交互式场景设计的流式视频生成模型。该模型能够在单块H100 GPU上实现每秒24帧、分辨率高达736x416(等效640x480)的不间断视...视频模型# Seaweed APT2# 字节跳动6个月前02200