字节跳动

排序

发布更新浏览点赞

字节跳动推出基于Flux的通用框架UNO：支持虚拟试穿、风格化生成、产品设计等功能

字节跳动近日推出了UNO，这是一个强大的通用框架，能够从单一主体到多主体进行定制化演进。UNO不仅展示了出色的泛化能力，还能将多样化的任务统一在一个模型之下，为图像生成领域带来了新的突破。项目主页...

12个月前

06800

字节跳动推出基于DiT模型的人类图像动画框架DreamActor-M1：实现整体性、表现力和鲁棒性的人类图像动画生成

字节跳动推出一个基于DiT模型的人类图像动画框架DreamActor-M1，实现整体性（holistic）、表现力（expressive）和鲁棒性（robust）的人类图像动画生成。该框架通过混合引导...

新技术 # DiT模型 # DreamActor-M1 # 字节跳动

1年前

02840

字节跳动与浙大联合发布轻量高效TTS模型MegaTTS3

字节跳动和浙江大学的研究人员推出的一款轻量级TTS模型：MegaTTS3，0.45B，高质量语音克隆，支持中英文以及中英文混合，支持口音强度控制，后面会支持更细粒度的发音和时长调整。 GitHub：h...

语音模型 # MegaTTS3 # TTS模型 # 字节跳动

1年前

04840

字节跳动发布DAPO（动态采样策略优化）：提升大语言模型的推理能力

来自字节跳动、清华大学和香港大学的研究团队共同推出了一款名为 DAPO（动态采样策略优化）的开源系统，旨在提升大语言模型（LLM）的推理能力。DAPO 的发布标志着在强化学习（RL）技术应用于大规模语...

新技术 # DAPO # 动态采样策略优化 # 大语言模型

1年前

02640

字节跳动推出新型框架 InfiniteYou (InfU)：用于在保留个人身份特征的前提下，通过自由形式的文本描述重新创作照片

字节跳动推出新型框架 InfiniteYou (InfU)，用于在保留个人身份特征的前提下，通过自由形式的文本描述重新创作照片。该框架利用先进的扩散变换器（Diffusion Transformers...

图像模型 # InfiniteYou # InfU # 字节跳动

1年前

01960

ComfyUI-LatentSyncWrapper：基于字节跳动唇音同步框架LatentSync的非官方ComfyUI节点

ComfyUI-LatentSyncWrapper是专门为ComfyUI设计的非官方节点，基于字节跳动的LatentSync框架，实现视频中嘴唇动作与音频输入的同步。借助这一工具，用户可以在Comfy...

插件 # LatentSync # LatentSync 1.5 # 唇音同步

1年前

01,7000

字节跳动旗下AI助手豆包上线「深度思考」推理模式

在2025年3月5日，字节跳动旗下的AI助手豆包宣布正式上线了名为「深度思考」的推理模式。这一更新全面覆盖了问答、搜索、写作和阅读等应用场景，旨在为用户提供更加透明和详细的AI决策过程展示。用户只需简...

早报 # 字节跳动 # 推理模式 # 深度思考

1年前

03800

字节跳动推出基于修正流Transformer 架构的新型图像和视频生成模型家族Goku

香港大学和字节跳动的研究人员推出新型图像和视频生成模型家族Goku，它基于修正流Transformer 架构，实现了行业领先的图像和视频联合生成性能。Goku 的目标是通过高质量的视觉内容生成，推动媒...

视频模型 # Goku # 字节跳动 # 视频生成

1年前

05100

字节跳动推出新型蒸馏模型Hyper-SD：基于SD1.5和SDXL1.0基础模型提炼

字节跳动在推出文生图模型SDXL-Lightning后，又推出了新的蒸馏模型Hyper-SD，它有效地结合了ODE轨迹保留和重构的优点，同时在步骤压缩过程中保持了接近无损的性能。与SDXL-Light...

图像模型 # Hyper-SD # 字节跳动 # 蒸馏模型

1年前

01,1940

字节跳动推出AnimateDiff-Lightning模型：根据文本描述生成视频，还可以视频转视频

字节跳动推出了AnimateDiff-Lightning模型，能够更快地根据文本描述生成视频，比起原来的AnimateDiff模型，速度提升十倍以上。模型地址：https://huggingface...

视频模型 # AnimateDiff-Lightning # 字节跳动

1年前

06470

字节跳动发布豆包大模型 1.5 Pro，性能超越 GPT-4o 和 Claude 3.5 Sonnet

字节跳动今日正式发布了其最新的豆包大模型 1.5 Pro（Doubao-1.5-pro），该模型在多个测评基准上，包括知识、代码、推理和中文等方面，展现了优于 GPT-4o 和 Claude 3.5 ...

早报 # 字节跳动 # 豆包大模型 1.5 Pro

1年前

03270

字节跳动推出新型单目深度估计方法Video Depth Anything：专门用于超长视频（数分钟）的高质量、一致的深度估计

字节跳动推出新型单目深度估计方法Video Depth Anything，专门用于超长视频（数分钟）的高质量、一致的深度估计。该方法基于 Depth Anything V2，通过引入高效的空间-时间头...

新技术 # Video Depth Anything # 字节跳动

1年前

02660

加载更多