字节跳动发布豆包大模型 1.5 Pro,性能超越 GPT-4o 和 Claude 3.5 Sonnet字节跳动今日正式发布了其最新的豆包大模型 1.5 Pro(Doubao-1.5-pro),该模型在多个测评基准上,包括知识、代码、推理和中文等方面,展现了优于 GPT-4o 和 Claude 3.5 ...早报# 字节跳动# 豆包大模型 1.5 Pro10个月前03150
字节跳动推出新型单目深度估计方法Video Depth Anything:专门用于超长视频(数分钟)的高质量、一致的深度估计字节跳动推出新型单目深度估计方法Video Depth Anything,专门用于超长视频(数分钟)的高质量、一致的深度估计。该方法基于 Depth Anything V2,通过引入高效的空间-时间头...新技术# Video Depth Anything# 字节跳动11个月前02540
新型自动化 GUI交互模型 UI-TARS:能够通过感知屏幕截图作为输入,并执行类似人类操作的交互任务(如键盘输入和鼠标操作)字节跳动与清华大学的研究人员推出新型自动化 GUI(图形用户界面)交互模型 UI-TARS,它是一种原生的 GUI 代理模型,能够通过感知屏幕截图作为输入,并执行类似人类操作的交互任务(如键盘输入和鼠...多模态模型# UI-TARS# 字节跳动8个月前03320
字节跳动推出视频生成模型训练新方法APT:通过在扩散预训练的基础上对真实数据进行对抗训练,以实现一步视频生成扩散模型在图像和视频生成领域展示了卓越的能力,但其迭代性质导致了生成过程缓慢且计算成本高昂。尽管现有的蒸馏方法尝试通过一步生成来解决这一问题,但往往伴随着显著的生成质量下降。为了解决这些挑战,字节跳动...新技术# APT# Seaweed-APT模型# 字节跳动11个月前02600
字节跳动推出新型图像分词器TA-TiTok及掩码生成模型MaskGen字节跳动和浦项科技大学的研究人员提出了一种名为TA-TiTok的新型图像分词器。这是一种基于Transformer架构的文本感知一维分词器,能够高效处理离散或连续的一维标记。基于TA-TiTok的成功...新技术# MaskGen# TA-TiTok# 字节跳动11个月前02600
ComfyUI-LatentSyncWrapper:基于字节跳动唇音同步框架LatentSync的非官方ComfyUI节点ComfyUI-LatentSyncWrapper是专门为ComfyUI设计的非官方节点,基于字节跳动的LatentSync框架,实现视频中嘴唇动作与音频输入的同步。借助这一工具,用户可以在Comfy...插件# LatentSync# LatentSync 1.5# 唇音同步9个月前01,4760
字节跳动发布通用图像编辑模型SeedEdit:已经在豆包PC端及即梦网页端开启测试11月11日,字节在豆包大模型团队官网上公布最新通用图像编辑模型SeedEdit。SeedEdit支持一句话轻松改图,包括修图、换装、美化、转化风格、在指定区域添加删除元素等各类编辑操作,通过简单的自...工具# SeedEdit# 即梦# 字节跳动1年前04100
字节跳动推出人像动画技术X-Portrait 2:创建富有表现力和逼真的角色动画和视频素材人像动画技术提供了一种超低成本且高效的方式,用于创建富有表现力和逼真的角色动画和视频素材。用户只需提供一个静态人像图像和一个驱动表演视频,模型就可以使用这些输入生成视频,通过将驱动表情转移到人像中的主...新技术# X-Portrait 2# 人像动画# 字节跳动1年前03740
字节推出TextToon:在实时环境中将真人的头像转换成卡通化的形象罗切斯特大学和字节跳动的研究人员推出TextToon,它能够在实时环境中将真人的头像转换成卡通化的形象。就像魔法一样,这项技术可以把你从视频中的头像变成你想要的任何卡通风格,比如美国漫画风格、皮克斯动...新技术# TextToon# 字节跳动1年前05680
字节跳动推出基于音频驱动人物肖像新框架Loopy:专门用于生成与音频同步的逼真人像视频字节跳动和浙江大学的研究人员推出新型人工智能模型Loopy,它专门用于生成与音频同步的逼真人像视频。Loopy的核心特点是完全基于音频信号来驱动人像动作,而不需要额外的空间信号来辅助控制动作,这使得生...新技术# Loopy# 人物# 字节跳动1年前06340
字节跳动推出AI音乐生成产品-海绵音乐对于AI音乐,前面已经给大家介绍了Suno和Udio,字节跳动也在这一赛道发力,在昨天推出了AI音乐生成产品-海绵音乐,从目前生成效果来看,虽然还不如Suno和Udio,但对于中文歌曲生成效果还不错...工具# AI音乐# 字节跳动# 海绵音乐1年前07250
字节跳动推出新型视频生成技术CamTrol:为现有的视频扩散模型增添摄像机运动操控功能中国科学技术大学和字节跳动的研究人员推出新型视频生成技术CamTrol,这是一种无需训练的、强大的解决方案,可以为现有的视频扩散模型增添摄像机运动操控功能。简单来说,就是可以在不经过额外训练的情况下...新技术# CamTrol# 字节跳动# 视频生成1年前07310