视频生成通用世界模型WorldDreamer:可以完成自然场景和自动驾驶场景多种视频生成任务来自清华和极佳科技的研究人员联手推出了全新的视频生成通用世界模型WorldDreamer。它可以完成自然场景和自动驾驶场景多种视频生成任务,例如文生视频、图生视频、视频编辑、动作序列生视频等。 项目主...新技术# WorldDreamer# 视频生成2年前04950
豆包“AI编程”功能重大升级:HTML预览、Python运行以及生成完整项目的能力,进一步提升了用户的开发体验今年初,豆包网页版和电脑版推出了备受欢迎的“AI编程”功能,为用户解决代码难题提供了极大的便利。现在,这一功能迎来了三项重要升级:HTML预览、Python运行以及生成完整项目的能力,进一步提升了用户...早报# 豆包9个月前04930
DeepSeek R1 模型完成小版本升级!官方依旧选择开源,DeepSeek-R1-0528已上线Hugging Face昨晚,DeepSeek 官方在交流群中宣布:DeepSeek R1 已完成小版本升级(代号:R1-0528),用户现已可通过官方网页、App 和小程序体验(记得开启“深度思考”模式),API 接口与使...早报# DeepSeek-R1# DeepSeek-R1-05287个月前04910
Figure重磅发布Figure 03电池,人形机器人能源系统的重大突破人形机器人初创公司 Figure 在今天正式发布其第三代电池系统——Figure 03(F.03)电池,标志着其人形机器人平台在能源系统设计上的重大突破。 这款电池不仅是 Figure 人形机器人技术...早报# Figure# 机器人5个月前04900
多模态统一模型UniMuMo:能够处理文本、音乐和动作(运动)数据,并在这三种模式之间生成内容香港中文大学、华盛顿大学、不列颠哥伦比亚大学、麻省大学阿默斯特分校、 MIT-IBM Watson AI 实验室和思科研究院的研究人员推出多模态统一模型UniMuMo,它能够处理文本、音乐和动作(运动...新技术# UniMuMo# 多模态统一模型1年前04890
StyleCineGAN:从单张风景静图生成循环播放的动态图像韩国科学技术院推出StyleCineGAN,它能够自动从单张风景静图生成循环播放的动态图像,也就是所谓的“cinemagraph”,让普通用户和专业人士都能够轻松创建高质量的cinemagraph,无...新技术# StyleCineGAN# 动态图像2年前04890
Meta 推出免费视频剪辑软件Edits,挑战字节跳动旗下CapCut(剪映)Meta 于本周二正式全球发布了其视频创作应用 Edits,这款应用旨在为创作者提供一个强大的工具,用于跟踪视频创意、获取灵感,并使用特效和 AI 工具创建高质量视频。Edits 支持 iOS 和 A...早报# CapCut# Edits# Meta8个月前04870
全新LoRA训练方法ADDifT(交替直接差分训练)背景与动机 LoRA(低秩适应)是一种参数高效的微调技术,广泛用于大语言模型和扩散模型(如Stable Diffusion)的定制化训练。然而,传统LoRA训练方法存在效率低和易学到无关特征(如背景或...新技术# ADDifT# Lora# LoRA模型9个月前04860
帧感知视频扩散模型FVDM:时间步向量化方法,提高了视频生成任务的质量和灵活性香港城市大学、大湾区大学、国防科技大学、香港中文大学和岭南大学的研究人员推出了一种新的视频扩散模型,称为帧感知视频扩散模型(Frame-Aware Video Diffusion Model,简称FV...新技术# FVDM# 帧感知视频扩散模型1年前04860
3D网格模型生成框架AToM来自Snap、沙特阿卜杜拉国王科技大学、多伦多大学的研究人员推出一款3D模型生成框架AToM(Amortized Text-to-Mesh),AToM的核心特点是能够同时优化多个文本提示(prompt...新技术# 3D网格模型# AToM2年前04860
GenXD:能够从任意数量的条件图像生成高质量的3D和4D场景近年来,2D视觉生成取得了显著成功,但在3D和4D生成方面,由于缺乏大规模数据和有效的模型设计,实际应用仍然具有挑战性。新加坡国立大学和微软的研究人员推出了一个名为GenXD的模型,它能够从任意数量的...新技术# 3D# GenXD1年前04840
用于视觉配音的先进框架PersonaTalk:实现高保真和个性化的视觉配音在音频驱动的视觉配音中,合成准确的口型同步同时保持和突出说话者的“个性”是一个巨大的挑战。现有方法往往未能捕捉到说话者的独特说话风格或保留面部细节。为了解决这一问题,字节跳动提出了 PersonaTa...新技术# PersonaTalk# 视觉配音1年前04830