小马良 - SD百科 - 第2页

阿里推出新型音频驱动的虚拟角色视频生成方法EMO2：同时生成富有表现力的面部表情和手势动作

阿里推出新型音频驱动的虚拟角色视频生成方法EMO2：同时生成富有表现力的面部表情和手势动作

阿里在去年2月推出新型音频驱动的虚拟角色视频生成方法EMO，近期又发布了 EMO2，它...

1周前 60

GameFactory框架：通过生成式交互视频来创建全新的游戏

GameFactory框架：通过生成式交互视频来创建全新的游戏

香港大学和快手科技的研究人员推出GameFactory框架，旨在通过生成式交互视频来创建...

1周前 58

新型多概念个性化方法TokenVerse：通过预训练的DiT架构文生图模型实现从单张或多张图像中提取复杂视觉概念，并支持无缝组合这些概念以生成新的图像

新型多概念个性化方法TokenVerse：通过预训练的DiT架构文生图模型实现从单张或多张图像中提取复杂视觉概念，并支持无缝组合这些概念以生成新的图像

谷歌 DeepMind、特拉维夫大学、以色列理工学院和魏茨曼研究所的研究人员推出新型多...

1周前 60

多智能体协作框架 FILMAGENT：通过大语言模型实现虚拟 3D 空间中的端到端电影自动化制作

多智能体协作框架 FILMAGENT：通过大语言模型实现虚拟 3D 空间中的端到端电影自动化制作

哈尔滨工业大学（深圳）和清华大学的研究人员推出多智能体协作框架 FILMAGENT，旨...

1周前 60

新型多模态基础模型VideoLLaMA 3：提升图像和视频理解的性能

新型多模态基础模型VideoLLaMA 3：提升图像和视频理解的性能

阿里巴巴达摩院的研究人员推出新型多模态基础模型VideoLLaMA 3，旨在提升图像和视...

1周前 54

字节跳动推出新型身份保持视频生成方法EchoVideo

字节跳动推出新型身份保持视频生成方法EchoVideo

字节跳动推出新型身份保持视频生成方法EchoVideo ，旨在通过多模态特征融合解决传...

1周前 50

1Prompt1Story：解决文生图模型生成中的一致性问题

1Prompt1Story：解决文生图模型生成中的一致性问题

南开大学、巴塞罗那自治大学计算机视觉中心、穆罕默德·本·扎耶德人工智能大学，林...

1周前 50

基于扩散模型的视频修复方法DiffuEraser：分解视频修复任务为子问题并给出解决方案

基于扩散模型的视频修复方法DiffuEraser：分解视频修复任务为子问题并给出解决方案

阿里巴巴通义实验室的研究人员推出一种基于扩散模型的视频修复方法DiffuEraser，能...

1周前 38

思维链推理策略在自回归图像生成中的应用潜力

思维链推理策略在自回归图像生成中的应用潜力

香港中文大学、北京大学和上海人工智能实验室的研究人员探索思维链（Chain-of-Thou...

1周前 42

Llasa：基于LLaMA语言模型的先进文本转语音（TTS）系统

Llasa：基于LLaMA语言模型的先进文本转语音（TTS）系统

文本转语音（TTS）技术正成为人机交互领域的重要工具。随着娱乐、无障碍服务、客户...

2周前 52

Hugging Face发布号称同类最小的多模态模型SmolVLM系列

Hugging Face发布号称同类最小的多模态模型SmolVLM系列

Hugging Face团队最近发布了两款名为SmolVLM-256M和SmolVLM-500M的新模型，它们被...

2周前 52

新型自动化 GUI交互模型 UI-TARS：能够通过感知屏幕截图作为输入，并执行类似人类操作的交互任务（如键盘输入和鼠标操作）

新型自动化 GUI交互模型 UI-TARS：能够通过感知屏幕截图作为输入，并执行类似人类操作的交互任务（如键盘输入和鼠标操作）

字节跳动与清华大学的研究人员推出新型自动化 GUI（图形用户界面）交互模型 UI-TAR...

2周前 64

升级VIP
全屏浏览
夜间模式
返回顶部