新技术

百科工具模型 ComfyUI AI合集 web UI 提示词

教程新技术硬件科普早报

排序

发布更新浏览点赞

UniVG-R1：通过推理引导的多模态大语言模型实现通用视觉定位

传统视觉定位方法主要关注单图像场景，依赖于简单文本引用。然而，在现实世界中，处理隐含和复杂的指令，尤其是在涉及多图像的情况下，是一个重大挑战，主要原因是缺乏跨多模态上下文的高级推理能力。项目主页：h...

8个月前

02280

Vid2World：将预训练的视频扩散模型转化为交互式世界模型

清华大学软件学院、清华大学交叉信息研究所和重庆大学计算机学院的研究人员推出 Vid2World，将预训练的视频扩散模型（Video Diffusion Models）转化为交互式世界模型（Intera...

新技术 # Vid2World # 交互式世界模型 # 视频扩散模型

8个月前

02920

针对大语言模型（LLMs）的量化感知训练（QAT）的统一缩放定律

香港大学和字节跳动的研究人员介绍了一种针对大语言模型（LLMs）的量化感知训练（QAT）的统一缩放定律。量化是一种减少模型权重和激活精度的方法，以降低内存使用和计算成本。尽管现有的量化方法在中等精度...

新技术 # 大语言模型 # 量化感知训练

8个月前

02510

3DTown框架：从单张俯视图像生成逼真且连贯的三维（3D）场景

加州大学圣克鲁兹分校、哥伦比亚大学和Cybever AI的研究人员推出 3DTown框架，从单张俯视图像生成逼真且连贯的三维（3D）场景。传统的详细3D场景获取方法通常需要昂贵的设备、多视角数据或人工...

新技术 # 3DTown # 3D场景

8个月前

01870

视频生成控制框架Uni3C：通过统一的3D增强方法精确控制视频生成中的相机和人物动作

阿里巴巴达摩院、复旦大学和湖畔实验室的研究人员推出Uni3C框架，通过统一的3D增强方法精确控制视频生成中的相机和人物动作。项目主页：https://ewrfcas.github.io/Uni3C ...

新技术 # Uni3C # 视频生成

8个月前

03150

谷歌推出LightLab：基于扩散模型的AI工具，实现单张图像中的精细光照控制

在图像后期处理中，操控光照条件一直是一个复杂且具有挑战性的任务。传统方法依赖于3D图形技术，通过多次捕获重建场景的几何结构和属性，并利用物理光照模型模拟新的光照效果。尽管这些技术提供了对光源的明确控制...

新技术 # LightLab # 光照控制 # 谷歌

9个月前

02970

英伟达发布人体运动的通用模型Genmo：实现从视频、2D 关键点、文本描述、音乐和3D 关键帧等多种条件信号中生成和估计高质量的人类运动

英伟达研究团队开发的统一框架 GENMO，用于人类运动建模。GENMO 的目标是将人类运动估计（estimation）和生成（generation）任务整合到一个框架中，从而实现从视频、2D 关键点...

新技术 # Genmo # 人体运动 # 英伟达

9个月前

02710

西湖大学和浙江大学的研究人员推出统一框架UCGM：用于训练、采样和理解连续生成模型

西湖大学和浙江大学的研究人员推出统一框架UCGM，用于训练、采样和理解连续生成模型。UCGM通过一个统一的训练目标和采样算法，将多步生成模型（如扩散模型和流匹配模型）与少步生成模型（如一致性模型）结合...

新技术 # UCGM # 统一框架

9个月前

02900

新型参考式人类图像补全框架CompleteMe：通过参考图像来补全被遮挡或缺失的人类图像区域，同时保留独特的细节信息

加州大学默塞德分校和Adobe Research的研究人员推出新型参考式人类图像补全框架CompleteMe，旨在通过参考图像来补全被遮挡或缺失的人类图像区域，同时保留独特的细节信息，如特定的服装图案...

新技术 # CompleteMe

9个月前

03820

基于解耦身份和运动的主体驱动视频生成的新方法

首尔国立大学、微软亚洲研究院和浦项科技大学的研究人员推出提出了一种**基于解耦身份和运动的主体驱动视频生成（Subject-driven Video Generation via Disentang...

新技术 # 视频生成

9个月前

02570

Flow-GRPO：将在线强化学习与流匹配模型相结合，用于提升文生图模型生成任务的性能

香港中文大学MM实验室、清华大学、快手科技、南京大学和上海人工智能实验室推出新方法Flow-GRPO，它将在线强化学习（Reinforcement Learning, RL）与流匹配（Flow Mat...

新技术 # Flow-GRPO # 强化学习 # 流匹配

9个月前

04070

Meta推出LlamaFirewall，为AI智能体提供全方位系统级安全保护

随着大语言模型（LLMs）在高权限场景中的广泛应用，AI智能体的安全问题日益凸显。这些智能体能够读取邮件、生成代码、调用API，甚至执行复杂的任务链。然而，一旦被恶意利用，可能导致严重的安全隐患。为了...

新技术 # LlamaFirewall # Meta # 安全

9个月前

01790

加载更多

UniVG-R1：通过推理引导的多模态大语言模型实现通用视觉定位

Vid2World：将预训练的视频扩散模型转化为交互式世界模型

针对大语言模型（LLMs）的量化感知训练（QAT）的统一缩放定律

3DTown框架：从单张俯视图像生成逼真且连贯的三维（3D）场景

视频生成控制框架Uni3C：通过统一的3D增强方法精确控制视频生成中的相机和人物动作

谷歌推出LightLab：基于扩散模型的AI工具，实现单张图像中的精细光照控制

英伟达发布人体运动的通用模型Genmo：实现从视频、2D 关键点、文本描述、音乐和3D 关键帧等多种条件信号中生成和估计高质量的人类运动

西湖大学和浙江大学的研究人员推出统一框架UCGM：用于训练、采样和理解连续生成模型

新型参考式人类图像补全框架CompleteMe：通过参考图像来补全被遮挡或缺失的人类图像区域，同时保留独特的细节信息

基于解耦身份和运动的主体驱动视频生成的新方法

Flow-GRPO：将在线强化学习与流匹配模型相结合，用于提升文生图模型生成任务的性能

Meta推出LlamaFirewall，为AI智能体提供全方位系统级安全保护

新QoderWork

Clawdbot/Moltbot

Situation Monitor

中国科技云数据胶囊

ITELLOU

CutCut

新技术

网址

新QoderWork

Clawdbot/Moltbot

Situation Monitor

中国科技云数据胶囊

ITELLOU

CutCut