新技术

百科工具模型 ComfyUI AI合集 web UI 提示词

教程新技术硬件科普早报

排序

发布更新浏览点赞

韩国科学技术院提出超分辨率框架Chain-of-Zoom（CoZ）：突破单图像超分辨率模型的放大极限

近年来，单图像超分辨率（SISR）模型在固定缩放因子下已经能够生成接近真实照片质量的图像。然而，一旦尝试超出训练范围进行放大，就会出现模糊、伪影等问题，严重影响视觉效果。此外，如果想获得更高倍数的...

11个月前

07810

原生FP4训练框架 Quartet：通过在低精度（ FP4）下进行高效的端到端训练，显著提升大语言模型（LLMs）的训练效率和性能

ISTA和苏黎世联邦理工学院的研究人员推出原生FP4训练框架 Quartet，通过在低精度（ FP4）下进行高效的端到端训练，显著提升大语言模型（LLMs）的训练效率和性能，二之前DeepSeek R...

新技术 # FP4训练框架 # Quartet

11个月前

03350

新型测试时扩展框架Evolutionary Search (EvoSearch) ：通过在推理阶段分配额外计算资源来提升图像和视频生成模型的性能

香港科技大学和快手的研究人员推出新型测试时扩展（Test-Time Scaling, TTS）框架Evolutionary Search (EvoSearch) ，通过在推理阶段分配额外计算资源来提升...

新技术 # Evolutionary Search # EvoSearch

11个月前

03890

基于 ComfyUI 平台构建的协作式 AI 系统ComfyMind：打造稳定、灵活、可扩展的通用生成平台

随着生成模型的飞速发展，“通用生成（General-Purpose Generation）”正成为 AI 领域的新焦点。它旨在通过一个统一系统，支持图像、视频、文本等多种模态任务的生成与编辑，为复杂创...

新技术 # ComfyMind # 图像生成 # 视频生成

11个月前

03450

纯视觉推理新范式Visual Planning：通过纯视觉表征进行规划，无需依赖文本

剑桥大学语言技术实验室、伦敦大学学院和谷歌的研究人员一种名为“Visual Planning（视觉规划）”的新范式，通过纯视觉表征进行规划，无需依赖文本。该范式受到认知科学中双重编码理论的启发，主张人...

新技术 # Visual Planning # 视觉推理

11个月前

02810

UniVG-R1：通过推理引导的多模态大语言模型实现通用视觉定位

传统视觉定位方法主要关注单图像场景，依赖于简单文本引用。然而，在现实世界中，处理隐含和复杂的指令，尤其是在涉及多图像的情况下，是一个重大挑战，主要原因是缺乏跨多模态上下文的高级推理能力。项目主页：h...

新技术 # UniVG-R1 # 多模态大语言模型 # 视觉定位

11个月前

02500

Vid2World：将预训练的视频扩散模型转化为交互式世界模型

清华大学软件学院、清华大学交叉信息研究所和重庆大学计算机学院的研究人员推出 Vid2World，将预训练的视频扩散模型（Video Diffusion Models）转化为交互式世界模型（Intera...

新技术 # Vid2World # 交互式世界模型 # 视频扩散模型

11个月前

03110

针对大语言模型（LLMs）的量化感知训练（QAT）的统一缩放定律

香港大学和字节跳动的研究人员介绍了一种针对大语言模型（LLMs）的量化感知训练（QAT）的统一缩放定律。量化是一种减少模型权重和激活精度的方法，以降低内存使用和计算成本。尽管现有的量化方法在中等精度...

新技术 # 大语言模型 # 量化感知训练

11个月前

02980

3DTown框架：从单张俯视图像生成逼真且连贯的三维（3D）场景

加州大学圣克鲁兹分校、哥伦比亚大学和Cybever AI的研究人员推出 3DTown框架，从单张俯视图像生成逼真且连贯的三维（3D）场景。传统的详细3D场景获取方法通常需要昂贵的设备、多视角数据或人工...

新技术 # 3DTown # 3D场景

11个月前

01930

视频生成控制框架Uni3C：通过统一的3D增强方法精确控制视频生成中的相机和人物动作

阿里巴巴达摩院、复旦大学和湖畔实验室的研究人员推出Uni3C框架，通过统一的3D增强方法精确控制视频生成中的相机和人物动作。项目主页：https://ewrfcas.github.io/Uni3C ...

新技术 # Uni3C # 视频生成

11个月前

04240

谷歌推出LightLab：基于扩散模型的AI工具，实现单张图像中的精细光照控制

在图像后期处理中，操控光照条件一直是一个复杂且具有挑战性的任务。传统方法依赖于3D图形技术，通过多次捕获重建场景的几何结构和属性，并利用物理光照模型模拟新的光照效果。尽管这些技术提供了对光源的明确控制...

新技术 # LightLab # 光照控制 # 谷歌

11个月前

03560

英伟达发布人体运动的通用模型Genmo：实现从视频、2D 关键点、文本描述、音乐和3D 关键帧等多种条件信号中生成和估计高质量的人类运动

英伟达研究团队开发的统一框架 GENMO，用于人类运动建模。GENMO 的目标是将人类运动估计（estimation）和生成（generation）任务整合到一个框架中，从而实现从视频、2D 关键点...

新技术 # Genmo # 人体运动 # 英伟达

11个月前

03010

加载更多

韩国科学技术院提出超分辨率框架Chain-of-Zoom（CoZ）：突破单图像超分辨率模型的放大极限

原生FP4训练框架 Quartet：通过在低精度（ FP4）下进行高效的端到端训练，显著提升大语言模型（LLMs）的训练效率和性能

新型测试时扩展框架Evolutionary Search (EvoSearch) ：通过在推理阶段分配额外计算资源来提升图像和视频生成模型的性能

基于 ComfyUI 平台构建的协作式 AI 系统ComfyMind：打造稳定、灵活、可扩展的通用生成平台

纯视觉推理新范式Visual Planning：通过纯视觉表征进行规划，无需依赖文本

UniVG-R1：通过推理引导的多模态大语言模型实现通用视觉定位

Vid2World：将预训练的视频扩散模型转化为交互式世界模型

针对大语言模型（LLMs）的量化感知训练（QAT）的统一缩放定律

3DTown框架：从单张俯视图像生成逼真且连贯的三维（3D）场景

视频生成控制框架Uni3C：通过统一的3D增强方法精确控制视频生成中的相机和人物动作

谷歌推出LightLab：基于扩散模型的AI工具，实现单张图像中的精细光照控制

英伟达发布人体运动的通用模型Genmo：实现从视频、2D 关键点、文本描述、音乐和3D 关键帧等多种条件信号中生成和估计高质量的人类运动

S.H.I.T

ITELLOU

TapNow

Tripo

Joker of Academics（小丑学术期刊）

MinerU

新技术

网址

S.H.I.T

ITELLOU

TapNow

Tripo

Joker of Academics（小丑学术期刊 ）

MinerU

Joker of Academics（小丑学术期刊）