新技术

百科工具模型 ComfyUI AI合集 web UI 提示词

教程新技术硬件科普早报

排序

发布更新浏览点赞

DeepPerception：通过结合知识和推理能力，提升多模态大语言模型在细粒度视觉识别任务中的表现

澳门大学、清华大学、西北工业大学和山东大学的研究人员推出DeepPerception，在多模态大语言模型（MLLMs）中推进类似R1的认知视觉感知，用于知识密集型视觉定位。这项研究旨在通过结合知识和推...

新技术 # DeepPerception # 多模态大语言模型

1年前

02540

如何在保持计算效率的同时，将原始文生图模型的多样性和控制能力转移到高效的蒸馏模型中

美国东北大学的研究人员发布论文《Distilling Diversity and Control in Diffusion Models》，探讨了如何在保持计算效率的同时，将原始扩散模型的多样性和控制...

新技术 # 文生图模型 # 蒸馏模型

1年前

04360

基于DiT架构模型无训练框架Personalize Anything：能够在不进行任何训练或微调的情况下，实现高质量的个性化图像生成

清华深圳国际研究生院、北京航空航天大学软件学院、中国人民大学财政金融学院和清华大学自动化系的研究人员推出无训练（training-free）框架Personalize Anything，能够在不进行任...

新技术 # DiT架构 # FLUX模型 # Personalize Anything

1年前

02570

韩国科学技术研究院推出专门针对文生图模型的新型数据投毒攻击方法Silent Branding Attack

韩国科学技术研究院和DeepAuto.ai的研究人员推出一种新型数据投毒攻击方法Silent Branding Attack ，专门针对文生图模型。该方法能够在文生图模型中隐秘地嵌入特定品牌标志或符号...

新技术 # Silent Branding Attack # 文生图模型 # 韩国科学技术研究院

1年前

04680

视频生成框架ReCamMaster：能够根据新的相机轨迹重新渲染输入视频的动态场景

浙江大学、快手科技、中国香港中文大学、华中科技大学的研究人员推出一种创新的视频生成框架ReCamMaster，能够根据新的相机轨迹重新渲染输入视频的动态场景。该技术的核心在于通过预训练的文本到视频（t...

新技术 # ReCamMaster # 动态场景 # 视频生成

1年前

04400

开启大语言模型的新篇章：《大语言模型的后训练技术：全面综述》

在AI领域，大语言模型（LLMs）的发展正以前所未有的速度重塑自然语言处理（NLP）的边界。从聊天机器人到科学探索，LLMs 已经成为不可或缺的工具。然而，这些模型在预训练阶段往往暴露出在特定领域的局...

新技术 # 后训练 # 大语言模型

1年前

02620

Jasper Research推出新型图像到图像转换方法LBM：可以实现对象移除、调整光照等效果

Jasper Research推出一种新型图像到图像转换方法Latent Bridge Matching (LBM) ，这种方法通过在潜在空间中进行“桥匹配”（Bridge Matching）来实现快...

新技术 # Jasper Research # LBM # 图像转换

1年前

04700

长上下文调优训练范式LCT：通过将预训练的单镜头视频扩散模型扩展到场景级视频生成，以生成具有视觉和动态一致性的多镜头视频内容

香港中文大学和字节跳动的研究人员提出了一种名为 Long Context Tuning（LCT，长上下文调优）的训练范式，通过将预训练的单镜头视频扩散模型扩展到场景级视频生成，以生成具有视觉和动态一致...

新技术 # LCT # 训练范式 # 长上下文调优

1年前

03450

清华大学与清程极智开源大模型推理引擎“赤兔 Chitu”，实现 DeepSeek 推理成本降低一半、性能翻番

清华大学高性能计算研究所翟季冬教授团队与清华系科创企业清程极智联合宣布，大模型推理引擎“赤兔 Chitu”现已正式开源。该引擎首次实现了在非英伟达 Hopper 架构 GPU 及各类国产芯片上原生运行...

新技术 # Chitu # DeepSeek # 大模型推理引擎

1年前

03530

加速DiT架构模型的无需训练训练框架Sparse VideoGen（SVG）：可实现2 倍加速和高保真度来加速视频生成

加州大学伯克利分校、麻省理工学院、英伟达和清华大学的研究人员推出一个用于加速DiT架构模型的无需训练训练框架Sparse VideoGen（SVG），通过利用三维全注意力（3D full attent...

新技术 # Sparse VideoGen # SVG # 加速

1年前

04420

用于复杂任务自动化的分层多智能体协作框架PC-Agent：专门针对个人电脑（PC）场景设计

中国科学院自动化研究所自动化智能系统研究所、中国科学院大学人工智能学院、阿里巴巴集团、北京交通大学和上海科技大学信息科学与技术学院的研究人员推出PC-Agent，这是一个用于复杂任务自动化的分层多智能...

新技术 # PC-Agent # 分层多智能体协作框架

1年前

02090

Luma AI推出新型生成模型框架IMM：实现仅 8 步内生成高质量图像

Luma AI和斯坦福大学的研究人员推出新型生成模型框架 Inductive Moment Matching (IMM) ，旨在解决扩散模型（Diffusion Models）和流匹配（Flow Ma...

新技术 # IMM # Luma AI # 图像生成模型

1年前

04320

加载更多