新字节跳动发布DAPO(动态采样策略优化):提升大语言模型的推理能力 来自字节跳动、清华大学和香港大学的研究团队共同推出了一款名为 DAPO(动态采样策略优化)的开源系统,旨在提升大语言模型(LLM)的推理能力。DAPO 的发布标志着在强化学习(RL)技术应用于大规模语... 新技术# DAPO# 动态采样策略优化# 大语言模型 2天前0120
新新型检索增强生成(RAG)框架 ViDoRAG:专门用于处理视觉丰富文档中的复杂推理任务 中国科学技术大学、阿里通义实验室和上海交通大学的研究人员推出新型检索增强生成(RAG)框架 ViDoRAG,专门用于处理视觉丰富文档中的复杂推理任务。该框架通过动态迭代推理代理(agents)和多模态... 新技术# ViDoRAG# 检索增强生成 2天前0120
新视觉概念生成工具 Piece it Together(PiT):将用户提供的部分视觉组件无缝集成到一个连贯的整体概念中,并同时生成缺失的部分,以生成一个完整且合理的概念 特拉维夫大学和Bria AI的研究人员推出一款创新的视觉概念生成工具 Piece it Together(PiT),能够将用户提供的部分视觉组件无缝集成到一个连贯的整体概念中,并同时生成缺失的部分,以... 新技术# PiT# 视觉概念生成 3天前0110
腾讯开源用于加速形状生成的通用框架 FlashVDM:加速 Hunyuan3D 2.0 模型生成速度提升30 倍 腾讯推出一个通用的框架FlashVDM,用于加速形状生成向量集扩散模型(VDM),例如 Hunyuan3D-2、Michelangelo、CraftsMan3D、CLAY、TripoSG、Dora 等... 新技术# FlashVDM# Hunyuan3D-2.0# 腾讯 3天前0160
苹果提出了新的文生图模型架构DiT-Air和DiT-Air-Lite:提高模型的参数效率和生成性能 苹果提出了新的文生图模型架构DiT-Air和DiT-Air-Lite,旨在提高模型的参数效率和生成性能。其论文主要研究了扩散模型(Diffusion Models)在文本到图像生成任务中的架构设计、文... 新技术# DiT-Air# DiT-Air-Lite# 文生图模型 4天前0190
Impossible Videos:通过创建和评估“不可能视频”来挑战和推进视频理解和生成模型的能力 新加坡国立大学的研究人员推出Impossible Videos项目,即“不可能视频”。这项研究旨在通过创建和评估“不可能视频”来挑战和推进视频理解和生成模型的能力。不可能视频是指那些在现实世界中不可能... 新技术# AI视频# Impossible Videos# 不可能视频 4天前0240
DeepPerception:通过结合知识和推理能力,提升多模态大语言模型在细粒度视觉识别任务中的表现 澳门大学、清华大学、西北工业大学和山东大学的研究人员推出DeepPerception,在多模态大语言模型(MLLMs)中推进类似R1的认知视觉感知,用于知识密集型视觉定位。这项研究旨在通过结合知识和推... 新技术# DeepPerception# 多模态大语言模型 4天前0150
如何在保持计算效率的同时,将原始文生图模型的多样性和控制能力转移到高效的蒸馏模型中 美国东北大学的研究人员发布论文《Distilling Diversity and Control in Diffusion Models》,探讨了如何在保持计算效率的同时,将原始扩散模型的多样性和控制... 新技术# 文生图模型# 蒸馏模型 4天前0170
基于DiT架构模型无训练框架Personalize Anything:能够在不进行任何训练或微调的情况下,实现高质量的个性化图像生成 清华深圳国际研究生院、北京航空航天大学软件学院、中国人民大学财政金融学院和清华大学自动化系的研究人员推出无训练(training-free)框架Personalize Anything,能够在不进行任... 新技术# DiT架构# FLUX模型# Personalize Anything 5天前0220
韩国科学技术研究院推出专门针对文生图模型的新型数据投毒攻击方法Silent Branding Attack 韩国科学技术研究院和DeepAuto.ai的研究人员推出一种新型数据投毒攻击方法Silent Branding Attack ,专门针对文生图模型。该方法能够在文生图模型中隐秘地嵌入特定品牌标志或符号... 新技术# Silent Branding Attack# 文生图模型# 韩国科学技术研究院 5天前0260
视频生成框架ReCamMaster:能够根据新的相机轨迹重新渲染输入视频的动态场景 浙江大学、快手科技、中国香港中文大学、华中科技大学的研究人员推出一种创新的视频生成框架ReCamMaster,能够根据新的相机轨迹重新渲染输入视频的动态场景。该技术的核心在于通过预训练的文本到视频(t... 新技术# ReCamMaster# 动态场景# 视频生成 6天前0390
开启大语言模型的新篇章:《大语言模型的后训练技术:全面综述》 在AI领域,大语言模型(LLMs)的发展正以前所未有的速度重塑自然语言处理(NLP)的边界。从聊天机器人到科学探索,LLMs 已经成为不可或缺的工具。然而,这些模型在预训练阶段往往暴露出在特定领域的局... 新技术# 后训练# 大语言模型 6天前0250