新MineStudio:用于简化《我的世界(Minecraft)》中AI代理开发的开源软件包 北京大学和加州大学洛杉矶分校的研究人员推出MineStudio,这是一个用于简化《我的世界(Minecraft)》中AI代理开发的开源软件包。它通过整合七个关键工程组件(模拟器、数据、模型、离线预训练... 新技术# MineStudio# 我的世界 7小时前050
新WikiAutoGen:用于自动化生成多模态维基百科风格文章的系统 阿卜杜拉国王科技大学、兰州大学、悉尼大学的研究人员推出WikiAutoGen,这是一个用于自动化生成多模态维基百科风格文章的系统。它通过整合文本和图像信息,生成高质量、多模态的维基百科风格文章,同时引... 新技术# WikiAutoGen# 多模态# 维基百科 1天前0140
新Diffusion-4K:利用潜在扩散模型(如SD3、Flux)进行超高清(4K)图像生成 北京航空航天大学和美团的研究人员推出 Diffusion-4K,即利用潜在扩散模型(Latent Diffusion Models)进行超高清(4K)图像合成。该研究的核心目标是直接生成高质量的4K图... 新技术# Diffusion-4K# FLUX# SD3 1天前0330
新FilmComposer:利用大语言模型驱动的方法为无声电影片段生成音乐 上海大学和上海电影特效工程技术研究中心的研究人员推出 FilmComposer,利用大语言模型(LLM)驱动的方法为无声电影片段生成音乐。FilmComposer 旨在模拟专业音乐家的实际工作流程,结... 新技术# FilmComposer# 大语言模型# 音乐 2天前0200
新Video-T1:视频生成任务中引入测试时扩展(TTS)技术,以提升生成视频的质量和与文本提示的一致性 清华大学和腾讯的研究人员推出 Video-T1,在视频生成任务中引入测试时扩展(Test-Time Scaling, TTS)技术,以提升生成视频的质量和与文本提示的一致性。通过在推理阶段增加计算资源... 新技术# TTS# Video-T1# 测试时扩展 2天前0230
新CFG-Zero⋆:用于提升基于流匹配模型的图像和视频生成效果 南洋理工大学和普渡大学的研究人员推出CFG-Zero⋆,即一种改进的分类器自由引导(CFG)方法,专门用于提升基于流匹配(Flow Matching)模型(如SD3模型)的图像和视频生成效果。流匹配模... 新技术# CFG-Zero⋆# 分类器自由引导 2天前0270
改进大语言模型的后训练方法,提升其在创意写作任务中的输出多样性和质量 Midjourney和纽约大学的研究人员发布论文《Modifying Large Language Model Post-Training for Diverse Creative Writing》,... 新技术# 创意写作# 大语言模型 4天前0230
字节跳动发布DAPO(动态采样策略优化):提升大语言模型的推理能力 来自字节跳动、清华大学和香港大学的研究团队共同推出了一款名为 DAPO(动态采样策略优化)的开源系统,旨在提升大语言模型(LLM)的推理能力。DAPO 的发布标志着在强化学习(RL)技术应用于大规模语... 新技术# DAPO# 动态采样策略优化# 大语言模型 6天前0310
新型检索增强生成(RAG)框架 ViDoRAG:专门用于处理视觉丰富文档中的复杂推理任务 中国科学技术大学、阿里通义实验室和上海交通大学的研究人员推出新型检索增强生成(RAG)框架 ViDoRAG,专门用于处理视觉丰富文档中的复杂推理任务。该框架通过动态迭代推理代理(agents)和多模态... 新技术# ViDoRAG# 检索增强生成 6天前0370
视觉概念生成工具 Piece it Together(PiT):将用户提供的部分视觉组件无缝集成到一个连贯的整体概念中,并同时生成缺失的部分,以生成一个完整且合理的概念 特拉维夫大学和Bria AI的研究人员推出一款创新的视觉概念生成工具 Piece it Together(PiT),能够将用户提供的部分视觉组件无缝集成到一个连贯的整体概念中,并同时生成缺失的部分,以... 新技术# PiT# 视觉概念生成 1周前0270
腾讯开源用于加速形状生成的通用框架 FlashVDM:加速 Hunyuan3D 2.0 模型生成速度提升30 倍 腾讯推出一个通用的框架FlashVDM,用于加速形状生成向量集扩散模型(VDM),例如 Hunyuan3D-2、Michelangelo、CraftsMan3D、CLAY、TripoSG、Dora 等... 新技术# FlashVDM# Hunyuan3D-2.0# 腾讯 1周前0290
苹果提出了新的文生图模型架构DiT-Air和DiT-Air-Lite:提高模型的参数效率和生成性能 苹果提出了新的文生图模型架构DiT-Air和DiT-Air-Lite,旨在提高模型的参数效率和生成性能。其论文主要研究了扩散模型(Diffusion Models)在文本到图像生成任务中的架构设计、文... 新技术# DiT-Air# DiT-Air-Lite# 文生图模型 1周前0290