新技术

百科工具模型 ComfyUI AI合集 web UI 提示词

教程新技术硬件科普早报

排序

发布更新浏览点赞

WikiAutoGen：用于自动化生成多模态维基百科风格文章的系统

阿卜杜拉国王科技大学、兰州大学、悉尼大学的研究人员推出WikiAutoGen，这是一个用于自动化生成多模态维基百科风格文章的系统。它通过整合文本和图像信息，生成高质量、多模态的维基百科风格文章，同时引...

12个月前

05000

Diffusion-4K：利用潜在扩散模型（如SD3、Flux）进行超高清（4K）图像生成

北京航空航天大学和美团的研究人员推出 Diffusion-4K，即利用潜在扩散模型（Latent Diffusion Models）进行超高清（4K）图像合成。该研究的核心目标是直接生成高质量的4K图...

新技术 # Diffusion-4K # FLUX # SD3

12个月前

05750

FilmComposer：利用大语言模型驱动的方法为无声电影片段生成音乐

上海大学和上海电影特效工程技术研究中心的研究人员推出 FilmComposer，利用大语言模型（LLM）驱动的方法为无声电影片段生成音乐。FilmComposer 旨在模拟专业音乐家的实际工作流程，结...

新技术 # FilmComposer # 大语言模型 # 音乐

12个月前

05580

Video-T1：视频生成任务中引入测试时扩展（TTS）技术，以提升生成视频的质量和与文本提示的一致性

清华大学和腾讯的研究人员推出 Video-T1，在视频生成任务中引入测试时扩展（Test-Time Scaling, TTS）技术，以提升生成视频的质量和与文本提示的一致性。通过在推理阶段增加计算资源...

新技术 # TTS # Video-T1 # 测试时扩展

12个月前

04090

CFG-Zero*：用于提升基于流匹配模型的图像和视频生成效果

南洋理工大学和普渡大学的研究人员推出 CFG-Zero*，即一种改进的分类器自由引导（CFG）方法，专门用于提升基于流匹配（Flow Matching）模型（如SD3模型）的图像和视频生成效果。流匹配...

新技术 # CFG-Zero*# CFG-Zero⋆# 分类器自由引导

12个月前

04890

改进大语言模型的后训练方法，提升其在创意写作任务中的输出多样性和质量

Midjourney和纽约大学的研究人员发布论文《Modifying Large Language Model Post-Training for Diverse Creative Writing...

新技术 # 创意写作 # 大语言模型

12个月前

02270

字节跳动发布DAPO（动态采样策略优化）：提升大语言模型的推理能力

来自字节跳动、清华大学和香港大学的研究团队共同推出了一款名为 DAPO（动态采样策略优化）的开源系统，旨在提升大语言模型（LLM）的推理能力。DAPO 的发布标志着在强化学习（RL）技术应用于大规模语...

新技术 # DAPO # 动态采样策略优化 # 大语言模型

1年前

02630

新型检索增强生成（RAG）框架 ViDoRAG：专门用于处理视觉丰富文档中的复杂推理任务

中国科学技术大学、阿里通义实验室和上海交通大学的研究人员推出新型检索增强生成（RAG）框架 ViDoRAG，专门用于处理视觉丰富文档中的复杂推理任务。该框架通过动态迭代推理代理（agents）和多模态...

新技术 # ViDoRAG # 检索增强生成

1年前

03340

视觉概念生成工具 Piece it Together（PiT）：将用户提供的部分视觉组件无缝集成到一个连贯的整体概念中，并同时生成缺失的部分，以生成一个完整且合理的概念

特拉维夫大学和Bria AI的研究人员推出一款创新的视觉概念生成工具 Piece it Together（PiT），能够将用户提供的部分视觉组件无缝集成到一个连贯的整体概念中，并同时生成缺失的部分，以...

新技术 # PiT # 视觉概念生成

1年前

04960

腾讯开源用于加速形状生成的通用框架 FlashVDM：加速 Hunyuan3D 2.0 模型生成速度提升30 倍

腾讯推出一个通用的框架FlashVDM，用于加速形状生成向量集扩散模型（VDM），例如 Hunyuan3D-2、Michelangelo、CraftsMan3D、CLAY、TripoSG、Dora 等...

新技术 # FlashVDM # Hunyuan3D-2.0 # 腾讯

1年前

03650

苹果提出了新的文生图模型架构DiT-Air和DiT-Air-Lite：提高模型的参数效率和生成性能

苹果提出了新的文生图模型架构DiT-Air和DiT-Air-Lite，旨在提高模型的参数效率和生成性能。其论文主要研究了扩散模型（Diffusion Models）在文本到图像生成任务中的架构设计、文...

新技术 # DiT-Air # DiT-Air-Lite # 文生图模型

1年前

06930

Impossible Videos：通过创建和评估“不可能视频”来挑战和推进视频理解和生成模型的能力

新加坡国立大学的研究人员推出Impossible Videos项目，即“不可能视频”。这项研究旨在通过创建和评估“不可能视频”来挑战和推进视频理解和生成模型的能力。不可能视频是指那些在现实世界中不可能...

新技术 # AI视频 # Impossible Videos # 不可能视频

1年前

04400

加载更多

WikiAutoGen：用于自动化生成多模态维基百科风格文章的系统

Diffusion-4K：利用潜在扩散模型（如SD3、Flux）进行超高清（4K）图像生成

FilmComposer：利用大语言模型驱动的方法为无声电影片段生成音乐

Video-T1：视频生成任务中引入测试时扩展（TTS）技术，以提升生成视频的质量和与文本提示的一致性

CFG-Zero*：用于提升基于流匹配模型的图像和视频生成效果

改进大语言模型的后训练方法，提升其在创意写作任务中的输出多样性和质量

字节跳动发布DAPO（动态采样策略优化）：提升大语言模型的推理能力

新型检索增强生成（RAG）框架 ViDoRAG：专门用于处理视觉丰富文档中的复杂推理任务

视觉概念生成工具 Piece it Together（PiT）：将用户提供的部分视觉组件无缝集成到一个连贯的整体概念中，并同时生成缺失的部分，以生成一个完整且合理的概念

腾讯开源用于加速形状生成的通用框架 FlashVDM：加速 Hunyuan3D 2.0 模型生成速度提升30 倍

苹果提出了新的文生图模型架构DiT-Air和DiT-Air-Lite：提高模型的参数效率和生成性能

Impossible Videos：通过创建和评估“不可能视频”来挑战和推进视频理解和生成模型的能力

S.H.I.T

ITELLOU

Joker of Academics（小丑学术期刊）

ArkClaw

新360 安全龙虾

waoo

新技术

网址

S.H.I.T

ITELLOU

Joker of Academics（小丑学术期刊 ）

ArkClaw

新360 安全龙虾

waoo

Joker of Academics（小丑学术期刊）