模型 | 第5页 | SD百科导航

百科工具模型 ComfyUI AI合集 web UI 提示词

大语言模型多模态模型图像模型语音模型 3D模型 Flux衍生视频模型

排序

发布更新浏览点赞

SEARCH-R1：通过强化学习让 LLM 在逐步推理过程中自主生成多个搜索查询，并实时检索信息

伊利诺伊大学厄巴纳-香槟分校计算机科学系和马萨诸塞大学安姆赫斯特分校智能信息检索中心的研究人员推出新型框架SEARCH-R1 ，通过强化学习（ RL）训练大语言模型，使其能够在推理过程中自主生成搜索查...

大语言模型 # DeepSeek-R1 # SEARCH-R1

3周前

0700

新型图像编辑框架PhotoDoodle：通过文字提示在照片中添加艺术化装饰

新加坡国立大学、上海交通大学、北京邮电大学、字节跳动和Tiamat的研究人员推出新型图像编辑框架PhotoDoodle，通过少量样本学习艺术家的独特风格，将装饰元素（如手绘线条、装饰图案等）无缝叠加到...

图像模型 # PhotoDoodle # 图像编辑框架 # 照片涂鸦

3周前

0550

符号音乐生成模型NotaGen：通过借鉴大语言模型（LLM）的训练范式来生成高质量的古典乐谱

中央音乐学院、美国罗切斯特大学、北京飞天云动科技、北京航空航天大学和清华大学的研究人员推出符号音乐生成模型NotaGen，通过借鉴大语言模型（LLM）的训练范式来生成高质量的古典乐谱。其在超过 160...

语音模型 # NotaGen # 古典音乐生成模型

3周前

0550

字节跳动推出新型框架 InfiniteYou (InfU)：用于在保留个人身份特征的前提下，通过自由形式的文本描述重新创作照片

字节跳动推出新型框架 InfiniteYou (InfU)，用于在保留个人身份特征的前提下，通过自由形式的文本描述重新创作照片。该框架利用先进的扩散变换器（Diffusion Transformers...

图像模型 # InfiniteYou # InfU # 字节跳动

3周前

0370

阶跃星辰开源图生视频模型 Step-Video-TI2V：30B参数，运动幅度和镜头运动可控

在2025年2月，阶跃星辰开源了两款Step系列多模态大模型——Step-Video-T2V视频生成模型和Step-Audio语音模型。现在，阶跃星辰进一步扩展其开源贡献，推出了基于30B参数Step...

视频模型 # Step-Video-TI2V # 图生视频模型 # 阶跃星辰

3周前

0320

Orpheus TTS：基于 Llama-3b 构建的先进文本转语音（TTS）模型

Canopy Labs推出基于 Llama-3b 骨干网络构建的开源文本转语音（TTS）模型Orpheus TTS ，这款模型展示了利用大语言模型（LLM）进行高质量语音合成的能力。模型规模与特性 ...

语音模型 # Llama-3b # Orpheus TTS # TTS

3周前

0390

RWKV开源社区推出新型序列建模架构及其预训练语言模型 RWKV-7 "Goose"

RWKV开源社区推出新型序列建模架构及其预训练语言模型 RWKV-7 "Goose"，RWKV-7 是一种基于递归神经网络（RNN）的架构，专为高效处理长序列数据而设计。它在多语言任务上达到了30亿参...

大语言模型 # Goose # RWKV Runner # RWKV-7

3周前

0390

LG开源推理模型EXAONE Deep，在数学与编程方面表现出色

LG AI Research正式开源了其最新研发的AI推理模型——EXAONE Deep。这款模型分为2.4B、7.8B和32B三个版本，在多个关键领域展现出卓越性能。据官方称，EXAONE Deep...

大语言模型 # EXAONE Deep # LG # 推理模型

3周前

0460

英伟达推出世界生成与自适应多模态控制Cosmos-Transfer1

英伟达推出了一个名为 Cosmos World Foundation Model Platform 的平台，旨在为 Physical AI（物理人工智能）提供定制化的世界模型（World Founda...

视频模型 # Cosmos-Transfer1 # 英伟达

3周前

0490

香港科技大学推出统一DiT架构模型AudioX：通过多模态输入（如文本、视频、图像、音乐和音频）生成高质量的音频和音乐

香港科技大学的研究人员推出统一DiT架构模型AudioX，通过多模态输入（如文本、视频、图像、音乐和音频）生成高质量的音频和音乐。AudioX通过创新的多模态掩码训练策略，强制模型从掩码输入中学习，从...

语音模型 # AI音乐 # AudioX # DiT模型

3周前

0470

英伟达开源了世界上第一个人形机器人基础模型 GR00T N1，加速通用人形机器人开发

人形机器人旨在适应人类工作空间，处理重复性或高要求任务。然而，为现实世界的任务和不可预测环境开发通用人形机器人具有挑战性。每项任务通常需要专用的AI模型。从头开始为每个新任务和环境训练这些模型是一个繁...

多模态模型 # GR00T N1 # 人形机器人基础模型 # 英伟达

3周前

0470

阿里通义实验室推出新型模型LHM：能够在几秒钟内从单张图像重建出可动画化的人体三维模型

阿里通义实验室推出新型模型LHM，能够在几秒钟内从单张图像重建出可动画化的人体三维模型。该模型利用多模态变换器架构，有效融合了人体位置特征和图像特征，通过注意力机制实现了几何和视觉领域的联合推理。项...

视频模型 # LHM # 阿里通义实验室

3周前

0660

加载更多

模型