模型 | 第72页 | SD百科导航

百科工具模型 ComfyUI AI合集 web UI 提示词

大语言模型多模态模型图像模型语音模型 3D模型 Flux衍生视频模型世界模型

排序

发布更新浏览点赞

Deep Cogito推出Cogito v1系列混合AI推理模型，基于Llama/Qwen训练

Deep Cogito在今天发布了其最新成果——Cogito v1系列模型，这是一组参数规模从30亿到700亿不等的开源大语言模型（LLMs）。这些模型不仅在性能上超越了同等规模的最佳开源模型，还引入...

1年前

04030

拥有20亿参数的多模态大语言模型Open-Qwen2VL

在多模态大语言模型（MLLMs）的研究与应用中，视觉与文本模态的融合正在不断拓展其边界，从图像描述到视觉问答，再到复杂文档的解读，这些模型展现出了强大的能力。然而，这一领域的进一步发展面临着诸多挑战...

多模态模型 # Open-Qwen2VL # 多模态大语言模型

1年前

01930

新型图像编码器FlexTok：能够将二维图像重新采样为长度可变的一维离散标记（token）序列

苹果和瑞士洛桑联邦理工学院的研究人员推出新型图像编码器FlexTok，它能够将二维图像重新采样为长度可变的一维离散标记（token）序列。FlexTok 的核心思想是通过灵活的标记长度来适应图像的复杂...

图像模型 # FlexTok # 图像编码器

1年前

04680

新型框架WriteHERE：通过异构递归规划实现自适应的长文本写作

长文本写作（如小说、技术报告等）需要在信息检索、推理和创作之间进行灵活的整合与交互。现有的方法通常依赖于预定义的工作流程和僵化的思维模式，先生成大纲再进行写作，这限制了写作过程中的适应性。项目主页...

大语言模型 # WriteHERE # 长文本写作

1年前

04140

阿里巴巴通义实验室推出新型单次拍摄可动画化的高斯头部模型 LAM：能够从单张图像中生成可动画化且可渲染的高斯头像

阿里巴巴通义实验室推出新型单次拍摄可动画化的高斯头部模型 LAM（Large Avatar Model），能够从单张图像中生成可动画化且可渲染的高斯头像。与以往需要大量视频序列训练或依赖辅助神经网络进...

视频模型 # LAM # 通义实验室 # 高斯头像

1年前

04680

统一视觉自回归模型 VARGPT-v1.1：统一视觉理解和图像生成任务

北京大学和香港中文大学的研究人员推出先进统一视觉自回归模型 VARGPT-v1.1 ，该模型在多模态理解和文本到图像生成任务中表现出色。它通过迭代指令微调和强化学习等创新训练策略，显著提升了模型的性能...

多模态模型 # VARGPT-v1.1 # 统一视觉自回归模型

1年前

04590

新型框架HumanDreamer-X：用于从单张图像重建逼真的可动画化三维人类虚拟形象（avatar）

GigaAI、中国科学院自动化研究所和北京大学的研究人员推出新型框架HumanDreamer-X，用于从单张图像重建逼真的可动画化三维人类虚拟形象（avatar）。该框架通过结合三维重建和视频修复技术...

3D模型 # HumanDreamer-X # 虚拟形象

1年前

05230

开源框架OpenDeepSearch，挑战Perplexity和ChatGPT搜索

Sentient Foundation的研究团队近日发布了开源深度搜索（Open Deep Search，简称ODS），这是一款开源框架，能够匹敌如Perplexity和ChatGPT Search等...

大语言模型 # ODS # Open Deep Search # 开源深度搜索

1年前

04380

Meta发布Llama 4系列多模态模型：首次采用MoE架构，最高1000万上下文长度

2025年4月6日星期日，Meta正式推出了其最新的AI模型系列——Llama 4。这款新模型不仅支持网络版Meta AI助手，还为WhatsApp、Messenger和Instagram等平台提供了...

大语言模型 # Llama 4 # Meta # MoE架构

1年前

05960

高保真三维形状合成方法TripoSG：利用大规模的修正流模型从单张图像生成高质量的三维网格模型

VAST、香港大学、德克萨斯大学奥斯汀分校和上海人工智能实验室的研究人员推出高保真三维形状合成方法TripoSG，它利用大规模的修正流模型（Rectified Flow Models）从单张图像生成高...

3D模型 # 3D模型 # TripoSG

1年前

02720

HSMR：用于从单张图像中重建具有生物力学准确骨架的三维人体模型

德克萨斯大学奥斯汀分校和浙江大学的研究人员推出HSMR，用于从单张图像中重建具有生物力学准确骨架的三维人体模型。该方法通过训练一个基于 Transformer 的网络，估计生物力学模型 SKEL 的参...

图像模型 # HSMR # 三维人体模型 # 骨架

1年前

05390

新型框架 EliGen：用于实现图像生成中的实体级控制

浙江大学控制科学与工程学院、阿里巴巴集团ModelScope团队和华东师范大学的研究人员推出新型框架 EliGen，用于实现图像生成中的实体级控制。EliGen 通过引入区域注意力（Regional ...

图像模型 # EliGen # 图像生成

1年前

02430

加载更多

模型