模型 | 第39页 | SD百科导航

百科工具模型 ComfyUI AI合集 web UI 提示词

大语言模型多模态模型图像模型语音模型 3D模型 Flux衍生视频模型

排序

发布更新浏览点赞

MiniMax发布全球首款开源大规模混合注意力推理模型MiniMax-M1

近日，MiniMax 宣布推出全新大语言模型 MiniMax-M1，这是全球首款开源的大规模混合注意力推理模型，专为复杂任务和长上下文场景设计。 GitHub：https://github.com/M...

大语言模型 # MiniMax # MiniMax-M1

6个月前

02050

月之暗面推出Kimi-Dev-72B：为软件工程任务打造的新一代开源编码大模型

月之暗面推出一款全新的开源编码大语言模型 Kimi-Dev-72B，专为软件工程任务设计。该模型基于 Qwen2.5-72B 微调而来，在 SWE-bench Verified 测试中取得了 60.4...

大语言模型 # Kimi-Dev-72B # 月之暗面

6个月前

02460

清华、腾讯等联合推出基于语言模型的高质量歌曲生成框架 LeVo

随着大语言模型（LLMs）和音频语言模型的快速发展，AI 在音乐生成领域的能力显著提升，特别是在歌词到歌曲生成的方向上取得了突破性进展。然而，现有方法仍面临两大核心挑战：歌曲结构复杂，难以同时...

语音模型 # LeVo # SongGeneration # 音乐生成

6个月前

02430

Nanonets 推出 Nanonets-OCR-s：首个面向 LLM 的结构化 OCR 模型

近日，Nanonets 宣布推出一款全新的 OCR 模型 Nanonets-OCR-s ——这是一款专为大语言模型（LLMs）设计的图像转 Markdown 工具，具备强大的文档理解与结构化输出能力...

多模态模型 # Nanonets-OCR-s # OCR 模型

6个月前

02560

告别塑料感！腾讯开源新一代 3D 生成大模型混元 3D 2.1

在计算机视觉领域顶级会议 CVPR 2025 上，腾讯宣布将旗下混元 3D 2.1 大模型全面开源，这是目前首个实现全链路开源的工业级 3D 生成大模型，标志着国产 AI 在 3D 内容生成领域的又...

3D模型 # 混元 3D 2.1 # 腾讯

6个月前

01490

微软与 OpenAI 支持，哈佛法学院发起：首个大规模公共 AI 图书数据集正式开源

上周，由微软与 OpenAI 联合资助、起源于哈佛大学法学院图书馆研究计划的机构资料计划（Institutional Data Initiative，简称 IDI）宣布开源其首个大型 AI 数据集...

大语言模型 # OpenAI # 哈佛法学院 # 微软

6个月前

02360

Holo1：HCompany开源高性能视觉-语言模型，赋能Surfer-H代理实现精准网页交互

Holo1 是由 HCompany 开发的一款专为网络代理系统设计的动作视觉-语言模型（VLM），作为 Surfer-H 网络代理的核心组件之一，它具备像人类用户一样与网页界面交互的能力。模型：h...

多模态模型 # Holo1 # 视觉-语言模型

6个月前

02710

字节跳动提出MAGREF：支持多参考图像和文本提示的高质量视频生成框架

近年来，随着扩散模型等深度生成技术的发展，视频生成能力取得了显著进步。然而，在涉及多个参考主体的场景中，如何保证各主体之间的视觉一致性、身份一致性和生成稳定性，依然是一个重大挑战。为了解决这一问题...

视频模型 # MAGREF # 字节跳动 # 视频生成框架

6个月前

02250

浙大 & vivo 联合发布 MagicTryOn：首个基于扩散 Transformer 的视频虚拟试衣框架

在虚拟试衣技术持续发展的背景下，如何在视频中实现自然、真实、连贯的服装模拟，依然是一个极具挑战性的课题。浙江大学、vivo 和博维智慧科技的研究团队提出了一种全新的视频虚拟试衣（Video Virt...

视频模型 # MagicTryOn # Wan2.1 # 视频虚拟试衣

6个月前

04050

Sparc3D：用于高分辨率三维形状建模的稀疏表示和构建框架

南洋理工大学、Math Magic和伦敦帝国理工学院的研究人员推出一个用于高分辨率三维形状建模的稀疏表示和构建框架 Sparc3D，它通过稀疏可变形的 Marching Cubes（Sparcubes...

3D模型 # Sparc3D

6个月前

04580

英伟达发布 Cosmos-Predict2：打造物理AI的世界基础模型

在物理AI（Physical AI）系统的开发中，模拟真实世界的动态变化至关重要。为此，英伟达推出了 Cosmos-Predict2，作为其 Cosmos 世界模型的最新演进版本，专为生成具有物理感...

多模态模型 # Cosmos-Predict2 # 世界基础模型 # 英伟达

6个月前

01970

LoRA-Edit：首帧引导+掩膜控制，实现高质量视频编辑的新方法

在视频生成与编辑领域，如何在保持整体一致性的同时实现灵活可控的局部修改，一直是一个挑战。近日，来自香港中文大学与商汤研究院的研究团队提出了一种新型视频编辑方法——LoRA-Edit，该方法基于掩膜感知...

视频模型 # LoRA-Edit # 视频编辑

6个月前

02450

加载更多

模型

MiniMax发布全球首款开源大规模混合注意力推理模型MiniMax-M1

月之暗面推出Kimi-Dev-72B：为软件工程任务打造的新一代开源编码大模型

清华、腾讯等联合推出基于语言模型的高质量歌曲生成框架 LeVo

Nanonets 推出 Nanonets-OCR-s：首个面向 LLM 的结构化 OCR 模型

告别塑料感！腾讯开源新一代 3D 生成大模型混元 3D 2.1

微软与 OpenAI 支持，哈佛法学院发起：首个大规模公共 AI 图书数据集正式开源

Holo1：HCompany开源高性能视觉-语言模型，赋能Surfer-H代理实现精准网页交互

字节跳动提出MAGREF：支持多参考图像和文本提示的高质量视频生成框架

浙大 & vivo 联合发布 MagicTryOn：首个基于扩散 Transformer 的视频虚拟试衣框架

Sparc3D：用于高分辨率三维形状建模的稀疏表示和构建框架

英伟达发布 Cosmos-Predict2：打造物理AI的世界基础模型

LoRA-Edit：首帧引导+掩膜控制，实现高质量视频编辑的新方法

人生 K 线

Fogsight (雾象)

朱雀大模型检测

新PDF Craft

Tripo

Google AI Studio

模型

网址

人生 K 线

Fogsight (雾象)

朱雀大模型检测

新PDF Craft

Tripo

Google AI Studio