模型 | 第19页 | SD百科导航

百科工具模型 ComfyUI AI合集 web UI 提示词

大语言模型多模态模型图像模型语音模型 3D模型 Flux衍生视频模型

排序

发布更新浏览点赞

MV-RAG：用检索增强实现更可靠的文本到3D生成

近年来，基于预训练2D扩散模型的文本到3D生成方法取得了显著进展。这类方法通过“蒸馏”2D先验知识，能够生成视觉质量高、多视角一致的3D内容。然而，当面对罕见或未见过的概念（如“博洛尼亚犬”或“Lab...

3D模型 # 3D生成 # MV-RAG

4个月前

01810

nano-banana正式版！谷歌发布全新图像模型Gemini 2.5 Flash Image，更精准的 AI 图像编辑

谷歌正在为其 Gemini 聊天机器人引入一项重要升级：全新的 AI 图像模型 Gemini 2.5 Flash Image。该模型不仅提升了图像生成质量，更在编辑精度、角色一致性与多图融合方面实现了...

图像模型 # AI 图像编辑 # Gemini 2.5 Flash Image # nano-banana

4个月前

04460

面壁智能发布 MiniCPM-V 4.5：8B 参数模型实现多模态能力新突破

面壁智能正式推出其最新视觉语言模型 MiniCPM-V 4.5，这是 MiniCPM-V 系列中性能最强、功能最全面的版本。该模型在保持 80 亿参数规模的前提下，实现了在视觉理解、视频处理、文档解析...

多模态模型 # MiniCPM-V 4.5 # 面壁智能

4个月前

04960

上海AI实验室InternVL项目组发布多模态大语言模型系列InternVL3.5

上海AI实验室InternVL项目组推出 InternVL3.5，这是一个开源的多模态大语言模型（MLLM）系列，旨在提升模型在多功能性、推理能力和效率方面的表现。 GitHub：https://gi...

多模态模型 # InternVL3.5 # 上海AI实验室

4个月前

0910

VibeVoice-1.5B：微软开源TTS框架，可生成4人60分钟长对话音频

微软近期开源了一款全新文本到语音（TTS）框架——VibeVoice-1.5B，其核心突破在于打破传统TTS系统的局限：能同时生成包含4个不同说话者、最长60分钟的连贯对话音频，且在长序列处理效率、说...

语音模型 # TTS # VibeVoice-1.5B # 微软

4个月前

03920

字节跳动 Waver 项目组推出一体化视频生成模型Waver 1.0：同时支持文生图、图生视频及文生图生成

字节跳动 Waver 项目组近期正式推出 Waver 1.0 一体化视频生成模型，凭借多模态生成能力、高分辨率支持及卓越的运动建模效果，在视频生成领域实现重要突破，为工业级视频创作需求提供了全新解决方...

视频模型 # Waver 1.0 # 字节跳动 # 视频生成

4个月前

05680

阿里淘天推出基于 DiT 的生成式视频修复方法Vivid-VR：概念蒸馏 + 双分支控制实现高纹理与时间连贯

老旧视频模糊、噪点多、细节丢失，能否通过 AI 实现自然且真实的画质增强？传统视频修复方法往往在提升分辨率的同时，引入伪影、纹理失真或帧间抖动。而基于扩散模型的新一代生成技术，虽然具备强大的细节生成...

视频模型 # Vivid-VR # 视频修复

4个月前

03540

解决高分辨率生成痛点：CineScale 新范式优化扩散模型，支持 8K 图像与 4K 视频合成

视觉扩散模型虽已取得显著进展，但受限于“高分辨率训练数据稀缺”与“计算资源消耗大”，多数模型只能在低分辨率（如512×512）下训练，导致生成高保真图像、视频时容易出现“重复模式”“细节模糊”等问题...

视频模型 # CineScale # 高分辨率生成

4个月前

02680

Chroma 模型家族正式发布：基于 FLUX.1-schnell，8.9亿参数开源无限制，4大分支适配不同需求

开发者 lodestones 近期宣布，基于 FLUX.1-schnell 构建的 8.9 亿参数生成模型 Chroma 已完成全部基础训练，正式开放供开发者与研究者使用。作为完全遵循 Apache ...

图像模型 # Chroma # FLUX.1 [schnell]

4个月前

09180

GNER-T5-XXL：GNER 提升零样本实体识别能力，可用于 Flux、Chroma 等模型

在多模态生成系统中，精准识别文本中的关键语义元素，是生成高质量图像或内容的前提。例如，当输入提示词“一位身着红色礼服的女人，手持手枪，站在黑暗小巷中”，模型需要准确识别出“红色礼服”“手枪”“黑暗小巷...

图像模型 # Chroma # FLUX # GNER-T5-XXL

4个月前

02240

南大、复旦联合英伟达提出LongVie：可控超长视频生成突破1分钟，解决时间不一致难题

可控超长视频生成（如生成1分钟以上、场景与动作精准可控的视频）是AI生成领域的核心挑战——现有方法在短视频生成中表现尚可，但扩展到长视频时，常出现时间不一致（帧间突变、物体位置漂移）与视觉质量下降（颜...

视频模型 # LongVie # 视频生成

4个月前

01460

深度求索发布 DeepSeek-V3.1：混合思考模式 + 128K 上下文，API 同步升级并支持 Anthropic 格式

深度求索（DeepSeek）正式推出 DeepSeek-V3.1 —— 一个在架构设计、推理效率和智能体能力上全面升级的新版本模型。此次更新不仅提升了性能，更引入了混合思考模式，让同一个模型可灵活适应...

大语言模型 # DeepSeek-V3.1 # 深度求索

4个月前

02380

加载更多

模型

MV-RAG：用检索增强实现更可靠的文本到3D生成

nano-banana正式版！谷歌发布全新图像模型Gemini 2.5 Flash Image，更精准的 AI 图像编辑

面壁智能发布 MiniCPM-V 4.5：8B 参数模型实现多模态能力新突破

上海AI实验室InternVL项目组发布多模态大语言模型系列InternVL3.5

VibeVoice-1.5B：微软开源TTS框架，可生成4人60分钟长对话音频

字节跳动 Waver 项目组推出一体化视频生成模型Waver 1.0：同时支持文生图、图生视频及文生图生成

阿里淘天推出基于 DiT 的生成式视频修复方法Vivid-VR：概念蒸馏 + 双分支控制实现高纹理与时间连贯

解决高分辨率生成痛点：CineScale 新范式优化扩散模型，支持 8K 图像与 4K 视频合成

Chroma 模型家族正式发布：基于 FLUX.1-schnell，8.9亿参数开源无限制，4大分支适配不同需求

GNER-T5-XXL：GNER 提升零样本实体识别能力，可用于 Flux、Chroma 等模型

南大、复旦联合英伟达提出LongVie：可控超长视频生成突破1分钟，解决时间不一致难题

深度求索发布 DeepSeek-V3.1：混合思考模式 + 128K 上下文，API 同步升级并支持 Anthropic 格式

新人生 K 线

朱雀大模型检测

Fogsight (雾象)

YouMind

Google Workspace Studio

通义万象

模型

网址

新人生 K 线

朱雀大模型检测

Fogsight (雾象)

YouMind

Google Workspace Studio

通义万象