模型 | 第25页 | SD百科导航

百科工具模型 ComfyUI AI合集 web UI 提示词

大语言模型多模态模型图像模型语音模型 3D模型 Flux衍生视频模型

排序

发布更新浏览点赞

阿里发布 Qwen3-4B 双模型：小参数，大能力，原生支持 256K 上下文

在大模型“军备竞赛”愈演愈烈的今天，阿里巴巴通义实验室反其道而行之，推出两款 40 亿参数级别的小型语言模型： Qwen3-4B-Instruct-2507：面向多语言、高响应速度的通用指令模型 Q...

4个月前

03510

腾讯发布混元Large-Vision：支持原生分辨率输入的旗舰级多模态理解模型

腾讯正式推出混元Large-Vision —— 一款面向复杂任务的旗舰级多模态大模型。该模型在文档理解、数学推理、视频分析和三维空间感知等高难度场景中表现突出，同时具备卓越的多语言支持能力，在LMA...

多模态模型 # Hunyuan-Large-Vision # 混元Large-Vision # 腾讯

4个月前

04360

NuMarkdown-8B-Thinking 发布：首个具备推理能力的 OCR 视觉语言模型

NuMind 正式推出 NuMarkdown-8B-Thinking —— 据称是首个专为文档理解设计、具备显式推理能力的视觉语言模型（VLM）。该模型专注于将扫描文档或图像中的复杂版式内容，精准转换...

多模态模型 # NuMarkdown-8B-Thinking # OCR 视觉语言模型

4个月前

02310

阿里云 PAI发布 Wan2.2-Fun：扩展Wan2.2文生视频与可控视频生成的能力边界

阿里云 PAI 团队昨日正式推出 Wan2.2-Fun 系列模型，作为其 VideoX-Fun 项目的重要更新，进一步扩展了文生视频与可控视频生成的能力边界。模型：https://huggingfa...

视频模型 # Wan2.2-Fun # 阿里云 PAI

4个月前

02730

SWE-Swiss-32B 发布：一个在软件修复任务上达到顶尖水平的 32B 开源模型

由北京大学、字节跳动 SEED 团队与香港大学联合研发的 SWE-Swiss-32B 正式亮相。该模型在 SWE-bench Verified 基准测试中取得 60.2% 的通过率，不仅在同规模开源...

大语言模型 # SWE-Swiss # SWE-Swiss-32B

4个月前

04260

小红书 hi lab 开源首个视觉-语言模型：dots.vlm1

小红书 hi lab 团队正式发布 dots.vlm1 ——这是“dots”模型家族中的首款视觉-语言模型（VLM），标志着其在多模态理解方向上的重要突破。 GitHub：https://github...

多模态模型 # dots.vlm1 # 小红书

4个月前

02550

小红书 hi lab 推出 dots.ocr：一个更高效、更统一的文档解析方案

小红书 hi lab 团队近期发布了一款名为 dots.ocr 的多语言文档解析模型。它不是传统OCR工具的简单升级，而是一次架构层面的重构——将布局检测与内容识别统一在一个视觉-语言模型（VLM）中...

多模态模型 # dots.ocr # 小红书

4个月前

01,0570

OpenAI 发布 GPT-5：更智能、更诚实、更实用的统一模型

OpenAI在今天发布了其最新模型GPT-5，这是它们迄今为止最智能、快速和实用的模型，内置思考能力，将专家级智能赋予每个人。（官方博文介绍） OpenAI隆重推出 GPT-5，这是penAI迄今最好...

大语言模型 # GPT-5 # OpenAI

4个月前

02280

昆仑万维天工项目组推出多模态模型Skywork UniPic：能够统一处理图像理解、文本到图像生成和图像编辑等多种任务

昆仑万维天工项目组推出多模态模型Skywork UniPic，它是一个参数量为15亿的自回归模型，能够统一处理图像理解、文本到图像生成和图像编辑等多种任务，而无需针对每个任务单独适配或连接模块。 Gi...

多模态模型 # Skywork UniPic # 多模态模型

4个月前

02400

Intelligent Internet 发布两款新型搜索推理模型：II-Search-4B 与 II-Search-CIR 4B

Intelligent Internet（II）正式推出两款专注于信息检索与复杂推理的开源语言模型： II-Search-4B：面向多跳检索与事实验证的高效4B级模型 II-Search-CIR 4B...

大语言模型 # II-Search-4B # II-Search-CIR 4B # Intelligent Internet

4个月前

02040

面壁智能发布高效多模态模型 MiniCPM-V 4.0：4B 模型，超越 GPT-4.1-mini

面壁智能正式推出 MiniCPM-V 4.0 —— MiniCPM-V 系列中最新的高效多模态模型，参数总量仅 4.1B，却在图像理解能力上实现显著突破。 GitHub：https://github...

多模态模型 # MiniCPM-V 4.0 # 面壁智能

4个月前

01600

KittenML推出一个仅 25MB 的开源文本转语音模型Kitten TTS

KittenML推出一款名为 Kitten TTS 的新型文本转语音（TTS）模型，它以极小体积、无需 GPU 和高质量语音合成能力为特点，专为边缘设备和轻量级部署场景设计。 GitHub：https...

语音模型 # Kitten TTS # 文本转语音模型

5个月前

05670

加载更多

模型

阿里发布 Qwen3-4B 双模型：小参数，大能力，原生支持 256K 上下文

腾讯发布混元Large-Vision：支持原生分辨率输入的旗舰级多模态理解模型

NuMarkdown-8B-Thinking 发布：首个具备推理能力的 OCR 视觉语言模型

阿里云 PAI发布 Wan2.2-Fun：扩展Wan2.2文生视频与可控视频生成的能力边界

SWE-Swiss-32B 发布：一个在软件修复任务上达到顶尖水平的 32B 开源模型

小红书 hi lab 开源首个视觉-语言模型：dots.vlm1

小红书 hi lab 推出 dots.ocr：一个更高效、更统一的文档解析方案

OpenAI 发布 GPT-5：更智能、更诚实、更实用的统一模型

昆仑万维天工项目组推出多模态模型Skywork UniPic：能够统一处理图像理解、文本到图像生成和图像编辑等多种任务

Intelligent Internet 发布两款新型搜索推理模型：II-Search-4B 与 II-Search-CIR 4B

面壁智能发布高效多模态模型 MiniCPM-V 4.0：4B 模型，超越 GPT-4.1-mini

KittenML推出一个仅 25MB 的开源文本转语音模型Kitten TTS

Fogsight (雾象)

ITELLOU

OpenSkills

Google AI Studio

秒哒

Tripo

模型

网址

Fogsight (雾象)

ITELLOU

OpenSkills

Google AI Studio

秒哒

Tripo