SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 知识库
  • 排行榜
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 知识库
    • 排行榜

    模型

    共 1020 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型
    排序
    发布更新浏览点赞
    多模态智能体的“认知升级”:Web-CogReasoner 如何让网络代理真正“会思考”

    多模态智能体的“认知升级”:Web-CogReasoner 如何让网络代理真正“会思考”

    联合研究团队:西南财经大学、上海交通大学、中南大学、Hithink研究院、西湖大学、哈尔滨工业大学、曼彻斯特大学、加州大学洛杉矶分校、阿德莱德大学、复旦大学、中国科学院深圳先进技术研究院 当AI开始替...
    多模态模型# Web-CogReasoner# 多模态智能体
    4个月前
    01260
    阿里发布 Qwen3-4B 双模型:小参数,大能力,原生支持 256K 上下文

    阿里发布 Qwen3-4B 双模型:小参数,大能力,原生支持 256K 上下文

    在大模型“军备竞赛”愈演愈烈的今天,阿里巴巴通义实验室反其道而行之,推出两款 40 亿参数级别 的小型语言模型: Qwen3-4B-Instruct-2507:面向多语言、高响应速度的通用指令模型 Q...
    大语言模型# Qwen3-4B-Instruct-2507# Qwen3-4B-Thinking-2507# 通义实验室
    4个月前
    03530
    腾讯发布混元Large-Vision:支持原生分辨率输入的旗舰级多模态理解模型

    腾讯发布混元Large-Vision:支持原生分辨率输入的旗舰级多模态理解模型

    腾讯正式推出 混元Large-Vision —— 一款面向复杂任务的旗舰级多模态大模型。该模型在文档理解、数学推理、视频分析和三维空间感知等高难度场景中表现突出,同时具备卓越的多语言支持能力,在LMA...
    多模态模型# Hunyuan-Large-Vision# 混元Large-Vision# 腾讯
    4个月前
    04410
    NuMarkdown-8B-Thinking 发布:首个具备推理能力的 OCR 视觉语言模型

    NuMarkdown-8B-Thinking 发布:首个具备推理能力的 OCR 视觉语言模型

    NuMind 正式推出 NuMarkdown-8B-Thinking —— 据称是首个专为文档理解设计、具备显式推理能力的视觉语言模型(VLM)。该模型专注于将扫描文档或图像中的复杂版式内容,精准转换...
    多模态模型# NuMarkdown-8B-Thinking# OCR 视觉语言模型
    4个月前
    02320
    阿里云 PAI发布 Wan2.2-Fun:扩展Wan2.2文生视频与可控视频生成的能力边界

    阿里云 PAI发布 Wan2.2-Fun:扩展Wan2.2文生视频与可控视频生成的能力边界

    阿里云 PAI 团队昨日正式推出 Wan2.2-Fun 系列模型,作为其 VideoX-Fun 项目的重要更新,进一步扩展了文生视频与可控视频生成的能力边界。 模型:https://huggingfa...
    视频模型# Wan2.2-Fun# 阿里云 PAI
    4个月前
    02790
    SWE-Swiss-32B 发布:一个在软件修复任务上达到顶尖水平的 32B 开源模型

    SWE-Swiss-32B 发布:一个在软件修复任务上达到顶尖水平的 32B 开源模型

    由北京大学、字节跳动 SEED 团队与香港大学联合研发的 SWE-Swiss-32B 正式亮相。 该模型在 SWE-bench Verified 基准测试中取得 60.2% 的通过率,不仅在同规模开源...
    大语言模型# SWE-Swiss# SWE-Swiss-32B
    4个月前
    04310
    小红书 hi lab 开源首个视觉-语言模型:dots.vlm1

    小红书 hi lab 开源首个视觉-语言模型:dots.vlm1

    小红书 hi lab 团队正式发布 dots.vlm1 ——这是“dots”模型家族中的首款视觉-语言模型(VLM),标志着其在多模态理解方向上的重要突破。 GitHub:https://github...
    多模态模型# dots.vlm1# 小红书
    5个月前
    02620
    小红书 hi lab 推出 dots.ocr:一个更高效、更统一的文档解析方案

    小红书 hi lab 推出 dots.ocr:一个更高效、更统一的文档解析方案

    小红书 hi lab 团队近期发布了一款名为 dots.ocr 的多语言文档解析模型。它不是传统OCR工具的简单升级,而是一次架构层面的重构——将布局检测与内容识别统一在一个视觉-语言模型(VLM)中...
    多模态模型# dots.ocr# 小红书
    5个月前
    01,0600
    OpenAI 发布 GPT-5:更智能、更诚实、更实用的统一模型

    OpenAI 发布 GPT-5:更智能、更诚实、更实用的统一模型

    OpenAI在今天发布了其最新模型GPT-5,这是它们迄今为止最智能、快速和实用的模型,内置思考能力,将专家级智能赋予每个人。(官方博文介绍) OpenAI隆重推出 GPT-5,这是penAI迄今最好...
    大语言模型# GPT-5# OpenAI
    5个月前
    02290
    昆仑万维天工项目组推出多模态模型Skywork UniPic:能够统一处理图像理解、文本到图像生成和图像编辑等多种任务

    昆仑万维天工项目组推出多模态模型Skywork UniPic:能够统一处理图像理解、文本到图像生成和图像编辑等多种任务

    昆仑万维天工项目组推出多模态模型Skywork UniPic,它是一个参数量为15亿的自回归模型,能够统一处理图像理解、文本到图像生成和图像编辑等多种任务,而无需针对每个任务单独适配或连接模块。 Gi...
    多模态模型# Skywork UniPic# 多模态模型
    5个月前
    02410
    Intelligent Internet 发布两款新型搜索推理模型:II-Search-4B 与 II-Search-CIR 4B

    Intelligent Internet 发布两款新型搜索推理模型:II-Search-4B 与 II-Search-CIR 4B

    Intelligent Internet(II)正式推出两款专注于信息检索与复杂推理的开源语言模型: II-Search-4B:面向多跳检索与事实验证的高效4B级模型 II-Search-CIR 4B...
    大语言模型# II-Search-4B# II-Search-CIR 4B# Intelligent Internet
    5个月前
    02040
    面壁智能发布高效多模态模型 MiniCPM-V 4.0:4B 模型,超越 GPT-4.1-mini

    面壁智能发布高效多模态模型 MiniCPM-V 4.0:4B 模型,超越 GPT-4.1-mini

    面壁智能正式推出 MiniCPM-V 4.0 —— MiniCPM-V 系列中最新的高效多模态模型,参数总量仅 4.1B,却在图像理解能力上实现显著突破。 GitHub:https://github...
    多模态模型# MiniCPM-V 4.0# 面壁智能
    5个月前
    01610
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2025 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    人生 K 线

    人生 K 线

    人生 K 线(Life Destiny K-Line)是一个结合传统八字命理与现代大语言模型(LLM)的轻量级可视化工具。它将一个人从 1 岁到 100 岁的运势走势,以类似股票 K 线图的形式呈现,试图用数据可视化的方式“翻译”命理推演结果。
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    朱雀大模型检测

    朱雀大模型检测

    腾讯朱雀 AI 检测是于 2025 年 1 月 17 日推出的一款 AI 生成内容检测工具,主要用于帮助用户识别 AI 生成的文本和图像内容。每位用户每天最多可检测20次文本和20次图片。
    PDF Craft

    新PDF Craft

    PDF Craft是一款专注于扫描版书籍 PDF 转换的开源工具。它利用 DeepSeek OCR 模型,在本地完成从图像型 PDF 到结构化电子书(如 Markdown 或 EPUB)的全流程处理,无需联网,不依赖大语言模型(LLM),适合对隐私、精度与效率有要求的用户。
    Tripo

    Tripo

    Tripo AI 是一家领先的 AI 驱动 3D 建模解决方案提供商,允许用户使用文本、单张图像、多张图像、涂鸦或视频等输入,快速创建高质量的 3D 模型和环境。
    ITELLOU

    ITELLOU

    ITELLYOU(也称为NEXT, ITELLYOU)是一个专注于提供微软原版软件资源的非官方网站,主要帮助用户获取未经修改的微软产品镜像,如Windows操作系统、Office办公软件和开发工具等。
    查看完整榜单