SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    模型

    共 1237 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型世界模型
    排序
    发布更新浏览点赞
    DeepSeek-OCR-V2:用 LLM 替代 CLIP,让 OCR 学会“像人一样阅读”

    DeepSeek-OCR-V2:用 LLM 替代 CLIP,让 OCR 学会“像人一样阅读”

    DeepSeek 发布 OCR-V2,这不是一次常规升级,而是一次架构级革新:彻底弃用 CLIP 视觉编码器,改用小型 LLM(Qwen2-0.5B)作为视觉编码器,并引入 “视觉因果流”(Visua...
    多模态模型# DeepSeek-OCR-V2# OCR模型
    2个月前
    0630
    阿里通义实验室推出新一代旗舰推理模型Qwen3-Max-Thinking:支持自适应工具调用,性能对标 GPT-5.2

    阿里通义实验室推出新一代旗舰推理模型Qwen3-Max-Thinking:支持自适应工具调用,性能对标 GPT-5.2

    阿里通义实验室正式发布 Qwen3-Max-Thinking,作为 Qwen 系列的最新旗舰推理模型。通过显著扩大参数规模并投入大量强化学习训练算力,该模型在事实准确性、复杂推理、指令遵循、人类偏好对...
    大语言模型# Qwen3-Max-Thinking# 推理模型
    2个月前
    0760
    天气 AI 革命!英伟达发布 Earth-2 开放模型:0-6 小时预警 + 15 天预报,主权国家可自托管

    天气 AI 革命!英伟达发布 Earth-2 开放模型:0-6 小时预警 + 15 天预报,主权国家可自托管

    美国冬季风暴来袭前,多地降雪量预测差出“天壤之别”——有的说下5厘米,有的说下20厘米,气象部门和民众都陷入纠结。 在 2026 年 1 月于休斯敦举行的美国气象学会(AMS)年会上,英伟达正式发布了...
    世界模型# Earth-2# 英伟达
    2个月前
    0510
    Odyssey 推出交互式世界模型Odyssey-2 Pro,支持实时模拟与多端集成

    Odyssey 推出交互式世界模型Odyssey-2 Pro,支持实时模拟与多端集成

    今天,Odyssey 正式推出 Odyssey-2 Pro——目前最强大的通用世界模型——以及配套的 开发者 API。Odyssey表示,这标志着世界模型领域迎来了自己的 “GPT-2 时刻”:一个可...
    世界模型# Odyssey# Odyssey-2 Pro# 世界模型
    2个月前
    01240
    微软开源 VibeVoice-ASR:支持60分钟长音频的端到端语音转写模型

    微软开源 VibeVoice-ASR:支持60分钟长音频的端到端语音转写模型

    微软正式开源 VibeVoice-ASR——一款面向真实场景的统一语音识别模型。它能单次处理长达60分钟的连续音频,并输出包含说话人身份、精确时间戳与文本内容的结构化转录结果,同时支持用户注入自定义热...
    语音模型# VibeVoice-ASR# 微软
    2个月前
    0250
    Qwen3-TTS 全家桶开源:支持音色克隆、创造与多语言拟人语音

    Qwen3-TTS 全家桶开源:支持音色克隆、创造与多语言拟人语音

    在语音生成技术快速迭代的当下,开发者与用户对高保真、可定制、低延迟的语音合成方案需求日益迫切。阿里Qwen项目组推出的 Qwen3-TTS 开源全家桶,凭借音色克隆、音色创造、拟人化语音生成与自然语言...
    语音模型# Qwen3-TTS# 阿里
    3个月前
    01260
    英伟达推出实时语音对话模型PersonaPlex,打造支持自定义角色与声音的自然对话AI

    英伟达推出实时语音对话模型PersonaPlex,打造支持自定义角色与声音的自然对话AI

    长期以来,语音对话 AI 面临一个根本性矛盾: 传统级联系统(ASR → LLM → TTS)允许你自定义角色和声音,但对话僵硬、延迟高、无法被打断; 全双工模型(如 Moshi)实现了自然的话轮转换...
    语音模型# PersonaPlex# 实时语音对话模型# 英伟达
    3个月前
    0340
    LightOn AI推出的第二代模型 LightOnOCR-2-1B:1B 参数端到端 OCR 模型,支持边界框输出

    LightOn AI推出的第二代模型 LightOnOCR-2-1B:1B 参数端到端 OCR 模型,支持边界框输出

    在文档数字化处理领域,兼顾高精度转录、轻量化部署、高效推理的OCR模型一直是行业刚需。LightOn AI推出的第二代模型 LightOnOCR-2-1B,以1B参数量实现端到端PDF文档转写能力,不...
    多模态模型# LightOn AI# LightOnOCR-2-1B# OCR 模型
    3个月前
    01230
    FlashLabs推出Chroma 1.0:首个开源实时语音对话模型,支持低延迟个性化语音克隆

    FlashLabs推出Chroma 1.0:首个开源实时语音对话模型,支持低延迟个性化语音克隆

    在虚拟人交互与语音合成领域,兼顾低延迟、高保真语音克隆、多轮对话理解的模型一直是技术难点。由FlashLabs开发的 Chroma 1.0 正是一款突破性的多模态因果语言模型,它不仅能直接处理音频输入...
    语音模型# Chroma# FlashLabs# 实时语音对话模型
    3个月前
    05110
    智谱发布 GLM-4.7-Flash:30B 级 MoE 模型,本地部署首选编码与代理助手

    智谱发布 GLM-4.7-Flash:30B 级 MoE 模型,本地部署首选编码与代理助手

    智谱 AI 正式推出 GLM-4.7-Flash——一款基于 30B 总参数、激活 3B(A3B)的稀疏混合专家(MoE)架构 的大语言模型。它在高性能与高效率之间取得出色平衡,成为本地部署场景下理想...
    大语言模型# GLM-4.7-Flash# 智谱
    3个月前
    0510
    Liquid AI发布LFM2.5系列模型:新一代设备端AI,开放权重+多模态+边缘高效部署

    Liquid AI发布LFM2.5系列模型:新一代设备端AI,开放权重+多模态+边缘高效部署

    Liquid AI 正式推出 LFM2.5 系列模型,这是该团队针对边缘 AI 部署打造的新一代旗舰产品,基于 LFM2 设备优化架构升级而来,实现了 1B 级模型能力边界的重大突破。此次发布覆盖基础...
    大语言模型# LFM2.5# Liquid AI
    3个月前
    0280
    Liquid AI 发布 LFM2.5-1.2B-Thinking:900MB 内存即可运行的设备端推理模型

    Liquid AI 发布 LFM2.5-1.2B-Thinking:900MB 内存即可运行的设备端推理模型

    两年前,复杂的推理任务还需要依赖数据中心。如今,Liquid AI 发布的 LFM2.5-1.2B-Thinking 模型,让这一切在任何拥有 900MB 可用内存的手机上成为可能。 地址:https...
    大语言模型# LFM2.5-1.2B-Thinking# Liquid AI
    3个月前
    0440
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    S.H.I.T

    S.H.I.T

    在主流学术界为顶刊版面、高影响因子和“非升即走”的考核指标疯狂内卷之时,一场名为“学术垃圾”的反叛运动正在角落里悄然兴起。一群“想开了”的硕博研究生和青年学者(青椒),不再试图迎合传统的学术评价体系,而是隆重推出了一系列名字惊世骇俗的“旗舰”期刊——《SHIT》、《Notrue》、《Silence》、《Crazy》。
    Flova

    新Flova

    Flova AI 最近宣布集成字节跳动最新的视频生成模型——Seedance 2.0。这不仅仅是一个新模型的上线,更意味着普通创作者现在也能轻松制作出长达 60 至 90 秒、角色稳定、剧情连贯的电影级短剧。
    Tripo

    Tripo

    Tripo AI 是一家领先的 AI 驱动 3D 建模解决方案提供商,允许用户使用文本、单张图像、多张图像、涂鸦或视频等输入,快速创建高质量的 3D 模型和环境。
    ITELLOU

    ITELLOU

    ITELLYOU(也称为NEXT, ITELLYOU)是一个专注于提供微软原版软件资源的非官方网站,主要帮助用户获取未经修改的微软产品镜像,如Windows操作系统、Office办公软件和开发工具等。
    Meshy

    Meshy

    Meshy 是一款非常适合初学者和专业用户的 3D 模型生成工具。无论是快速建模、3D 打印还是动画设计,它都能轻松应对。如果你对 3D 模型创建感兴趣,不妨试试 Meshy,让生成式 AI 为你的创意插上翅膀!
    即梦 CLI

    即梦 CLI

    即梦 CLI (Jimeng CLI) 是字节跳动官方推出的面向 AI Agent 的命令行工具包。它打破了图形界面的限制,让任何 AI 智能体(如基于 OpenClaw 的助手)都能直接调用即梦强大的 Seedance 2.0 旗舰模型,实现图片与视频的自动化生成。
    查看完整榜单