SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    模型

    共 1239 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型世界模型
    排序
    发布更新浏览点赞
    DeepAgent:一种支持动态工具发现与记忆管理的通用推理代理

    DeepAgent:一种支持动态工具发现与记忆管理的通用推理代理

    中国人民大学与小红书联合推出 DeepAgent——一种端到端的深度推理代理框架。它能够在单一、连贯的推理过程中,自主完成思考、工具发现与行动执行,摆脱了传统代理(如 ReAct 框架)中“Reaso...
    大语言模型# DeepAgent
    5个月前
    02270
    BRIA 发布 FIBO:用 JSON 精确控制光线、构图与相机参数的文生图模型

    BRIA 发布 FIBO:用 JSON 精确控制光线、构图与相机参数的文生图模型

    BRIA 开源发布了其首个文本到图像模型 FIBO —— 一个专为专业图像生成工作流设计的 JSON 原生、结构化提示驱动 的开源模型。与主流强调“想象力”的生成模型不同,FIBO 的核心目标是 可控...
    图像模型# BRIA# FIBO# 文生图模型
    5个月前
    01440
    Cognition 发布 SWE-1.5:950 tok/s 高速编码模型,Windsurf 现已可用

    Cognition 发布 SWE-1.5:950 tok/s 高速编码模型,Windsurf 现已可用

    Cognition 正式推出软件工程专用模型家族新成员——SWE-1.5。作为一款拥有数千亿参数的前沿规模模型,它不仅实现了接近当前最佳水平(SOTA)的编程性能,更在速度上打破现有标准:通过与 Ce...
    大语言模型# Cognition# SWE-1.5# 编程模型
    5个月前
    01730
    SoulX-Podcast:支持方言与副语言的真实感播客语音合成系统

    SoulX-Podcast:支持方言与副语言的真实感播客语音合成系统

    西北工业大学、Soul AI 实验室与上海交通大学联合推出 SoulX-Podcast —— 一个专为长篇、多轮次、多说话者对话场景设计的语音合成系统。它不仅能生成高质量的播客风格对话语音,也在传统单...
    语音模型# SoulX-Podcast# 播客
    5个月前
    01030
    DeepSeek 开源DeepSeek-OCR :用视觉模态压缩文本,3B 小模型撬动长上下文新思路

    DeepSeek 开源DeepSeek-OCR :用视觉模态压缩文本,3B 小模型撬动长上下文新思路

    DeepSeek 开源了 DeepSeek-OCR,一个仅 30 亿参数的视觉语言模型(VLM),却在 OCR 与文本压缩领域展现出令人瞩目的创新力。其核心并非追求更大参数量,而是提出一种“光学压缩...
    多模态模型# DeepSeek# DeepSeek-OCR
    5个月前
    01830
    快手开源 KAT-Dev-72B-Exp:72B 参数代码模型,SWE-Bench 准确率达 74.6%

    快手开源 KAT-Dev-72B-Exp:72B 参数代码模型,SWE-Bench 准确率达 74.6%

    快手 Kwaipilot 团队近日正式开源 KAT-Dev-72B-Exp ——一个专为软件工程任务设计的 720 亿参数开源大模型。该模型在权威代码修复基准 SWE-Bench Verified 上...
    大语言模型# KAT-Dev-72B-Exp# 快手
    6个月前
    0560
    Nanonets开源OCR2系列模型:图像转结构化Markdown+视觉问答双核心

    Nanonets开源OCR2系列模型:图像转结构化Markdown+视觉问答双核心

    Nanonets 正式发布并开源了 OCR2 系列模型,包含 Nanonets-OCR2-Plus、Nanonets-OCR2-3B 与 Nanonets-OCR2-1.5B-exp 三个版本。作为一...
    多模态模型# Nanonets-OCR2# Qwen2-VL
    6个月前
    02470
    自动化学术推广系统AutoPR:让学术推广自动化,精准触达目标受众

    自动化学术推广系统AutoPR:让学术推广自动化,精准触达目标受众

    学术研究的价值不仅在于成果本身,更在于被广泛知晓与合理应用。如今,同行评审研究数量持续激增,学者们愈发依赖社交平台发现前沿成果,而作者们也需投入大量精力推广研究,以维持学术可见度与引用率。 项目主页...
    大语言模型# AutoPR
    6个月前
    0670
    阿里巴巴 Qwen 推出紧凑型多模态模型 Qwen3-VL 4B/8B,支持 FP8 低显存部署

    阿里巴巴 Qwen 推出紧凑型多模态模型 Qwen3-VL 4B/8B,支持 FP8 低显存部署

    阿里巴巴通义千问(Qwen)团队于 2025 年 10 月 15 日正式发布 Qwen3-VL 4B 与 8B 两款稠密视觉语言模型,每款均提供 指令版(Instruction) 与 思维版(Reas...
    多模态模型# Qwen3-VL 4B# Qwen3-VL 8B# 多模态模型
    6个月前
    03550
    Anthropic发布Claude Haiku 4.5:三分之一成本+两倍速度,编码性能追平Sonnet 4

    Anthropic发布Claude Haiku 4.5:三分之一成本+两倍速度,编码性能追平Sonnet 4

    Anthropic正式推出轻量级模型Claude Haiku的最新版本——Claude Haiku 4.5。这款模型的核心亮点的是,在保持与Claude Sonnet 4相当编码性能的同时,将成本压缩...
    大语言模型# Anthropic# Claude Haiku 4.5
    6个月前
    01570
    谷歌升级 AI 视频生成模型Veo 3.1:支持光照编辑、音频生成与视频扩展

    谷歌升级 AI 视频生成模型Veo 3.1:支持光照编辑、音频生成与视频扩展

    谷歌正式发布视频生成模型 Veo 3.1 ,并同步更新其面向创作者的 AI 工具 Flow。新版本在视觉真实感、音频支持和编辑能力上均有显著提升,目标是让 AI 生成的视频更接近专业影视水准。 目前...
    视频模型# Veo 3.1# 谷歌
    6个月前
    0590
    DreamOmni2:支持图文指令的统一图像生成与编辑模型

    DreamOmni2:支持图文指令的统一图像生成与编辑模型

    香港中文大学、香港科技大学与字节跳动联合推出开源模型 DreamOmni2,旨在突破当前 AI 图像编辑与生成的两大瓶颈:纯文本指令表达力有限,以及现有模型难以处理抽象概念(如风格、纹理、妆容等)。 ...
    图像模型# DreamOmni2# 图像生成
    6个月前
    01860
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    S.H.I.T

    S.H.I.T

    在主流学术界为顶刊版面、高影响因子和“非升即走”的考核指标疯狂内卷之时,一场名为“学术垃圾”的反叛运动正在角落里悄然兴起。一群“想开了”的硕博研究生和青年学者(青椒),不再试图迎合传统的学术评价体系,而是隆重推出了一系列名字惊世骇俗的“旗舰”期刊——《SHIT》、《Notrue》、《Silence》、《Crazy》。
    Tripo

    Tripo

    Tripo AI 是一家领先的 AI 驱动 3D 建模解决方案提供商,允许用户使用文本、单张图像、多张图像、涂鸦或视频等输入,快速创建高质量的 3D 模型和环境。
    ITELLOU

    ITELLOU

    ITELLYOU(也称为NEXT, ITELLYOU)是一个专注于提供微软原版软件资源的非官方网站,主要帮助用户获取未经修改的微软产品镜像,如Windows操作系统、Office办公软件和开发工具等。
    Flova

    Flova

    Flova AI 最近宣布集成字节跳动最新的视频生成模型——Seedance 2.0。这不仅仅是一个新模型的上线,更意味着普通创作者现在也能轻松制作出长达 60 至 90 秒、角色稳定、剧情连贯的电影级短剧。
    waoo

    waoo

    waoowaoo AI 影视 Studio 是一款基于 AI 技术的短剧/漫画视频制作工具,支持从小说文本自动生成分镜、角色、场景,并制作成完整视频。
    TapNow

    TapNow

    TapNow是一个面向创作者的专业级 AI 视觉内容平台,支持从脚本撰写、分镜头设计到高保真成片输出的完整流程,单人即可在 1–3 天内完成传统需 4–6 周的影视级项目。
    查看完整榜单