SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    模型

    共 1240 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型世界模型
    排序
    发布更新浏览点赞
    AccVideo:通过知识蒸馏技术,将HunyuanVideo模型生成速度提高了 8.5 倍,同时保持生成质量

    AccVideo:通过知识蒸馏技术,将HunyuanVideo模型生成速度提高了 8.5 倍,同时保持生成质量

    视频扩散模型是一种强大的生成模型,能够生成高质量的视频内容。然而,传统的视频扩散模型在生成视频时需要大量的迭代去噪步骤,这使得生成过程非常缓慢且计算成本高昂。例如,HunyuanVideo 模型在单个...
    视频模型# AccVideo# HunyuanVideo# 知识蒸馏
    1年前
    05330
    基于 GenAI 的视觉内容创作控制框架ZenCtrl:利用单张主体图像生成多视角、多样化场景的高分辨率图像,无需额外微调

    基于 GenAI 的视觉内容创作控制框架ZenCtrl:利用单张主体图像生成多视角、多样化场景的高分辨率图像,无需额外微调

    ZenCtrl 是一款基于 GenAI 的视觉内容创作控制框架,专注于利用单张主体图像生成多视角、多样化场景的高分辨率图像,无需额外微调。它通过精细的控制能力和模块化设计,为创作者提供了一个强大且灵活...
    图像模型# OminiControl# ZenCtrl# 图像控制框架
    11个月前
    05550
    阿里巴巴发布 QVQ-Max:能看、能理解、能思考的视觉推理模型

    阿里巴巴发布 QVQ-Max:能看、能理解、能思考的视觉推理模型

    阿里巴巴推出一款名为 QVQ-Max 的全新视觉推理模型,这是其 Qwen模型系列中的最新成员。QVQ-Max 的独特之处在于它能够理解照片和视频的内容,并对这些信息进行分析和推理,从而提供解决方案...
    多模态模型# QVQ-Max# 视觉推理模型# 阿里巴巴
    1年前
    02840
    Kyutai发布首个开源实时语音模型MoshiVis,开启视觉与语音交互新时代

    Kyutai发布首个开源实时语音模型MoshiVis,开启视觉与语音交互新时代

    在AI领域,将实时语音交互与视觉内容相结合一直是一个极具挑战性的课题。传统系统通常依赖于多个独立组件来实现语音活动检测、语音识别、文本对话和文本转语音合成,这种分段式的方法不仅容易引入延迟,还难以捕捉...
    语音模型# MoshiVis# 语音模型
    1年前
    02090
    Ideogram 3.0发布:更真实、更创意、更一致的生成式设计体验

    Ideogram 3.0发布:更真实、更创意、更一致的生成式设计体验

    Ideogram在今天正式发布了其最新模型Ideogram 3.0,这款最新的AI生成模型不仅在图像质量和文本渲染方面取得了重大突破,还通过强大的风格控制功能和高效的设计能力,为创作者和专业人士提供了...
    图像模型# AI绘画# Ideogram# Ideogram 3.0
    1年前
    05970
    阿里通义实验室发布新一代端到端多模态旗舰模型Qwen2.5-Omni

    阿里通义实验室发布新一代端到端多模态旗舰模型Qwen2.5-Omni

    阿里通义实验室发布了 Qwen2.5-Omni,这是 Qwen 模型家族中的新一代端到端多模态旗舰模型。Qwen2.5-Omni 专为全方位多模态感知设计,能够无缝处理文本、图像、音频和视频等多种输入...
    多模态模型# Qwen2.5-Omni# 多模态模型
    1年前
    02670
    StarVector:利用多模态大语言模型(MLLM)从图像和文本生成SVG代码

    StarVector:利用多模态大语言模型(MLLM)从图像和文本生成SVG代码

    ServiceNow Research、魁北克人工智能研究所、加拿大 CIFAR 人工智能主席、不列颠哥伦比亚大学、高等工程技术学院和苹果的研究人员推出StarVector,利用多模态大语言模型(ML...
    图像模型# StarVector# SVG代码# 多模态大语言模型
    1年前
    04870
    谷歌发布了新推理模型Gemini 2.5系列:其特色在于回答问题前会进行“思考”过程

    谷歌发布了新推理模型Gemini 2.5系列:其特色在于回答问题前会进行“思考”过程

    本周二(2025年3月25日),谷歌发布了新推理模型Gemini 2.5系列,其特色在于回答问题前会进行“思考”过程。为了启动这一系列,谷歌推出了Gemini 2.5 Pro Experimental...
    大语言模型# Gemini 2.5# 思考模型# 推理模型
    1年前
    01980
    阿里通义实验室开源32B参数的多模态模型 Qwen2.5-VL-32B-Instruct

    阿里通义实验室开源32B参数的多模态模型 Qwen2.5-VL-32B-Instruct

    今年一月底,阿里通义实验室推出了 Qwen2.5-VL 系列模型,凭借其卓越的性能和广泛的应用潜力,迅速获得了社区的广泛关注和积极反馈。在此基础上,团队通过强化学习持续优化模型,并于近期开源了备受期待...
    多模态模型# Qwen2.5-VL-32B-Instruct# 多模态模型# 阿里通义实验室
    1年前
    03300
    阿里巴巴推出全身虚拟形象解决方案TaoAvatar:在AR设备上实时运行一个会说话的全身虚拟人

    阿里巴巴推出全身虚拟形象解决方案TaoAvatar:在AR设备上实时运行一个会说话的全身虚拟人

    阿里巴巴的研究人员推出一种名为 TaoAvatar 的技术,用于创建逼真的、全身的、会说话的虚拟形象(avatar),并能够在增强现实(AR)设备上实时运行。TaoAvatar 基于 3D 高斯点绘制...
    3D模型# TaoAvatar# 虚拟形象# 阿里巴巴
    1年前
    02630
    个性化图像生成和编辑方法SISO:适合在只有单张主题图像的情况下使用

    个性化图像生成和编辑方法SISO:适合在只有单张主题图像的情况下使用

    巴伊兰大学和英伟达的研究人员推出一种无需训练的方法SISO,用于从单张主题图像进行个性化图像生成和编辑。SISO 是一种无需训练的方法,通过优化与输入主题图像的相似度分数来实现图像的个性化生成和编辑...
    图像模型# SISO# 图像生成# 图像编辑
    1年前
    02080
    Roboflow开源基于Transformer的实时目标检测模型 RF-DETR

    Roboflow开源基于Transformer的实时目标检测模型 RF-DETR

    Roboflow 近日正式发布了 RF-DETR,一种基于Transformer的实时目标检测模型。RF-DETR 在多个现实世界数据集上的表现超越了所有现有的目标检测模型,并且是首个在 COCO 数...
    多模态模型# RF-DETR# Roboflow# 实时目标检测模型
    1年前
    02710
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    ITELLOU

    ITELLOU

    ITELLYOU(也称为NEXT, ITELLYOU)是一个专注于提供微软原版软件资源的非官方网站,主要帮助用户获取未经修改的微软产品镜像,如Windows操作系统、Office办公软件和开发工具等。
    S.H.I.T

    S.H.I.T

    在主流学术界为顶刊版面、高影响因子和“非升即走”的考核指标疯狂内卷之时,一场名为“学术垃圾”的反叛运动正在角落里悄然兴起。一群“想开了”的硕博研究生和青年学者(青椒),不再试图迎合传统的学术评价体系,而是隆重推出了一系列名字惊世骇俗的“旗舰”期刊——《SHIT》、《Notrue》、《Silence》、《Crazy》。
    Tripo

    Tripo

    Tripo AI 是一家领先的 AI 驱动 3D 建模解决方案提供商,允许用户使用文本、单张图像、多张图像、涂鸦或视频等输入,快速创建高质量的 3D 模型和环境。
    TapNow

    TapNow

    TapNow是一个面向创作者的专业级 AI 视觉内容平台,支持从脚本撰写、分镜头设计到高保真成片输出的完整流程,单人即可在 1–3 天内完成传统需 4–6 周的影视级项目。
    BuildCores

    BuildCores

    BuildCores 是一款集 3D 组装预览、智能兼容性检测、全球比价 于一体的在线装机工具。无论你是首次装机的新手,还是追求极致性能的发烧友,都能在手机或电脑上轻松规划、验证并优化你的 PC 配置。
    MaxClaw

    MaxClaw

    Minimax 正式宣布对其 AI 智能体平台进行重大升级,推出 探索专家(Expert) 2.0 与 MaxClaw 两大核心功能。此次更新不仅大幅降低了专业智能体的创建门槛,更通过云端化部署解决了 OpenClaw 长期存在的“落地难”问题,标志着 AI 智能体从“极客玩具”向“大众生产力工具”的跨越。
    查看完整榜单