SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    模型

    共 1237 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型世界模型
    排序
    发布更新浏览点赞
    Kiwi-Edit:开源视频编辑新标杆,首创“指令 + 参考图”双模驱动,打破商业模型数据垄断

    Kiwi-Edit:开源视频编辑新标杆,首创“指令 + 参考图”双模驱动,打破商业模型数据垄断

    在 AI 视频编辑领域,我们常面临一个尴尬境地:文字指令难以描述精确的视觉细节(如“把那辆车换成特定的红色法拉利”),而现有的参考图引导编辑又受限于高质量训练数据的极度匮乏。 Kiwi-Edit 是由...
    视频模型# Kiwi-Edit# 视频编辑
    1个月前
    0440
    Qwen3.5 小模型系列重磅发布:0.8B 至 9B 全覆盖,原生多模态与强化学习赋能边缘智能

    Qwen3.5 小模型系列重磅发布:0.8B 至 9B 全覆盖,原生多模态与强化学习赋能边缘智能

    通义千问(Qwen)家族再添新成员!Qwen3.5 小模型系列今日正式发布,涵盖 0.8B、2B、4B、9B 四种参数量级。这一系列模型不仅继承了 Qwen3.5 大模型的强大基因,更在效率与性能的平...
    大语言模型# Qwen3.5
    1个月前
    0820
    阿里通义发布 Fun-CosyVoice3.5 与 Fun-AudioGen-VD:自然语言指令即可实现“FreeStyle”语音与场景生成

    阿里通义发布 Fun-CosyVoice3.5 与 Fun-AudioGen-VD:自然语言指令即可实现“FreeStyle”语音与场景生成

    阿里通义实验室语音团队今日正式宣布,推出两款支持 FreeStyle 指令生成 的突破性模型:Fun-CosyVoice3.5 与 Fun-AudioGen-VD。 官方文档:https://help...
    语音模型# Fun-AudioGen-VD# Fun-CosyVoice3.5# 阿里通义
    1个月前
    0460
    ImageCritic:AI 绘图的“细节质检员”,专治 Logo 变形与文字乱码的通用后处理方案

    ImageCritic:AI 绘图的“细节质检员”,专治 Logo 变形与文字乱码的通用后处理方案

    在 AI 绘画飞速发展的今天,我们早已习惯了让模型根据文字描述创造出惊艳的画面,甚至能将特定的商品、宠物或角色无缝植入新场景。然而,一个长期存在的“老大难”问题始终困扰着专业应用:细节一致性。 当你试...
    图像模型# ImageCritic# 图像编辑
    1个月前
    0520
    淘宝闪购开源“白泽”大模型Ostrakon-VL:基于 Qwen3-VL 打造餐饮风控神器,免费开放全行业使用

    淘宝闪购开源“白泽”大模型Ostrakon-VL:基于 Qwen3-VL 打造餐饮风控神器,免费开放全行业使用

    在食品安全日益受到重视的今天,如何利用 AI 技术实现高效、精准的数字化治理,成为外卖平台与餐饮零售行业共同面临的挑战。今日,淘宝闪购正式宣布,将其专为餐饮服务与零售门店打造的风控治理垂直领域大模型...
    多模态模型# Ostrakon-VL# 淘宝闪购# 白泽
    1个月前
    0360
    Perplexity 开源两款高性能嵌入模型:4B 参数支持二进制量化,检索效果超越 Gemini 与 Qwen

    Perplexity 开源两款高性能嵌入模型:4B 参数支持二进制量化,检索效果超越 Gemini 与 Qwen

    在检索增强生成(RAG)和大规模语义搜索领域,嵌入模型(Embedding Model)的性能与成本往往难以兼得。今日,AI搜索引擎 Perplexity AI 发布了专为互联网规模检索任务打造的两款...
    大语言模型# Perplexity# pplx-embed-context-v1# pplx-embed-v1
    1个月前
    0240
    虚拟数字人项目DreamID-Omni:清华&字节联合发布统一框架,一人一模型搞定“换脸、变声、让照片说话”

    虚拟数字人项目DreamID-Omni:清华&字节联合发布统一框架,一人一模型搞定“换脸、变声、让照片说话”

    想象一下:你上传一张爱因斯坦的照片和一段录音,AI 就能生成他在办公室里发表演讲的完整视频,口型完美匹配,声音惟妙惟肖;或者,你想把电影片段中的主角换成自己,连声音也一并替换,动作表情却原汁原味。 这...
    视频模型# DreamID-Omni# 数字人
    1个月前
    0880
    FlowRVS:颠覆“定位 - 分割”旧范式,用“视频变形”魔法实现指代视频对象分割新 SOTA

    FlowRVS:颠覆“定位 - 分割”旧范式,用“视频变形”魔法实现指代视频对象分割新 SOTA

    想象这样一个场景:视频里有两只狗在玩耍,你对 AI 说:“帮我追踪那只正在跳的白色狗。”或者在一群人中,你指定:“锁定那个先骑自行车进画面的男人。” 这种用自然语言描述来指定视频中特定对象,并让 AI...
    视频模型# FlowRVS# 分割模型
    1个月前
    0570
    谷歌发布 Nano Banana 2:融合 Flash 速度与 Pro 级画质,角色一致性高达 5 人

    谷歌发布 Nano Banana 2:融合 Flash 速度与 Pro 级画质,角色一致性高达 5 人

    谷歌今日正式推出了其最新图像生成模型 Nano Banana 2(技术代号:Gemini 3.1 Flash Image)。这款新模型旨在打破“速度”与“质量”不可兼得的魔咒,将 Gemini Fla...
    图像模型早报# Gemini 3.1 Flash Image# Nano Banana 2# 谷歌
    1个月前
    0830
    Inception Labs 发布 Mercury 2:扩散式 LLM 打破自回归瓶颈,推理速度提升 10 倍

    Inception Labs 发布 Mercury 2:扩散式 LLM 打破自回归瓶颈,推理速度提升 10 倍

    在大型语言模型(LLM)领域,自回归(Autoregressive)架构长期占据主导地位,但其“逐字生成”的特性已成为高延迟场景的痛点。今日,Inception Labs 正式推出 Mercury 2...
    大语言模型# Inception Labs# Mercury 2# 扩散式 LLM
    1个月前
    0410
    西班牙“准独角兽”Multiverse 发布免费压缩模型Hypernova-60B-2602:60B 参数仅占 32GB,性能比肩 Mistral Large 3

    西班牙“准独角兽”Multiverse 发布免费压缩模型Hypernova-60B-2602:60B 参数仅占 32GB,性能比肩 Mistral Large 3

    大型语言模型(LLM)虽强,但“大”往往意味着高昂的部署成本和难以逾越的硬件门槛。西班牙巴斯克地区的初创公司 Multiverse Computing 正试图打破这一僵局。 今日,该公司正式发布了 H...
    大语言模型# Hypernova-60B-2602# Multiverse
    1个月前
    0780
    LoRWeB:AI 图像编辑新范式,只需“看一眼”就能学会任何修图技巧

    LoRWeB:AI 图像编辑新范式,只需“看一眼”就能学会任何修图技巧

    想象这样一个场景:你看到朋友的照片戴着一副酷炫的墨镜,效果极佳。你也想给自己的照片加上同款墨镜,但你既不会使用复杂的 Photoshop,也难以用文字精确描述“想要什么样的墨镜、戴在什么位置、光影如何...
    图像模型# LoRWeB# 图像编辑
    1个月前
    0670
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    Flova

    新Flova

    Flova AI 最近宣布集成字节跳动最新的视频生成模型——Seedance 2.0。这不仅仅是一个新模型的上线,更意味着普通创作者现在也能轻松制作出长达 60 至 90 秒、角色稳定、剧情连贯的电影级短剧。
    Meshy

    Meshy

    Meshy 是一款非常适合初学者和专业用户的 3D 模型生成工具。无论是快速建模、3D 打印还是动画设计,它都能轻松应对。如果你对 3D 模型创建感兴趣,不妨试试 Meshy,让生成式 AI 为你的创意插上翅膀!
    S.H.I.T

    S.H.I.T

    在主流学术界为顶刊版面、高影响因子和“非升即走”的考核指标疯狂内卷之时,一场名为“学术垃圾”的反叛运动正在角落里悄然兴起。一群“想开了”的硕博研究生和青年学者(青椒),不再试图迎合传统的学术评价体系,而是隆重推出了一系列名字惊世骇俗的“旗舰”期刊——《SHIT》、《Notrue》、《Silence》、《Crazy》。
    Tripo

    Tripo

    Tripo AI 是一家领先的 AI 驱动 3D 建模解决方案提供商,允许用户使用文本、单张图像、多张图像、涂鸦或视频等输入,快速创建高质量的 3D 模型和环境。
    即梦 CLI

    即梦 CLI

    即梦 CLI (Jimeng CLI) 是字节跳动官方推出的面向 AI Agent 的命令行工具包。它打破了图形界面的限制,让任何 AI 智能体(如基于 OpenClaw 的助手)都能直接调用即梦强大的 Seedance 2.0 旗舰模型,实现图片与视频的自动化生成。
    ITELLOU

    ITELLOU

    ITELLYOU(也称为NEXT, ITELLYOU)是一个专注于提供微软原版软件资源的非官方网站,主要帮助用户获取未经修改的微软产品镜像,如Windows操作系统、Office办公软件和开发工具等。
    查看完整榜单