SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    模型

    共 1179 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型世界模型
    排序
    发布更新浏览点赞
    OmniLottie:全球首个端到端多模态矢量动画生成器,文字/图片/视频一键转可编辑 Lottie

    OmniLottie:全球首个端到端多模态矢量动画生成器,文字/图片/视频一键转可编辑 Lottie

    在数字设计领域,动画是灵魂,但高质量动画的制作门槛却高不可攀。现有的 AI 视频生成工具大多输出“死视频”(MP4/GIF)——无法放大、无法修改颜色、无法提取元素。而设计师钟爱的 Lottie 矢量...
    多模态模型# Lottie# OmniLottie# 矢量动画
    2周前
    0380
    Helios:北大与字节联手打造 14B 实时长视频模型,单卡 19.5 FPS 刷新生成速度纪录

    Helios:北大与字节联手打造 14B 实时长视频模型,单卡 19.5 FPS 刷新生成速度纪录

    在 AI 视频生成领域,长期存在一个“不可能三角”:生成速度快、视频时长长、画面质量高,三者往往难以兼得。主流模型要么只能生成几秒的短视频,要么需要数十分钟才能渲染出几秒钟的画面,且长视频极易出现人物...
    视频模型# Helios# 实时长视频模型
    2周前
    01320
    Kiwi-Edit:开源视频编辑新标杆,首创“指令 + 参考图”双模驱动,打破商业模型数据垄断

    Kiwi-Edit:开源视频编辑新标杆,首创“指令 + 参考图”双模驱动,打破商业模型数据垄断

    在 AI 视频编辑领域,我们常面临一个尴尬境地:文字指令难以描述精确的视觉细节(如“把那辆车换成特定的红色法拉利”),而现有的参考图引导编辑又受限于高质量训练数据的极度匮乏。 Kiwi-Edit 是由...
    视频模型# Kiwi-Edit# 视频编辑
    2周前
    0270
    Qwen3.5 小模型系列重磅发布:0.8B 至 9B 全覆盖,原生多模态与强化学习赋能边缘智能

    Qwen3.5 小模型系列重磅发布:0.8B 至 9B 全覆盖,原生多模态与强化学习赋能边缘智能

    通义千问(Qwen)家族再添新成员!Qwen3.5 小模型系列今日正式发布,涵盖 0.8B、2B、4B、9B 四种参数量级。这一系列模型不仅继承了 Qwen3.5 大模型的强大基因,更在效率与性能的平...
    大语言模型# Qwen3.5
    2周前
    0720
    阿里通义发布 Fun-CosyVoice3.5 与 Fun-AudioGen-VD:自然语言指令即可实现“FreeStyle”语音与场景生成

    阿里通义发布 Fun-CosyVoice3.5 与 Fun-AudioGen-VD:自然语言指令即可实现“FreeStyle”语音与场景生成

    阿里通义实验室语音团队今日正式宣布,推出两款支持 FreeStyle 指令生成 的突破性模型:Fun-CosyVoice3.5 与 Fun-AudioGen-VD。 官方文档:https://help...
    语音模型# Fun-AudioGen-VD# Fun-CosyVoice3.5# 阿里通义
    2周前
    0300
    ImageCritic:AI 绘图的“细节质检员”,专治 Logo 变形与文字乱码的通用后处理方案

    ImageCritic:AI 绘图的“细节质检员”,专治 Logo 变形与文字乱码的通用后处理方案

    在 AI 绘画飞速发展的今天,我们早已习惯了让模型根据文字描述创造出惊艳的画面,甚至能将特定的商品、宠物或角色无缝植入新场景。然而,一个长期存在的“老大难”问题始终困扰着专业应用:细节一致性。 当你试...
    图像模型# ImageCritic# 图像编辑
    2周前
    0340
    淘宝闪购开源“白泽”大模型Ostrakon-VL:基于 Qwen3-VL 打造餐饮风控神器,免费开放全行业使用

    淘宝闪购开源“白泽”大模型Ostrakon-VL:基于 Qwen3-VL 打造餐饮风控神器,免费开放全行业使用

    在食品安全日益受到重视的今天,如何利用 AI 技术实现高效、精准的数字化治理,成为外卖平台与餐饮零售行业共同面临的挑战。今日,淘宝闪购正式宣布,将其专为餐饮服务与零售门店打造的风控治理垂直领域大模型...
    多模态模型# Ostrakon-VL# 淘宝闪购# 白泽
    2周前
    0250
    Perplexity 开源两款高性能嵌入模型:4B 参数支持二进制量化,检索效果超越 Gemini 与 Qwen

    Perplexity 开源两款高性能嵌入模型:4B 参数支持二进制量化,检索效果超越 Gemini 与 Qwen

    在检索增强生成(RAG)和大规模语义搜索领域,嵌入模型(Embedding Model)的性能与成本往往难以兼得。今日,AI搜索引擎 Perplexity AI 发布了专为互联网规模检索任务打造的两款...
    大语言模型# Perplexity# pplx-embed-context-v1# pplx-embed-v1
    2周前
    0220
    虚拟数字人项目DreamID-Omni:清华&字节联合发布统一框架,一人一模型搞定“换脸、变声、让照片说话”

    虚拟数字人项目DreamID-Omni:清华&字节联合发布统一框架,一人一模型搞定“换脸、变声、让照片说话”

    想象一下:你上传一张爱因斯坦的照片和一段录音,AI 就能生成他在办公室里发表演讲的完整视频,口型完美匹配,声音惟妙惟肖;或者,你想把电影片段中的主角换成自己,连声音也一并替换,动作表情却原汁原味。 这...
    视频模型# DreamID-Omni# 数字人
    3周前
    0750
    FlowRVS:颠覆“定位 - 分割”旧范式,用“视频变形”魔法实现指代视频对象分割新 SOTA

    FlowRVS:颠覆“定位 - 分割”旧范式,用“视频变形”魔法实现指代视频对象分割新 SOTA

    想象这样一个场景:视频里有两只狗在玩耍,你对 AI 说:“帮我追踪那只正在跳的白色狗。”或者在一群人中,你指定:“锁定那个先骑自行车进画面的男人。” 这种用自然语言描述来指定视频中特定对象,并让 AI...
    视频模型# FlowRVS# 分割模型
    3周前
    0530
    谷歌发布 Nano Banana 2:融合 Flash 速度与 Pro 级画质,角色一致性高达 5 人

    谷歌发布 Nano Banana 2:融合 Flash 速度与 Pro 级画质,角色一致性高达 5 人

    谷歌今日正式推出了其最新图像生成模型 Nano Banana 2(技术代号:Gemini 3.1 Flash Image)。这款新模型旨在打破“速度”与“质量”不可兼得的魔咒,将 Gemini Fla...
    图像模型早报# Gemini 3.1 Flash Image# Nano Banana 2# 谷歌
    3周前
    0430
    Inception Labs 发布 Mercury 2:扩散式 LLM 打破自回归瓶颈,推理速度提升 10 倍

    Inception Labs 发布 Mercury 2:扩散式 LLM 打破自回归瓶颈,推理速度提升 10 倍

    在大型语言模型(LLM)领域,自回归(Autoregressive)架构长期占据主导地位,但其“逐字生成”的特性已成为高延迟场景的痛点。今日,Inception Labs 正式推出 Mercury 2...
    大语言模型# Inception Labs# Mercury 2# 扩散式 LLM
    3周前
    0360
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    S.H.I.T

    S.H.I.T

    在主流学术界为顶刊版面、高影响因子和“非升即走”的考核指标疯狂内卷之时,一场名为“学术垃圾”的反叛运动正在角落里悄然兴起。一群“想开了”的硕博研究生和青年学者(青椒),不再试图迎合传统的学术评价体系,而是隆重推出了一系列名字惊世骇俗的“旗舰”期刊——《SHIT》、《Notrue》、《Silence》、《Crazy》。
    JVSClaw

    JVSClaw

    里云正式推出基于该框架打造的下一代 AI 助理平台——JVSClaw。目前,该产品已开启内测,主打“开箱即用”与“自进化能力”,让普通用户和开发者都能轻松“快乐养虾”。
    360 安全龙虾

    新360 安全龙虾

    60安全龙虾目前已接入16家国内主流大模型,覆盖文本生成、编程开发、多模态创作等多种能力。同时内置100余个高频技能,可直接用于文档生成、数据分析、PPT制作、会议转写等常见办公场景。
    ArkClaw

    ArkClaw

    字节旗下火山引擎正式上线 ArkClaw, 开箱即用的云上 SaaS 版 OpenClaw。无需任何复杂配置,打开网页即可使用 7×24 小时在线的 AI 助手。
    Vidu

    Vidu

    Vidu 是一款由生数科技与清华大学合作开发的 AI 视频生成工具,2024 年推出,专注于从文本和图像生成高清视频。它支持文本转视频、图像转视频和参考转视频模式,适合社交媒体、广告和电影制作。
    Clarifai

    Clarifai

    Clarifai宣布推出其全新自研的 推理引擎(Inference Engine),专为应对当前高负载、多步骤的 AI 推理任务而设计。该公司声称,该引擎可在相同硬件条件下,实现 推理速度提升一倍,同时将单位计算成本 降低 40%。
    查看完整榜单