模型 | 第3页 | SD百科导航

百科工具模型 ComfyUI AI合集 web UI 提示词

大语言模型多模态模型图像模型语音模型 3D模型 Flux衍生视频模型世界模型

排序

发布更新浏览点赞

OmniLottie：全球首个端到端多模态矢量动画生成器，文字/图片/视频一键转可编辑 Lottie

在数字设计领域，动画是灵魂，但高质量动画的制作门槛却高不可攀。现有的 AI 视频生成工具大多输出“死视频”（MP4/GIF）——无法放大、无法修改颜色、无法提取元素。而设计师钟爱的 Lottie 矢量...

2周前

0380

Helios：北大与字节联手打造 14B 实时长视频模型，单卡 19.5 FPS 刷新生成速度纪录

在 AI 视频生成领域，长期存在一个“不可能三角”：生成速度快、视频时长长、画面质量高，三者往往难以兼得。主流模型要么只能生成几秒的短视频，要么需要数十分钟才能渲染出几秒钟的画面，且长视频极易出现人物...

视频模型 # Helios # 实时长视频模型

2周前

01320

Kiwi-Edit：开源视频编辑新标杆，首创“指令 + 参考图”双模驱动，打破商业模型数据垄断

在 AI 视频编辑领域，我们常面临一个尴尬境地：文字指令难以描述精确的视觉细节（如“把那辆车换成特定的红色法拉利”），而现有的参考图引导编辑又受限于高质量训练数据的极度匮乏。 Kiwi-Edit 是由...

视频模型 # Kiwi-Edit # 视频编辑

2周前

0270

Qwen3.5 小模型系列重磅发布：0.8B 至 9B 全覆盖，原生多模态与强化学习赋能边缘智能

通义千问（Qwen）家族再添新成员！Qwen3.5 小模型系列今日正式发布，涵盖 0.8B、2B、4B、9B 四种参数量级。这一系列模型不仅继承了 Qwen3.5 大模型的强大基因，更在效率与性能的平...

大语言模型 # Qwen3.5

2周前

0720

阿里通义发布 Fun-CosyVoice3.5 与 Fun-AudioGen-VD：自然语言指令即可实现“FreeStyle”语音与场景生成

阿里通义实验室语音团队今日正式宣布，推出两款支持 FreeStyle 指令生成的突破性模型：Fun-CosyVoice3.5 与 Fun-AudioGen-VD。官方文档：https://help...

语音模型 # Fun-AudioGen-VD # Fun-CosyVoice3.5 # 阿里通义

2周前

0300

ImageCritic：AI 绘图的“细节质检员”，专治 Logo 变形与文字乱码的通用后处理方案

在 AI 绘画飞速发展的今天，我们早已习惯了让模型根据文字描述创造出惊艳的画面，甚至能将特定的商品、宠物或角色无缝植入新场景。然而，一个长期存在的“老大难”问题始终困扰着专业应用：细节一致性。当你试...

图像模型 # ImageCritic # 图像编辑

2周前

0340

淘宝闪购开源“白泽”大模型Ostrakon-VL：基于 Qwen3-VL 打造餐饮风控神器，免费开放全行业使用

在食品安全日益受到重视的今天，如何利用 AI 技术实现高效、精准的数字化治理，成为外卖平台与餐饮零售行业共同面临的挑战。今日，淘宝闪购正式宣布，将其专为餐饮服务与零售门店打造的风控治理垂直领域大模型...

多模态模型 # Ostrakon-VL # 淘宝闪购 # 白泽

2周前

0250

Perplexity 开源两款高性能嵌入模型：4B 参数支持二进制量化，检索效果超越 Gemini 与 Qwen

在检索增强生成（RAG）和大规模语义搜索领域，嵌入模型（Embedding Model）的性能与成本往往难以兼得。今日，AI搜索引擎 Perplexity AI 发布了专为互联网规模检索任务打造的两款...

大语言模型 # Perplexity # pplx-embed-context-v1 # pplx-embed-v1

2周前

0220

虚拟数字人项目DreamID-Omni：清华&字节联合发布统一框架，一人一模型搞定“换脸、变声、让照片说话”

想象一下：你上传一张爱因斯坦的照片和一段录音，AI 就能生成他在办公室里发表演讲的完整视频，口型完美匹配，声音惟妙惟肖；或者，你想把电影片段中的主角换成自己，连声音也一并替换，动作表情却原汁原味。这...

视频模型 # DreamID-Omni # 数字人

3周前

0750

FlowRVS：颠覆“定位 - 分割”旧范式，用“视频变形”魔法实现指代视频对象分割新 SOTA

想象这样一个场景：视频里有两只狗在玩耍，你对 AI 说：“帮我追踪那只正在跳的白色狗。”或者在一群人中，你指定：“锁定那个先骑自行车进画面的男人。” 这种用自然语言描述来指定视频中特定对象，并让 AI...

视频模型 # FlowRVS # 分割模型

3周前

0530

谷歌发布 Nano Banana 2：融合 Flash 速度与 Pro 级画质，角色一致性高达 5 人

谷歌今日正式推出了其最新图像生成模型 Nano Banana 2（技术代号：Gemini 3.1 Flash Image）。这款新模型旨在打破“速度”与“质量”不可兼得的魔咒，将 Gemini Fla...

图像模型早报 # Gemini 3.1 Flash Image # Nano Banana 2 # 谷歌

3周前

0430

Inception Labs 发布 Mercury 2：扩散式 LLM 打破自回归瓶颈，推理速度提升 10 倍

在大型语言模型（LLM）领域，自回归（Autoregressive）架构长期占据主导地位，但其“逐字生成”的特性已成为高延迟场景的痛点。今日，Inception Labs 正式推出 Mercury 2...

大语言模型 # Inception Labs # Mercury 2 # 扩散式 LLM

3周前

0360

加载更多

模型