模型 | 第8页 | SD百科导航

百科工具模型 ComfyUI AI合集 web UI 提示词

大语言模型多模态模型图像模型语音模型 3D模型 Flux衍生视频模型世界模型

排序

发布更新浏览点赞

Kiwi-Edit：开源视频编辑新标杆，首创“指令 + 参考图”双模驱动，打破商业模型数据垄断

在 AI 视频编辑领域，我们常面临一个尴尬境地：文字指令难以描述精确的视觉细节（如“把那辆车换成特定的红色法拉利”），而现有的参考图引导编辑又受限于高质量训练数据的极度匮乏。 Kiwi-Edit 是由...

视频模型 # Kiwi-Edit # 视频编辑

1个月前

0440

Qwen3.5 小模型系列重磅发布：0.8B 至 9B 全覆盖，原生多模态与强化学习赋能边缘智能

通义千问（Qwen）家族再添新成员！Qwen3.5 小模型系列今日正式发布，涵盖 0.8B、2B、4B、9B 四种参数量级。这一系列模型不仅继承了 Qwen3.5 大模型的强大基因，更在效率与性能的平...

大语言模型 # Qwen3.5

1个月前

0820

阿里通义发布 Fun-CosyVoice3.5 与 Fun-AudioGen-VD：自然语言指令即可实现“FreeStyle”语音与场景生成

阿里通义实验室语音团队今日正式宣布，推出两款支持 FreeStyle 指令生成的突破性模型：Fun-CosyVoice3.5 与 Fun-AudioGen-VD。官方文档：https://help...

语音模型 # Fun-AudioGen-VD # Fun-CosyVoice3.5 # 阿里通义

1个月前

0460

ImageCritic：AI 绘图的“细节质检员”，专治 Logo 变形与文字乱码的通用后处理方案

在 AI 绘画飞速发展的今天，我们早已习惯了让模型根据文字描述创造出惊艳的画面，甚至能将特定的商品、宠物或角色无缝植入新场景。然而，一个长期存在的“老大难”问题始终困扰着专业应用：细节一致性。当你试...

图像模型 # ImageCritic # 图像编辑

1个月前

0520

淘宝闪购开源“白泽”大模型Ostrakon-VL：基于 Qwen3-VL 打造餐饮风控神器，免费开放全行业使用

在食品安全日益受到重视的今天，如何利用 AI 技术实现高效、精准的数字化治理，成为外卖平台与餐饮零售行业共同面临的挑战。今日，淘宝闪购正式宣布，将其专为餐饮服务与零售门店打造的风控治理垂直领域大模型...

多模态模型 # Ostrakon-VL # 淘宝闪购 # 白泽

1个月前

0360

Perplexity 开源两款高性能嵌入模型：4B 参数支持二进制量化，检索效果超越 Gemini 与 Qwen

在检索增强生成（RAG）和大规模语义搜索领域，嵌入模型（Embedding Model）的性能与成本往往难以兼得。今日，AI搜索引擎 Perplexity AI 发布了专为互联网规模检索任务打造的两款...

大语言模型 # Perplexity # pplx-embed-context-v1 # pplx-embed-v1

1个月前

0240

虚拟数字人项目DreamID-Omni：清华&字节联合发布统一框架，一人一模型搞定“换脸、变声、让照片说话”

想象一下：你上传一张爱因斯坦的照片和一段录音，AI 就能生成他在办公室里发表演讲的完整视频，口型完美匹配，声音惟妙惟肖；或者，你想把电影片段中的主角换成自己，连声音也一并替换，动作表情却原汁原味。这...

视频模型 # DreamID-Omni # 数字人

1个月前

0880

FlowRVS：颠覆“定位 - 分割”旧范式，用“视频变形”魔法实现指代视频对象分割新 SOTA

想象这样一个场景：视频里有两只狗在玩耍，你对 AI 说：“帮我追踪那只正在跳的白色狗。”或者在一群人中，你指定：“锁定那个先骑自行车进画面的男人。” 这种用自然语言描述来指定视频中特定对象，并让 AI...

视频模型 # FlowRVS # 分割模型

1个月前

0570

谷歌发布 Nano Banana 2：融合 Flash 速度与 Pro 级画质，角色一致性高达 5 人

谷歌今日正式推出了其最新图像生成模型 Nano Banana 2（技术代号：Gemini 3.1 Flash Image）。这款新模型旨在打破“速度”与“质量”不可兼得的魔咒，将 Gemini Fla...

图像模型早报 # Gemini 3.1 Flash Image # Nano Banana 2 # 谷歌

1个月前

0830

Inception Labs 发布 Mercury 2：扩散式 LLM 打破自回归瓶颈，推理速度提升 10 倍

在大型语言模型（LLM）领域，自回归（Autoregressive）架构长期占据主导地位，但其“逐字生成”的特性已成为高延迟场景的痛点。今日，Inception Labs 正式推出 Mercury 2...

大语言模型 # Inception Labs # Mercury 2 # 扩散式 LLM

1个月前

0410

西班牙“准独角兽”Multiverse 发布免费压缩模型Hypernova-60B-2602：60B 参数仅占 32GB，性能比肩 Mistral Large 3

大型语言模型（LLM）虽强，但“大”往往意味着高昂的部署成本和难以逾越的硬件门槛。西班牙巴斯克地区的初创公司 Multiverse Computing 正试图打破这一僵局。今日，该公司正式发布了 H...

大语言模型 # Hypernova-60B-2602 # Multiverse

1个月前

0780

LoRWeB：AI 图像编辑新范式，只需“看一眼”就能学会任何修图技巧

想象这样一个场景：你看到朋友的照片戴着一副酷炫的墨镜，效果极佳。你也想给自己的照片加上同款墨镜，但你既不会使用复杂的 Photoshop，也难以用文字精确描述“想要什么样的墨镜、戴在什么位置、光影如何...

图像模型 # LoRWeB # 图像编辑

1个月前

0670

加载更多

模型

Kiwi-Edit：开源视频编辑新标杆，首创“指令 + 参考图”双模驱动，打破商业模型数据垄断

Qwen3.5 小模型系列重磅发布：0.8B 至 9B 全覆盖，原生多模态与强化学习赋能边缘智能

阿里通义发布 Fun-CosyVoice3.5 与 Fun-AudioGen-VD：自然语言指令即可实现“FreeStyle”语音与场景生成

ImageCritic：AI 绘图的“细节质检员”，专治 Logo 变形与文字乱码的通用后处理方案

淘宝闪购开源“白泽”大模型Ostrakon-VL：基于 Qwen3-VL 打造餐饮风控神器，免费开放全行业使用

Perplexity 开源两款高性能嵌入模型：4B 参数支持二进制量化，检索效果超越 Gemini 与 Qwen

虚拟数字人项目DreamID-Omni：清华&字节联合发布统一框架，一人一模型搞定“换脸、变声、让照片说话”

FlowRVS：颠覆“定位 - 分割”旧范式，用“视频变形”魔法实现指代视频对象分割新 SOTA

谷歌发布 Nano Banana 2：融合 Flash 速度与 Pro 级画质，角色一致性高达 5 人

Inception Labs 发布 Mercury 2：扩散式 LLM 打破自回归瓶颈，推理速度提升 10 倍

西班牙“准独角兽”Multiverse 发布免费压缩模型Hypernova-60B-2602：60B 参数仅占 32GB，性能比肩 Mistral Large 3

LoRWeB：AI 图像编辑新范式，只需“看一眼”就能学会任何修图技巧

新Flova

Meshy

S.H.I.T

Tripo

即梦 CLI

ITELLOU

模型

网址

新Flova

Meshy

S.H.I.T

Tripo

即梦 CLI

ITELLOU