Kiwi-Edit:开源视频编辑新标杆,首创“指令 + 参考图”双模驱动,打破商业模型数据垄断在 AI 视频编辑领域,我们常面临一个尴尬境地:文字指令难以描述精确的视觉细节(如“把那辆车换成特定的红色法拉利”),而现有的参考图引导编辑又受限于高质量训练数据的极度匮乏。 Kiwi-Edit 是由...视频模型# Kiwi-Edit# 视频编辑1个月前0440
Qwen3.5 小模型系列重磅发布:0.8B 至 9B 全覆盖,原生多模态与强化学习赋能边缘智能通义千问(Qwen)家族再添新成员!Qwen3.5 小模型系列今日正式发布,涵盖 0.8B、2B、4B、9B 四种参数量级。这一系列模型不仅继承了 Qwen3.5 大模型的强大基因,更在效率与性能的平...大语言模型# Qwen3.51个月前0820
阿里通义发布 Fun-CosyVoice3.5 与 Fun-AudioGen-VD:自然语言指令即可实现“FreeStyle”语音与场景生成阿里通义实验室语音团队今日正式宣布,推出两款支持 FreeStyle 指令生成 的突破性模型:Fun-CosyVoice3.5 与 Fun-AudioGen-VD。 官方文档:https://help...语音模型# Fun-AudioGen-VD# Fun-CosyVoice3.5# 阿里通义1个月前0460
ImageCritic:AI 绘图的“细节质检员”,专治 Logo 变形与文字乱码的通用后处理方案在 AI 绘画飞速发展的今天,我们早已习惯了让模型根据文字描述创造出惊艳的画面,甚至能将特定的商品、宠物或角色无缝植入新场景。然而,一个长期存在的“老大难”问题始终困扰着专业应用:细节一致性。 当你试...图像模型# ImageCritic# 图像编辑1个月前0520
淘宝闪购开源“白泽”大模型Ostrakon-VL:基于 Qwen3-VL 打造餐饮风控神器,免费开放全行业使用在食品安全日益受到重视的今天,如何利用 AI 技术实现高效、精准的数字化治理,成为外卖平台与餐饮零售行业共同面临的挑战。今日,淘宝闪购正式宣布,将其专为餐饮服务与零售门店打造的风控治理垂直领域大模型...多模态模型# Ostrakon-VL# 淘宝闪购# 白泽1个月前0360
Perplexity 开源两款高性能嵌入模型:4B 参数支持二进制量化,检索效果超越 Gemini 与 Qwen在检索增强生成(RAG)和大规模语义搜索领域,嵌入模型(Embedding Model)的性能与成本往往难以兼得。今日,AI搜索引擎 Perplexity AI 发布了专为互联网规模检索任务打造的两款...大语言模型# Perplexity# pplx-embed-context-v1# pplx-embed-v11个月前0240
虚拟数字人项目DreamID-Omni:清华&字节联合发布统一框架,一人一模型搞定“换脸、变声、让照片说话”想象一下:你上传一张爱因斯坦的照片和一段录音,AI 就能生成他在办公室里发表演讲的完整视频,口型完美匹配,声音惟妙惟肖;或者,你想把电影片段中的主角换成自己,连声音也一并替换,动作表情却原汁原味。 这...视频模型# DreamID-Omni# 数字人1个月前0880
FlowRVS:颠覆“定位 - 分割”旧范式,用“视频变形”魔法实现指代视频对象分割新 SOTA想象这样一个场景:视频里有两只狗在玩耍,你对 AI 说:“帮我追踪那只正在跳的白色狗。”或者在一群人中,你指定:“锁定那个先骑自行车进画面的男人。” 这种用自然语言描述来指定视频中特定对象,并让 AI...视频模型# FlowRVS# 分割模型1个月前0570
谷歌发布 Nano Banana 2:融合 Flash 速度与 Pro 级画质,角色一致性高达 5 人谷歌今日正式推出了其最新图像生成模型 Nano Banana 2(技术代号:Gemini 3.1 Flash Image)。这款新模型旨在打破“速度”与“质量”不可兼得的魔咒,将 Gemini Fla...图像模型早报# Gemini 3.1 Flash Image# Nano Banana 2# 谷歌1个月前0830
Inception Labs 发布 Mercury 2:扩散式 LLM 打破自回归瓶颈,推理速度提升 10 倍在大型语言模型(LLM)领域,自回归(Autoregressive)架构长期占据主导地位,但其“逐字生成”的特性已成为高延迟场景的痛点。今日,Inception Labs 正式推出 Mercury 2...大语言模型# Inception Labs# Mercury 2# 扩散式 LLM1个月前0410
西班牙“准独角兽”Multiverse 发布免费压缩模型Hypernova-60B-2602:60B 参数仅占 32GB,性能比肩 Mistral Large 3大型语言模型(LLM)虽强,但“大”往往意味着高昂的部署成本和难以逾越的硬件门槛。西班牙巴斯克地区的初创公司 Multiverse Computing 正试图打破这一僵局。 今日,该公司正式发布了 H...大语言模型# Hypernova-60B-2602# Multiverse1个月前0780
LoRWeB:AI 图像编辑新范式,只需“看一眼”就能学会任何修图技巧想象这样一个场景:你看到朋友的照片戴着一副酷炫的墨镜,效果极佳。你也想给自己的照片加上同款墨镜,但你既不会使用复杂的 Photoshop,也难以用文字精确描述“想要什么样的墨镜、戴在什么位置、光影如何...图像模型# LoRWeB# 图像编辑1个月前0670