字节跳动发布OmniHuman-1.5:模拟人类双重认知,生成语义连贯的高逼真角色动画字节跳动近期推出新型视频角色生成框架 OmniHuman-1.5,核心突破在于模拟人类“系统1(快速直觉反应)+系统2(缓慢深思规划)”的双重认知过程,实现从“单一图像+语音轨道”到“物理逼真、语义连...视频模型# OmniHuman-1.5# 字节跳动7个月前0760
腾讯优图实验室发布Youtu-agent:开源、高性能的自主智能体框架,开箱即用多场景能力腾讯优图实验室近期推出了自主智能体框架 Youtu-agent——一款以“灵活、高性能、低成本”为核心的工具,不仅能支持自主智能体的构建、运行与评估,还在多项权威基准测试中表现突出。更重要的是,它针对...大语言模型# Youtu-agent# 智能体框架7个月前01560
腾讯AI实验室联合两校发布Vision-SR1:自我奖励+推理分解,破解VLM视觉推理难题腾讯AI实验室联合马里兰大学帕克分校、华盛顿大学圣路易斯分校的研究团队,共同发布了新型视觉-语言模型(VLM)——Vision-SR1。该模型聚焦于解决传统VLM的核心痛点,通过创新的“自我奖励机制...多模态模型# Vision-SR1# 视觉-语言模型7个月前03240
腾讯开源混元视频音效生成模型HunyuanVideo-Foley:端到端TV2A模型,为创作者打造高保真音视频体验腾讯今天正式开源 HunyuanVideo-Foley —— 一个端到端的文本-视频-音频(Text-Video-to-Audio, TV2A)生成模型,专注于为视频内容自动生成高保真、语义对齐的音效...视频模型# HunyuanVideo-Foley# 混元视频音效生成模型# 腾讯7个月前0960
阿里开源 Wan2.2-S2V-14B:输入一张图 + 一段音频,生成电影级数字人视频阿里Wan团队正式开源音频驱动视频生成模型Wan2.2-S2V-14B。这款模型打破了传统视频生成对复杂输入的依赖——用户仅需提供一张静态图像与一条音频,即可生成面部表情自然、口型精准同步、肢体动作流...视频模型# Wan2.2-S2V-14B# 数字人# 阿里7个月前05320
蚂蚁集团新框架Atom-Searcher:用“原子化思想”破解LLMs深度研究难题大语言模型(LLM)在开放域问答、信息检索等任务中展现出强大潜力。然而,面对需要多步骤推理、工具调用和外部验证的复杂任务,仅靠模型的静态知识和简单提示工程往往力不从心。 现有方法如检索增强生成(RAG...大语言模型# Atom-Searcher# 蚂蚁集团7个月前03210
MV-RAG:用检索增强实现更可靠的文本到3D生成近年来,基于预训练2D扩散模型的文本到3D生成方法取得了显著进展。这类方法通过“蒸馏”2D先验知识,能够生成视觉质量高、多视角一致的3D内容。然而,当面对罕见或未见过的概念(如“博洛尼亚犬”或“Lab...3D模型# 3D生成# MV-RAG7个月前03220
nano-banana正式版!谷歌发布全新图像模型Gemini 2.5 Flash Image,更精准的 AI 图像编辑谷歌正在为其 Gemini 聊天机器人引入一项重要升级:全新的 AI 图像模型 Gemini 2.5 Flash Image。该模型不仅提升了图像生成质量,更在编辑精度、角色一致性与多图融合方面实现了...图像模型# AI 图像编辑# Gemini 2.5 Flash Image# nano-banana7个月前05330
面壁智能发布 MiniCPM-V 4.5:8B 参数模型实现多模态能力新突破面壁智能正式推出其最新视觉语言模型 MiniCPM-V 4.5,这是 MiniCPM-V 系列中性能最强、功能最全面的版本。该模型在保持 80 亿参数规模的前提下,实现了在视觉理解、视频处理、文档解析...多模态模型# MiniCPM-V 4.5# 面壁智能7个月前06210
上海AI实验室InternVL项目组发布多模态大语言模型系列InternVL3.5上海AI实验室InternVL项目组推出 InternVL3.5,这是一个开源的多模态大语言模型(MLLM)系列,旨在提升模型在多功能性、推理能力和效率方面的表现。 GitHub:https://gi...多模态模型# InternVL3.5# 上海AI实验室7个月前01830
VibeVoice-1.5B:微软开源TTS框架,可生成4人60分钟长对话音频微软近期开源了一款全新文本到语音(TTS)框架——VibeVoice-1.5B,其核心突破在于打破传统TTS系统的局限:能同时生成包含4个不同说话者、最长60分钟的连贯对话音频,且在长序列处理效率、说...语音模型# TTS# VibeVoice-1.5B# 微软7个月前05120
字节跳动 Waver 项目组推出一体化视频生成模型Waver 1.0:同时支持文生图、图生视频及文生图生成字节跳动 Waver 项目组近期正式推出 Waver 1.0 一体化视频生成模型,凭借多模态生成能力、高分辨率支持及卓越的运动建模效果,在视频生成领域实现重要突破,为工业级视频创作需求提供了全新解决方...视频模型# Waver 1.0# 字节跳动# 视频生成7个月前06410