InfoSeek:智源研究院提出可扩展的深度研究数据合成框架在大模型迈向“自主思考”的过程中,一个关键瓶颈逐渐显现: 现有基准任务太简单,无法真正测试模型的复杂推理能力。 Natural Questions、HotpotQA 等主流数据集虽然推动了多跳推理的发...大语言模型# InfoSeek# 深度研究3个月前02050
OpenVision 2:更高效、更对齐的生成式视觉编码器在多模态大模型(MLLM)快速发展的今天,一个核心问题日益凸显:预训练视觉编码器的训练方式是否真的适配下游任务? 传统方法依赖图像-文本对比学习(如 CLIP),但这类模型在接入 LLM 进行微调时...多模态模型# OpenVision 2# 视觉编码器3个月前01250
Pusa Wan2.2 V1.0:将开创性的 Pusa 范式扩展到先进的 Wan2.2-T2V-A14B 架构Pusa Wan2.2 V1.0 将开创性的 Pusa 范式扩展到先进的 Wan2.2-T2V-A14B 架构,该架构采用 MoE DiT 设计,包含独立的噪声和高噪声模型。这种架构提供了增强的质量控...视频模型# Pusa Wan2.2 V1.0# Wan2.2-T2V-A14B3个月前01590
快手 Keye 团队发布Keye-VL-1.5 :支持 128K 上下文的视频理解大模型在多模态大模型的竞争中,视频理解正成为下一个关键战场。相比图像,视频包含更丰富的时空信息——动作的起止、事件的因果、场景的演变。要让AI真正“看懂”一段视频,不仅需要识别画面内容,还要理解时间逻辑与行...多模态模型# Keye-VL-1.5# 快手# 视频理解大模型3个月前0690
ElevenLabs 发布音效生成模型SFX v2:音效生成更真实,支持无缝循环ElevenLabs 今天推出了其音效生成模型 SFX v2,在音质、功能和使用体验上实现多项重要升级。现在,用户只需输入一段文字提示,即可生成高质量、可循环的环境音效,适用于有声书、播客、视频、冥想...语音模型# ElevenLabs# SFX v2# 音效生成模型3个月前01410
MetaFold:用语言指导机器人叠衣服,还能通用于不同衣物让机器人叠衣服,听起来简单,做起来极难。 布料柔软、易变形,同一件T恤每次摆放的形态都不同。这种高度的可变性使得机器人难以像抓取刚性物体那样,靠预设动作完成操作。更别说还要应对不同款式——无袖、短袖...多模态模型# MetaFold3个月前0850
瑞士发布国家级开源大模型 Apertus,构建自主可控、合规透明的AI基础设施瑞士近日正式推出其国家级开源大语言模型 Apertus,标志着该国在构建自主可控、合规透明的人工智能基础设施方面迈出关键一步。 这一模型由 洛桑联邦理工学院(EPFL)、苏黎世联邦理工学院(ETH Z...大语言模型# Apertus# 开源大模型# 瑞士3个月前02360
阿里发布 AgentScope 1.0:面向生产级智能体的开源开发框架阿里巴巴近日正式推出 AgentScope 1.0 —— 一个以开发者为核心的开源智能体(Agent)开发框架,致力于解决当前智能体应用在可控性、可维护性和落地部署方面的关键挑战。 不同于仅聚焦于单点...大语言模型# AgentScope 1.0# 智能体开发框架# 阿里巴巴4个月前01600
腾讯微信视觉团队发布 Stand-In:轻量级身份保持视频生成新框架在文本到视频(T2V)生成领域,一个长期存在的难题是:如何让生成的视频中的人物始终“长成你想要的样子”? 尽管现有模型能生成流畅、高质量的视频,但在身份一致性(identity-preserving...视频模型# Stand-In# 视频生成框架4个月前04110
腾讯发布混元世界模型 - Voyager:单图生成 3D 场景,实现长距离沉浸式探索腾讯今天正式推出混元世界模型 - Voyager(HunyuanWorld-Voyager),这是一款创新的视频扩散框架。其核心能力在于:基于单张输入图像即可生成具备世界一致性的 3D 点云,支持用户...视频模型# HunyuanWorld-Voyager# 混元世界模型 - Voyager# 腾讯4个月前0660
艾伦AI研究所推出全新开源 ASR 模型家族OLMoASR在自动语音识别(ASR)领域,Whisper 一直是开源社区的标杆——强大、鲁棒、支持零样本迁移。但它有一个根本局限:训练数据未公开,模型行为难以分析,也无法完全复现。 现在,艾伦人工智能研究所(AI...语音模型# OLMoASR# 艾伦AI研究所4个月前0960
阶跃星辰发布开源语音大模型Step-Audio 2 mini:多任务性能登顶SOTA,攻克语音AI“智商情商”痛点今日,阶跃星辰正式发布开源端到端语音大模型Step-Audio 2 mini,该模型在音频理解、语音识别、翻译及对话等多个国际基准测试集中均斩获SOTA(state-of-the-art,当前最优)成...语音模型# Step-Audio 2 mini# 阶跃星辰4个月前01780