Character.AI 推出 TalkingMachines:音频驱动的实时视频生成模型,打造“FaceTime 风格”AI 视频交互知名 AI 角色平台 Character.AI 发布了一项引人注目的研究成果——TalkingMachines,一个基于扩散模型的新型自回归视频生成系统。该系统仅需一张静态图像和一段语音输入,即可生成...视频模型# Character.AI# TalkingMachines8个月前01860
MemOS:为大语言模型设计的长期记忆操作系统MemOS 是由记忆张量科技联合上海交通大学、同济大学、浙江大学、北京大学等多所高校及研究机构联合开源的一项突破性研究成果——专为大语言模型(LLMs)设计的长期记忆操作系统。 项目主页:https...大语言模型# MemOS# 大语言模型8个月前05110
华为正式开源盘古大模型与昇腾推理技术周一,华为宣布一项重大举措:开源其盘古70亿参数(7B)密集模型和720亿参数(72B)Pro MoE混合专家模型,以及基于昇腾平台的高效推理技术。 这一动作被视为华为持续推进大型AI模型研究与产业应...大语言模型# 华为# 盘古大模型8个月前01970
Sakana AI 推出 AB-MCTS:让多个前沿模型协作解决复杂推理问题Sakana AI 发布了一项令人瞩目的研究成果:他们开发出一种名为 AB-MCTS(自适应分支蒙特卡洛树搜索) 的新算法。该算法在 ARC-AGI-2 基准测试中表现出色,显著优于单独使用 o4-m...大语言模型# AB-MCTS# Sakana AI8个月前03170
Kyutai Labs推出新一代流式TTS模型Kyutai TTS:实时语音生成迈入新阶段近日,Kyutai Labs 正式开源了一款名为 Kyutai TTS 的文本转语音(TTS)模型,参数规模达到16亿,支持实时、流式处理,成为该领域的技术新标杆。这一模型不仅具备出色的语音生成能力...语音模型# Kyutai Labs# Kyutai TTS# TTS模型8个月前02640
Kurma AI专为水产养殖领域打造的通用语言模型AQUA-7B和AQUA-1B:以生成式 AI 重塑美国水产养殖业美国拥有广阔的海岸线、纯净的水域资源以及领先的技术基础,具备发展高产、可持续水产养殖业的天然优势。然而,这一潜力远未被充分挖掘。 据2021年数据显示,美国人均海产品消费量已达约 20.5磅,其中 8...大语言模型# AQUA-1B# AQUA-7B# Kurma AI8个月前03370
阿里Ovis团队发布统一多模态模型Ovis-U1:理解、生成与编辑三位一体近日,阿里巴巴通义实验室Ovis团队正式发布了新一代统一多模态大模型——Ovis-U1。该模型以30亿参数为基础,实现了对多模态任务的全面覆盖,涵盖图像理解、文本到图像生成以及图像编辑三大核心能力。 ...图像模型# Ovis-U1# 统一多模态模型8个月前02400
德国科技咨询公司TNG发布全新 DeepSeek R1-0528 变体DeepSeek-TNG R1T2 Chimera,速度提升 200%距离中国 AI 初创公司 DeepSeek 发布其热门开源模型 DeepSeek-R1-0528 不到两个月,该模型因其低成本训练和高性能推理能力迅速风靡全球 AI 社区。 如今,这款强大模型已被广泛...大语言模型# DeepSeek-R1-0528# DeepSeek-TNG R1T2 Chimera# TNG8个月前02370
苹果 & 香港研究人员推出 DiffuCoder:首个面向代码生成的扩散大语言模型近日,苹果与香港的研究团队联合提出了一种全新的基于扩散机制的大语言模型(Diffusion Large Language Model, dLLM)——DiffuCoder,专为代码生成任务设计。 Gi...大语言模型# DiffuCoder# 扩散大语言模型# 苹果8个月前01890
HelpingAI 团队推出全球首个支持“中间思维”的AI模型Dhanishtha-2.0想象一个不仅能快速回答问题,还能像人类一样逐步思考、自我反思、甚至中途改变主意的人工智能。这不是科幻场景,而是 Dhanishtha-2.0 带来的现实。 模型:https://huggingface...大语言模型# Dhanishtha-2.0# HelpingAI7个月前01930
阿里通义实验室联合港科大 & 浙大推出 ThinkSound:首个支持视频到音频生成与编辑的统一框架阿里巴巴通义实验室联合香港科技大学与浙江大学的研究团队提出了一种全新的多模态视频-音频生成与编辑框架 —— ThinkSound。 项目主页:https://thinksound-project.gi...语音模型# ThinkSound# 多模态视频-音频生成8个月前02050
智谱AI联合清华推出新一代视觉语言推理模型开源 GLM-4.1V-9B-Thinking随着智能任务日益复杂,视觉语言大模型(VLM)正从基础的多模态感知迈向更高层次的推理能力提升。为了应对这一趋势,智谱AI 与清华大学联合推出了新一代 VLM 开源模型 —— GLM-4.1V-9B-T...多模态模型# GLM-4.1V-9B-Thinking# 智谱AI8个月前02950