Nous Research 发布 Hermes 4:无内容限制,数学性能超越 ChatGPT 的开源 AI 新选择神秘的 AI 初创公司 Nous Research 本周悄然推出开源大语言模型家族 Hermes 4。该公司声称,这一系列模型不仅在性能上比肩主流专有系统,更以“最小内容限制”和“用户高度可控”为核心...大语言模型# Hermes 4# Nous Research5个月前04150
研究员改造 OpenAI 开源模型 gpt-oss-20b:移除推理约束,还原 “无对齐” 基础版本8月初,OpenAI 发布了其首个自 GPT-2 以来的开放权重大语言模型系列 gpt-oss,包含 200 亿(gpt-oss-20b)和 1200 亿(gpt-oss-120b)参数两个版本,采用...大语言模型# gpt-oss-20b# gpt-oss-20b-base5个月前01390
复旦等团队联合突破文生图模型生成瓶颈:Pref-GRPO解决奖励操控,UniGenBench补上评估短板文本到图像(T2I)生成技术的进步,离不开强化学习方法的优化与基准测试的支撑。但当前领域存在两大核心问题:一是传统强化学习依赖“点式奖励模型”打分,易出现“分数涨而质量降”的奖励操控现象;二是现有基准...图像模型# Pref-GRPO# 文生图模型5个月前02880
微软发布rStar2-Agent:14亿参数实现671亿模型性能,数学推理模型迎来“轻量高效”新突破微软近期推出的rStar2-Agent,以14亿参数的轻量化规模,在数学推理领域实现了突破性进展——它未依赖更长的推理时间,而是通过更智能的思考逻辑,达到了与671亿参数的DeepSeek-R1相当的...大语言模型# rStar2-Agent# 微软5个月前01870
中科院+腾讯提出AudioStory:LLM+TTA协同,破解长篇叙事音频“不连贯”痛点文本到音频(TTA)技术已能生成高质量短音频片段,但面对“雨中追逐场景”“视频配音旁白”这类需要时间连贯性、情感一致性的长篇叙事需求时,传统模型常出现“声音断层”“氛围割裂”等问题。 GitHub:h...语音模型# AudioStory# TTA5个月前01750
字节跳动推出 USO:统一风格与主体生成模型,开源全方案赋能创作字节跳动智能创作实验室UXO项目组近期发布了UXO家族的新成员——USO(统一风格-主体优化定制模型)。这款模型打破了现有技术中“风格驱动”与“主体驱动”生成相互孤立的困境,能在单一框架下自由组合任意...图像模型# USO# 字节跳动# 统一风格与主体生成模型5个月前05000
NEXA AI推出OmniNeural-4B:全球首个为 NPU 原生设计的多模态 AI 模型当AI模型需要在手机、PC等终端设备上处理文本、图像、音频时,“速度慢、耗电高、依赖网络”往往是难以回避的问题——多数模型最初为GPU设计,移植到终端的NPU(神经网络处理单元)时需“强行适配”,导致...多模态模型# Nexa AI# NPU# OmniNeural-4B5个月前0870
北航、人大等联合腾讯混元提出VoxHammer:无需训练,实现3D模型精准局部编辑3D指定区域的局部编辑,是游戏资产制作、机器人交互场景中的核心需求——比如给游戏角色更换装备、调整机器人零件结构,都需要在修改目标区域的同时,确保未编辑部分的几何形态与纹理不被破坏。 近期,北京航空航...3D模型# 3D模型精准局部编辑# VoxHammer5个月前02320
字节跳动发布OmniHuman-1.5:模拟人类双重认知,生成语义连贯的高逼真角色动画字节跳动近期推出新型视频角色生成框架 OmniHuman-1.5,核心突破在于模拟人类“系统1(快速直觉反应)+系统2(缓慢深思规划)”的双重认知过程,实现从“单一图像+语音轨道”到“物理逼真、语义连...视频模型# OmniHuman-1.5# 字节跳动5个月前0720
腾讯优图实验室发布Youtu-agent:开源、高性能的自主智能体框架,开箱即用多场景能力腾讯优图实验室近期推出了自主智能体框架 Youtu-agent——一款以“灵活、高性能、低成本”为核心的工具,不仅能支持自主智能体的构建、运行与评估,还在多项权威基准测试中表现突出。更重要的是,它针对...大语言模型# Youtu-agent# 智能体框架5个月前01430
腾讯AI实验室联合两校发布Vision-SR1:自我奖励+推理分解,破解VLM视觉推理难题腾讯AI实验室联合马里兰大学帕克分校、华盛顿大学圣路易斯分校的研究团队,共同发布了新型视觉-语言模型(VLM)——Vision-SR1。该模型聚焦于解决传统VLM的核心痛点,通过创新的“自我奖励机制...多模态模型# Vision-SR1# 视觉-语言模型5个月前02230
腾讯开源混元视频音效生成模型HunyuanVideo-Foley:端到端TV2A模型,为创作者打造高保真音视频体验腾讯今天正式开源 HunyuanVideo-Foley —— 一个端到端的文本-视频-音频(Text-Video-to-Audio, TV2A)生成模型,专注于为视频内容自动生成高保真、语义对齐的音效...视频模型# HunyuanVideo-Foley# 混元视频音效生成模型# 腾讯5个月前0920