Surya:NASA与IBM联合推出日球物理学AI基础模型,3.66亿参数开源可微调由NASA、IBM及合作伙伴联合开发的Surya,是全球首个面向日球物理学的开源AI基础模型。该模型拥有3.66亿参数,基于NASA太阳动力学天文台(SDO)9年的多仪器观测数据(约218TB)预训练...大语言模型# Surya# 日球物理学5个月前02120
OPPO AI实验室推出新范式Chain-of-Agents(CoA):用于在单个模型中实现多智能体系统的复杂问题解决能力OPPO AI实验室推出一种新的范式——Chain-of-Agents(CoA),用于在单个模型中实现多智能体系统(Multi-Agent Systems, MAS)的复杂问题解决能力。传统的多智能体...大语言模型# Chain-of-Agents# CoA# OPPO AI实验室5个月前01390
英伟达推出小型语言模型 Nemotron-Nano-9B-V2:更小、更快、可控制“思考”的AI当AI模型不再一味追求“更大”,而是转向“更高效”时,小型语言模型(SLM)的时代正悄然到来。 继麻省理工学院衍生公司 Liquid AI 推出可在智能手表上运行的视觉模型、谷歌发布手机端运行的轻量级...大语言模型# Nemotron-Nano-9B-V2# 英伟达5个月前02450
清华、上交大等团队提出 SSRL:无需外部搜索的强化学习新范式在当前主流的“代理式搜索”(Agentic Search)系统中,大型语言模型(LLM)通常通过调用外部搜索引擎(如 Google、Bing 或专用 API)来获取实时信息,以回答复杂问题。这一模式虽...大语言模型# SSRL# 强化学习6个月前01760
谷歌发布 Gemma 3 270M:专为微调而生的超高效小模型在开源大模型领域持续发力的谷歌,近日为其 Gemma 模型家族再添新成员——Gemma 3 270M。这是一款拥有 2.7 亿参数的紧凑型模型,专为特定任务微调设计,旨在为开发者提供一个高效、节能、生...大语言模型# Gemma 3 270M# 小模型# 谷歌6个月前03610
Salesforce 推出 CoAct-1:能写代码的智能体,让自动化迈入新阶段在AI智能体普遍还在“点击屏幕”完成任务的今天,Salesforce 与南加州大学联合研发的 CoAct-1 正在打破这一局限。这款新型计算机操作智能体不仅能识别界面、模拟鼠标点击,更能在任务执行过程...大语言模型# CoAct-1# 智能体6个月前01520
清华、蚂蚁等联合发布ASearcher:开源大规模强化学习搜索代理由清华大学交叉信息研究院、蚂蚁研究院、强化学习实验室与华盛顿大学的研究团队联合推出 ASearcher —— 一个面向大规模在线强化学习(Reinforcement Learning, RL)的开源搜...大语言模型# ASearcher# inclusionAI6个月前02990
新型段落排序模型 ReasonRank:通过强大的推理能力提升段落排序任务的性能中国人民大学高岭人工智能学院、百度公司和卡内基梅隆大学的研究人员推出新型段落排序模型 ReasonRank,通过强大的推理能力提升段落排序任务的性能。该模型通过引入推理能力,能够更好地理解查询意图,并...大语言模型# ReasonRank# 段落排序模型6个月前02250
Jan-v1 发布:一个专为本地搜索与深度推理优化的 4B 级开源模型在 AI 搜索领域,闭源商业产品长期占据主导地位。而今天,开源社区迎来了一位强有力的挑战者——Jan-v1。 作为 Jan 模型家族的首个正式版本,Jan-v1 基于 Qwen3-4B-Thinkin...大语言模型# Jan-v1# 搜索6个月前03580
快手Klear项目组推出推理模型 Klear-Reasoner:结合长链推理监督微调和梯度保留剪辑策略优化来提升模型在数学和编程任务中的推理能力快手Klear项目组推出推理模型 Klear-Reasoner,它通过结合长链推理(Long Chain-of-Thought, Long CoT)监督微调和梯度保留剪辑策略优化(Gradient-P...大语言模型# Klear-Reasoner# 快手6个月前01760
百川智能发布 Baichuan-M2:小模型,大医疗,单卡可部署的开源医疗大模型8 月 6 日,OpenAI 开源两款大模型,主打“低成本部署”与“医疗能力突破”。仅仅五天后,百川智能推出 Baichuan-M2 ——一款在更小参数规模下实现医疗能力反超的开源模型。 模型:htt...大语言模型# Baichuan-M2# 医疗大模型# 百川智能6个月前06040
阿里发布 Qwen3-4B 双模型:小参数,大能力,原生支持 256K 上下文在大模型“军备竞赛”愈演愈烈的今天,阿里巴巴通义实验室反其道而行之,推出两款 40 亿参数级别 的小型语言模型: Qwen3-4B-Instruct-2507:面向多语言、高响应速度的通用指令模型 Q...大语言模型# Qwen3-4B-Instruct-2507# Qwen3-4B-Thinking-2507# 通义实验室6个月前04080