无损压缩框架DFloat11:可将大语言模型的规模缩小约 30%,同时保持与原始模型完全一致的逐位相同输出DFloat11 是一个无损压缩框架,可将大语言模型(LLM)的规模缩小约 30%,同时保持与原始模型完全一致的逐位相同输出。它支持在资源受限的硬件上进行高效的 GPU 推理,且不牺牲准确性。 Git...大语言模型# DFloat11# 无损压缩框架7个月前02890
字节跳动推出Seed-Coder:轻量级开源代码大模型,性能媲美更大规模模型字节跳动近日发布了全新的开源代码大语言模型(LLM)系列——Seed-Coder,标志着其在开源大语言模型生态系统中的首次重要贡献。这一系列模型以轻量化和高性能为核心特点,包括基础模型、指令模型和推理...大语言模型# Seed-Coder# 代码大模型# 字节跳动7个月前02890
阿里通义实验室推出强化学习框架ZEROSEARCH:通过模拟搜索引擎来提升大语言模型的信息检索能力阿里通义实验室推出一种创新的强化学习框架ZEROSEARCH,通过模拟搜索引擎来提升大语言模型(LLMs)的信息检索能力,而无需与真实搜索引擎进行交互。该框架通过轻量级的监督微调(SFT),将 LLM...大语言模型# ZEROSEARCH# 强化学习框架7个月前01840
艾伦AI研究所发布10 亿参数的小模型Olmo 2 1B艾伦AI研究所(AI2)于周四发布了 Olmo 2 1B,这是一个拥有 10 亿参数的 AI 模型。AI2 宣称,该模型在多项基准测试中击败了谷歌、Meta 和阿里巴巴的同规模模型。尽管参数数量相对较...大语言模型# Olmo 2 1B# 艾伦AI研究所7个月前02230
思科发布专为网络安全打造的开源模型 Foundation-sec-8b思科宣布其在AI领域的重大进展——推出首个由全新成立的Foundation AI团队开发的大语言模型(LLM):Llama-3.1-FoundationAI-SecurityLLM-base-8B(简...大语言模型# Foundation-sec-8b# 思科7个月前04760
深度研究代理WebThinker:为大型推理模型提供深度研究能力中国人民大学、智源研究院和华为的研究人员推出一个深度研究代理WebThinker,旨在为大型推理模型(Large Reasoning Models, LRMs)提供深度研究能力。WebThinker ...大语言模型# WebThinker# 推理模型# 深度研究代理7个月前02050
微软推出Phi-4系列推理模型:Phi-4-reasoning、Phi-4-reasoning-plus和Phi-4-mini-reasoning一年前,微软推出了Phi-3,开启了小型语言模型(SLM)的新篇章。这些模型以其高效性和灵活性迅速吸引了广泛关注。如今,在 Phi 系列发布一周年之际,微软再次突破技术边界,推出了三款全新推理模型:P...大语言模型# Phi-4-mini-reasoning# Phi-4-reasoning# Phi-4-reasoning-plus7个月前02060
DeepSeek 推出 DeepSeek-Prover-V2:为 Lean 4 形式化定理证明设计的开源大语言模型DeepSeek于4月30日发布了 DeepSeek-Prover-V2,这是一个专门用于 Lean 4 形式化定理证明的开源大语言模型。该模型的设计目标是将非形式化的数学推理与形式化的证明构建整合到...大语言模型# DeepSeek# DeepSeek-Prover-V2# DeepSeek-Prover-V2-671B7个月前02120
JetBrains推出其首个用于编码的开源模型Mellum,主要功能为代码补全软件开发公司JetBrains,以提供一系列流行应用程序开发工具而闻名,它们在今天发布了其首个用于编码的开源模型——Mellum。这款模型于周三在Hugging Face平台上公开,通过高度专业化的代...大语言模型# JetBrains# 代码模型# 代码补全7个月前01740
新型检索器ReasonIR-8B:专门针对需要推理的复杂任务进行优化Meta、华盛顿大学、新加坡国立大学、艾伦人工智能研究所、斯坦福大学、麻省理工学院和加州大学伯克利分校的研究人员推出一种名为 ReasonIR-8B 的新型检索器,专门针对需要推理的复杂任务进行优化...大语言模型# ReasonIR-8B# 检索器7个月前02310
小米团队发布 MiMo-7B系列模型:专为推理任务从头开始训练的模型在强化学习(RL)领域,大型基础模型一直是研究的主流方向。目前,许多成功的强化学习项目,尤其是那些专注于代码推理能力的项目,都依赖于庞大的模型,例如拥有 320 亿参数的模型。然而,要在小型模型中同时...大语言模型# MiMo-7B# 小米7个月前02580
阿里推出 Qwen3 系列大模型:开源 8 款模型,性能飞跃,多语言支持,推理能力显著提升阿里 QWEN 团队在今天推出 Qwen3,这是 Qwen 系列大言模型的最新力作。Qwen3 以其卓越的性能和广泛的应用潜力,正在成为开源AI领域的新焦点。 性能突破:超越行业标杆 Qwen3 的旗...大语言模型# QWEN 团队# 阿里巴巴7个月前03750