新Mistral AI发布开源模型Mistral Small 3.1,号称在性能上超越了Gemma 3和GPT-4o Mini等同类模型 MistralAI宣布推出Mistral Small 3.1,这一新模型在性能和功能上均达到了同级别模型中的顶尖水平。作为Mistral Small 3的升级版本,3.1版本不仅在文本性能和多模态理解... 大语言模型# Mistral AI# Mistral Small 3.1# 大语言模型 22小时前0100
新Reka推出210亿参数模型Reka Flash 3,号称性能上可与OpenAI o1-mini等专有模型竞争 Reka于3月10日开源了Reka Flash 3的最新研究预览版,这是一个拥有210亿参数的模型。Reka Flash 3是一款紧凑的通用模型,擅长通用聊天、编码、指令遵循和函数调用。当前版本在性能... 大语言模型# Reka# Reka Flash 3 1天前0140
Cohere 推出了 Command A:高性能、低计算需求的大语言模型,为企业量身定制 今天,Cohere 推出了 Command A,一款专为企业设计的新型先进生成模型,旨在满足企业对快速、安全和高质量 AI 的高要求。Command A 在性能、效率和企业级功能上表现出色,是市场上最... 大语言模型# Cohere# Command A# 企业 5天前0430
Block Diffusion:结合了自回归(Autoregressive)和扩散(Diffusion)模型优点的新型语言生成模型 康奈尔科技校区、斯坦福大学和Cohere推出语言模型Block Diffusion,它是一种结合了自回归(Autoregressive)和扩散(Diffusion)模型优点的新型语言生成模型。论文的核... 大语言模型# Block Diffusion# 大语言模型 6天前0300
谷歌推出Gemma系列最新模型Gemma 3,号称是全球最佳单加速器模型 自首次推出以来,Gemma 模型已被下载超过 1 亿次,社区创造了超过 60,000 个适用于各种用例的变体。今天,谷歌正式发布 Gemma 3,这是 Gemma 开源模型家族中最强大、最先进的版本。... 大语言模型# Gemma 3# 多语言大语言模型# 大语言模型 6天前0360
卡内基梅隆大学推出 L1-1.5B:用强化学习优化 AI 推理过程,精准控制“思考”时长 推理语言模型通过生成更长的思维链序列来提升性能,但目前无法控制推理长度,导致计算资源分配低效。模型可能生成过长输出浪费资源,或过早停止导致性能不佳。传统方法(如使用“等待”或“最终答案”标记)会降低性... 大语言模型# L1-1.5B# 卡内基梅隆大学# 推理模型 7天前0390
AI21开源大语言模型Jamba 1.6系列,适合企业私有部署 AI21 正式发布开源模型Jamba 1.6 系列,专为企业私有部署设计,兼具卓越性能和数据安全性。 模型地址:https://huggingface.co/collections/ai21labs/... 大语言模型# AI21# Jamba 1.6# 大语言模型 1周前0500
老显卡福音!美团技术团队开源INT8无损满血版DeepSeek R1 美团技术团队于3月6日宣布对 DeepSeek R1 模型进行了 INT8 精度量化,使其能够在如 A100 等老型号 GPU 上进行部署。这一技术突破为 DeepSeek R1 的广泛应用提供了更多... 大语言模型# DeepSeek-R1# 美团 2周前0400
AMD 推出完全开源的 3B 参数语言模型Instella-3B,媲美 Llama-3.2-3B 和 Qwen2.5-3B 在AI领域,开源模型的发展一直是推动技术进步和创新的重要力量。AMD宣布推出 Instella,这是一系列完全开源的语言模型,基于 AMD Instinct™ MI300X GPU 从头训练,参数量达... 大语言模型# AMD# Instella-3B# Llama-3.2-3B 2周前0210
阿里达摩院开源多语言大语言模型Babel:解决现有开源多语言模型在语言覆盖上的不足 阿里达摩院推出开源多语言大语言模型Babel,旨在解决现有开源多语言模型在语言覆盖上的不足。Babel 支持全球前 25 种使用人数最多的语言,覆盖超过 90% 的全球人口,并特别关注那些被现有模型忽... 大语言模型# Babel# 多语言大语言模型# 阿里达摩院 2周前0310
阿里Qwen团队推出强化学习增强的推理模型QwQ-32B 阿里云的Qwen团队最近宣布了一项重要进展,他们通过整合大规模强化学习(RL)技术来提升大语言模型的智能水平,并推出了新的推理模型QwQ-32B。这款拥有320亿参数的模型,在性能上能够与具有6710... 大语言模型# Qwen# QwQ-32B# 强化学习 2周前0460
360推出Light-R1-32B:通过SFT和DPO以低成本超越DeepSeek-R1-Distill-Qwen-32B 在数学竞赛 AIME24 上,尽管许多研究者尝试在 72B 或更小的模型上复现 DeepSeek-R1-Distill-Qwen-32B 的 72.6 分,但一直未能成功。 模型 集成模型 推出日期 ... 大语言模型# 360# Light-R1-32B# 推理模型 2周前0320