谷歌推出Gemma系列最新模型Gemma 3,号称是全球最佳单加速器模型自首次推出以来,Gemma 模型已被下载超过 1 亿次,社区创造了超过 60,000 个适用于各种用例的变体。今天,谷歌正式发布 Gemma 3,这是 Gemma 开源模型家族中最强大、最先进的版本...大语言模型# Gemma 3# 多语言大语言模型# 大语言模型2周前0630
卡内基梅隆大学推出 L1-1.5B:用强化学习优化 AI 推理过程,精准控制“思考”时长推理语言模型通过生成更长的思维链序列来提升性能,但目前无法控制推理长度,导致计算资源分配低效。模型可能生成过长输出浪费资源,或过早停止导致性能不佳。传统方法(如使用“等待”或“最终答案”标记)会降低性...大语言模型# L1-1.5B# 卡内基梅隆大学# 推理模型3周前0570
AI21开源大语言模型Jamba 1.6系列,适合企业私有部署AI21 正式发布开源模型Jamba 1.6 系列,专为企业私有部署设计,兼具卓越性能和数据安全性。 模型地址:https://huggingface.co/collections/ai21labs...大语言模型# AI21# Jamba 1.6# 大语言模型3周前0750
老显卡福音!美团技术团队开源INT8无损满血版DeepSeek R1美团技术团队于3月6日宣布对 DeepSeek R1 模型进行了 INT8 精度量化,使其能够在如 A100 等老型号 GPU 上进行部署。这一技术突破为 DeepSeek R1 的广泛应用提供了更多...大语言模型# DeepSeek-R1# 美团4周前0730
AMD 推出完全开源的 3B 参数语言模型Instella-3B,媲美 Llama-3.2-3B 和 Qwen2.5-3B在AI领域,开源模型的发展一直是推动技术进步和创新的重要力量。AMD宣布推出 Instella,这是一系列完全开源的语言模型,基于 AMD Instinct™ MI300X GPU 从头训练,参数量达...大语言模型# AMD# Instella-3B# Llama-3.2-3B4周前0700
阿里达摩院开源多语言大语言模型Babel:解决现有开源多语言模型在语言覆盖上的不足阿里达摩院推出开源多语言大语言模型Babel,旨在解决现有开源多语言模型在语言覆盖上的不足。Babel 支持全球前 25 种使用人数最多的语言,覆盖超过 90% 的全球人口,并特别关注那些被现有模型忽...大语言模型# Babel# 多语言大语言模型# 阿里达摩院4周前0480
阿里Qwen团队推出强化学习增强的推理模型QwQ-32B阿里云的Qwen团队最近宣布了一项重要进展,他们通过整合大规模强化学习(RL)技术来提升大语言模型的智能水平,并推出了新的推理模型QwQ-32B。这款拥有320亿参数的模型,在性能上能够与具有6710...大语言模型# Qwen# QwQ-32B# 强化学习4周前0730
360推出Light-R1-32B:通过SFT和DPO以低成本超越DeepSeek-R1-Distill-Qwen-32B在数学竞赛 AIME24 上,尽管许多研究者尝试在 72B 或更小的模型上复现 DeepSeek-R1-Distill-Qwen-32B 的 72.6 分,但一直未能成功。 模型 集成模型 推出日期 ...大语言模型# 360# Light-R1-32B# 推理模型4周前0490
Prompt-to-Leaderboard (P2L):为特定使用场景量身定制的大语言模型排行榜LMArena 推出了 Prompt-to-Leaderboard(P2L),这是一种创新方法,旨在通过自然语言提示生成针对特定使用场景的实时大语言模型(LLM)排行榜。P2L 的核心思想是训练一个大...大语言模型# P2L# 大语言模型1个月前0550
OpenAI推出最新模型GPT-4.5,这是迄今为止该公司发布的最大模型OpenAI 于北京时间2月28日正式推出其最新模型 GPT-4.5,这是迄今为止该公司发布的最大模型,使用的计算能力和数据量均超过以往任何模型。然而,尽管规模庞大,OpenAI 并未将 GPT-4...大语言模型# GPT-4.5# OpenAI1个月前0600
Qodo推出代码嵌入模型Qodo-Embed-1:专为软件开发领域设计,在优化自然语言到代码和代码到代码的检索任务在软件开发领域,代码嵌入模型正逐渐成为提升开发效率和代码质量的关键工具。今天,Qodo 宣布推出其最新的代码嵌入模型系列 Qodo-Embed-1,该系列在保持较小模型体积的同时,实现了最先进的性能...大语言模型# Qodo# Qodo-Embed-1# Qodo-Embed-1-1.5B1个月前0400
腾讯推出新一代快思考模型混元 Turbo S腾讯混元团队发布了其自研的快思考模型 Turbo S ,并在腾讯云官网上架,开发者和企业用户可通过 API 调用体验。同时,该模型从今天起在腾讯元宝平台灰度上线,供广大用户体验。 GitHub:htt...大语言模型# 混元 Turbo S# 腾讯1个月前0460