老显卡福音!美团技术团队开源INT8无损满血版DeepSeek R1美团技术团队于3月6日宣布对 DeepSeek R1 模型进行了 INT8 精度量化,使其能够在如 A100 等老型号 GPU 上进行部署。这一技术突破为 DeepSeek R1 的广泛应用提供了更多...大语言模型# DeepSeek-R1# 美团10个月前03550
AMD 推出完全开源的 3B 参数语言模型Instella-3B,媲美 Llama-3.2-3B 和 Qwen2.5-3B在AI领域,开源模型的发展一直是推动技术进步和创新的重要力量。AMD宣布推出 Instella,这是一系列完全开源的语言模型,基于 AMD Instinct™ MI300X GPU 从头训练,参数量达...大语言模型# AMD# Instella-3B# Llama-3.2-3B10个月前02170
阿里达摩院开源多语言大语言模型Babel:解决现有开源多语言模型在语言覆盖上的不足阿里达摩院推出开源多语言大语言模型Babel,旨在解决现有开源多语言模型在语言覆盖上的不足。Babel 支持全球前 25 种使用人数最多的语言,覆盖超过 90% 的全球人口,并特别关注那些被现有模型忽...大语言模型# Babel# 多语言大语言模型# 阿里达摩院10个月前02240
阿里Qwen团队推出强化学习增强的推理模型QwQ-32B阿里云的Qwen团队最近宣布了一项重要进展,他们通过整合大规模强化学习(RL)技术来提升大语言模型的智能水平,并推出了新的推理模型QwQ-32B。这款拥有320亿参数的模型,在性能上能够与具有6710...大语言模型# Qwen# QwQ-32B# 强化学习10个月前03090
360推出Light-R1-32B:通过SFT和DPO以低成本超越DeepSeek-R1-Distill-Qwen-32B在数学竞赛 AIME24 上,尽管许多研究者尝试在 72B 或更小的模型上复现 DeepSeek-R1-Distill-Qwen-32B 的 72.6 分,但一直未能成功。 模型 集成模型 推出日期 ...大语言模型# 360# Light-R1-32B# 推理模型10个月前03740
Prompt-to-Leaderboard (P2L):为特定使用场景量身定制的大语言模型排行榜LMArena 推出了 Prompt-to-Leaderboard(P2L),这是一种创新方法,旨在通过自然语言提示生成针对特定使用场景的实时大语言模型(LLM)排行榜。P2L 的核心思想是训练一个大...大语言模型# P2L# 大语言模型10个月前04110
OpenAI推出最新模型GPT-4.5,这是迄今为止该公司发布的最大模型OpenAI 于北京时间2月28日正式推出其最新模型 GPT-4.5,这是迄今为止该公司发布的最大模型,使用的计算能力和数据量均超过以往任何模型。然而,尽管规模庞大,OpenAI 并未将 GPT-4...大语言模型# GPT-4.5# OpenAI10个月前03510
Qodo推出代码嵌入模型Qodo-Embed-1:专为软件开发领域设计,在优化自然语言到代码和代码到代码的检索任务在软件开发领域,代码嵌入模型正逐渐成为提升开发效率和代码质量的关键工具。今天,Qodo 宣布推出其最新的代码嵌入模型系列 Qodo-Embed-1,该系列在保持较小模型体积的同时,实现了最先进的性能...大语言模型# Qodo# Qodo-Embed-1# Qodo-Embed-1-1.5B10个月前04410
腾讯推出新一代快思考模型混元 Turbo S腾讯混元团队发布了其自研的快思考模型 Turbo S ,并在腾讯云官网上架,开发者和企业用户可通过 API 调用体验。同时,该模型从今天起在腾讯元宝平台灰度上线,供广大用户体验。 GitHub:htt...大语言模型# 混元 Turbo S# 腾讯10个月前02750
微软发布 Phi 系列两款新模型:Phi-4-multimodal 和 Phi-4-mini微软在今天宣布推出 Phi 系列小型语言模型(SLM)的两款新成员——Phi-4-multimodal 和 Phi-4-mini。这两款模型旨在为开发者提供更强大的 AI 功能,分别在多模态处理和文本...大语言模型# Phi-4-mini# Phi-4-multimodal# 微软10个月前03520
Anthropic推出首款“混合推理模型”Claude 3.7 Sonnet和代理编码工具Claude CodeAnthropic在今天推出全新模型Claude 3.7 Sonnet,号称业界首个“混合AI推理模型”。它不仅能实时回答问题,还能像人类一样“深度思考”,提供更精准的答案!用户可以自由选择让模型“思...大语言模型# Anthropic# Claude 3.7 Sonnet# Claude Code10个月前03480
月之暗面发布Moonlight:使用 Muon 优化器训练的混合专家 (MoE) 模型月之暗面(Moonshot AI)和加州大学洛杉矶分校的研究团队联合发布了 Moonlight,这是一款基于 Muon 优化器训练的混合专家(MoE)模型。该模型包含两种配置:一种具有 30 亿激活参...大语言模型# Moonlight# Moonshot AI# Muon 优化器10个月前02270