DeepSeek-R1T-Chimera:结合推理能力与高效输出的开放权重模型TNG科技发布了 DeepSeek-R1T-Chimera,这是一个通过创新方法构建的开放权重模型。它将 DeepSeek-R1 的强大推理能力与 DeepSeek-V3 (0324) 的高效 tok...大语言模型# DeepSeek-R1# DeepSeek-R1T-Chimera# DeepSeek-V3-03247个月前04330
Qodo推出代码嵌入模型Qodo-Embed-1:专为软件开发领域设计,在优化自然语言到代码和代码到代码的检索任务在软件开发领域,代码嵌入模型正逐渐成为提升开发效率和代码质量的关键工具。今天,Qodo 宣布推出其最新的代码嵌入模型系列 Qodo-Embed-1,该系列在保持较小模型体积的同时,实现了最先进的性能...大语言模型# Qodo# Qodo-Embed-1# Qodo-Embed-1-1.5B9个月前04320
Qwen3Guard发布:阿里通义实验室推出首款安全护栏模型阿里通义实验室 Qwen 项目组正式推出 Qwen3Guard —— Qwen 家族中首款专为内容安全设计的护栏模型(Safety Guardrail Model)。 该模型基于强大的 Qwen3 架...大语言模型# Qwen3Guard# 安全护栏模型2个月前04300
SWE-Swiss-32B 发布:一个在软件修复任务上达到顶尖水平的 32B 开源模型由北京大学、字节跳动 SEED 团队与香港大学联合研发的 SWE-Swiss-32B 正式亮相。 该模型在 SWE-bench Verified 基准测试中取得 60.2% 的通过率,不仅在同规模开源...大语言模型# SWE-Swiss# SWE-Swiss-32B4个月前04210
阿里Qwen团队发布Qwen3-Next-80B-A3B:用混合注意力 + 高稀疏MoE 实现极致性价比在大模型进入“长上下文”与“超大规模参数”竞争的新阶段,如何平衡性能、训练成本与推理效率,成为决定落地能力的关键。 为此,阿里通义千问(Qwen)项目组正式推出 Qwen3-Next ——一个全新设计...大语言模型# Qwen3-Next# Qwen3-Next-80B-A3B3个月前04170
微软发布20亿参数1-bit模型BitNet b1.58,性能超越主流LLM且更适合边缘设备本周,微软发布了全新的大语言模型家族——BitNet b1.58 LLM。这一系列模型采用了创新的1-bit架构,参数规模达到20亿(2B4T),是迄今为止最大的开源1-bit模型。研究团队表示,这种...大语言模型# BitNet b1.58# 微软8个月前04160
Prompt-to-Leaderboard (P2L):为特定使用场景量身定制的大语言模型排行榜LMArena 推出了 Prompt-to-Leaderboard(P2L),这是一种创新方法,旨在通过自然语言提示生成针对特定使用场景的实时大语言模型(LLM)排行榜。P2L 的核心思想是训练一个大...大语言模型# P2L# 大语言模型9个月前03930
Meta发布Llama 4系列多模态模型:首次采用MoE架构,最高1000万上下文长度2025年4月6日星期日,Meta正式推出了其最新的AI模型系列——Llama 4。这款新模型不仅支持网络版Meta AI助手,还为WhatsApp、Messenger和Instagram等平台提供了...大语言模型# Llama 4# Meta# MoE架构8个月前03850
MemOS:为大语言模型设计的长期记忆操作系统MemOS 是由记忆张量科技联合上海交通大学、同济大学、浙江大学、北京大学等多所高校及研究机构联合开源的一项突破性研究成果——专为大语言模型(LLMs)设计的长期记忆操作系统。 项目主页:https...大语言模型# MemOS# 大语言模型5个月前03800
OpenAI 推出o3 和 o4-mini:迄今最智能、最强大的模型,具备全面工具访问能力今天,OpenAI发布 OpenAI o3 和 o4-mini,这是OpenAI o 系列模型的最新版本,经过训练能在回答前进行更长时间的思考。这些是OpenAI迄今发布的最智能模型,显著提升了 Ch...大语言模型# o3# o4-mini# OpenAI8个月前03800
Mistral 推出新编码模型 Devstral:开源、轻量、性能超越 GPT-4-mini法国AI 初创公司 Mistral 宣布推出其最新开源模型 —— Devstral,专为软件工程任务设计。该模型由 Mistral 与 AI 公司 All Hands AI 联合开发,采用 Apach...大语言模型# All Hands AI# Devstral# Mistral7个月前03770
Reka推出210亿参数模型Reka Flash 3,号称性能上可与OpenAI o1-mini等专有模型竞争Reka于3月10日开源了Reka Flash 3的最新研究预览版,这是一个拥有210亿参数的模型。Reka Flash 3是一款紧凑的通用模型,擅长通用聊天、编码、指令遵循和函数调用。当前版本在性能...大语言模型# Reka# Reka Flash 39个月前03760