深度求索发布开源推理大语言模型DeepSeek-R1,性能对标 OpenAI o1 正式版幻方量化旗下的AI公司深度求索(DeepSeek)今日正式发布了其最新的大语言模型DeepSeek-R1,并同步开源了模型权重。这一举措旨在通过提供高性能的开源解决方案,推动人工智能领域的发展。 地址...大语言模型# DeepSeek# DeepSeek-R1# 深度求索10个月前03230
阿里通义团队开源了其最新代码模型Qwen2.5-Coder系列,代码能力比肩 GPT4o 和 Claude 3.5 Sonnet阿里通义团队开源了其最新代码模型Qwen2.5-Coder,这是一个从其前身CodeQwen1.5显著升级的代码特定模型系列,这个系列包括六个模型:Qwen2.5-Coder-(0.5B/1.5B/3...大语言模型# Qwen2.5-Coder# 代码模型# 阿里通义10个月前03200
T5Gemma:谷歌推出全新编码器-解码器 Gemma 模型系列在当前大语言模型(LLM)领域中,解码器独占架构凭借其强大的生成能力成为主流。然而,经典的编码器-解码器架构——如 T5(文本到文本转换变换器)——因其出色的推理效率、灵活的设计以及对输入语义的深度理...大语言模型# T5Gemma# 解码器# 谷歌5个月前03100
阿里Qwen团队推出强化学习增强的推理模型QwQ-32B阿里云的Qwen团队最近宣布了一项重要进展,他们通过整合大规模强化学习(RL)技术来提升大语言模型的智能水平,并推出了新的推理模型QwQ-32B。这款拥有320亿参数的模型,在性能上能够与具有6710...大语言模型# Qwen# QwQ-32B# 强化学习9个月前03080
腾讯混元项目组推出高效课程强化学习方法FASTCURL:通过逐步扩展上下文窗口的策略,加速了类似 R1 的推理模型的强化学习训练效率,并提升其在复杂推理任务中的性能腾讯混元项目组推出提出了一种名为 FASTCURL 的高效课程强化学习方法,通过逐步扩展上下文窗口的策略,加速了类似 R1 的推理模型的强化学习训练效率,并提升了其在复杂推理任务中的性能。 它们还发布...大语言模型# FASTCURL# FastCuRL-1.5B-Preview# 混元9个月前03070
Jina AI推出一款1.5B参数的小型语言模型ReaderLM-v2:专注于将原始HTML高效准确地转换为Markdown或JSON格式ReaderLM-v2 是由Jina AI开发的一款1.5B参数的小型语言模型,专注于将原始HTML高效准确地转换为Markdown或JSON格式。这款第二代模型在长上下文处理能力和多语言支持方面有了...大语言模型# ReaderLM-v210个月前03030
卷麻了!阿里在除夕夜推出超大规模的 MoE 模型 Qwen2.5-Max过去,有一种观点认为,持续增加数据规模和模型参数可能是通向人工通用智能(AGI)的一条可行路径。然而,无论是对于稠密模型还是MoE(Mixture of Experts)模型而言,整个大模型社区在训练...大语言模型# MoE# Qwen2.5-Max# 阿里10个月前02960
微软正式开源了Phi-4:拥有140亿参数的小型语言模型去年12月,微软推出了其Phi系列的最新成员——Phi-4,该模型在解决数学问题等方面展现了显著的进步。这些进步主要得益于训练数据质量的提升,特别是采用了高质量的合成数据集和人类生成的内容数据集。然而...大语言模型# Phi-4# 微软10个月前02930
MAI-DS-R1:微软团队基于DeepSeek-R1 推理模型进行后训练的版本MAI-DS-R1 是一个由微软 AI 团队对 DeepSeek-R1 推理模型进行后训练的版本,提升其对受限话题的响应能力并改善其风险状况,同时保持推理能力和竞争力。简单来说就是把欧美的偏见加进去...大语言模型# DeepSeek-R1# MAI-DS-R1# 微软8个月前02900
无损压缩框架DFloat11:可将大语言模型的规模缩小约 30%,同时保持与原始模型完全一致的逐位相同输出DFloat11 是一个无损压缩框架,可将大语言模型(LLM)的规模缩小约 30%,同时保持与原始模型完全一致的逐位相同输出。它支持在资源受限的硬件上进行高效的 GPU 推理,且不牺牲准确性。 Git...大语言模型# DFloat11# 无损压缩框架7个月前02890
字节跳动推出Seed-Coder:轻量级开源代码大模型,性能媲美更大规模模型字节跳动近日发布了全新的开源代码大语言模型(LLM)系列——Seed-Coder,标志着其在开源大语言模型生态系统中的首次重要贡献。这一系列模型以轻量化和高性能为核心特点,包括基础模型、指令模型和推理...大语言模型# Seed-Coder# 代码大模型# 字节跳动7个月前02890
Falcon-Edge:一系列强大、通用、可微调的1.58位语言模型Falcon 团队正式发布了 Falcon-Edge 系列模型——一组基于 BitNet 架构设计的三值格式语言模型。这些模型不仅具备高性能,还支持灵活的微调能力,为边缘设备上的高效部署提供了全新可能...大语言模型# BitNet# Falcon-Edge7个月前02880