OpenAI发布全新GPT-4.1系列模型:GPT-4.1、GPT-4.1 mini和GPT-4.1 nano本周一,OpenAI发布了全新的模型系列——GPT-4.1,包括GPT-4.1、GPT-4.1 mini和GPT-4.1 nano。这些模型在编程和指令遵循方面表现出色,标志着OpenAI在打造“代理...大语言模型早报# GPT-4.1# GPT-4.1 mini# GPT-4.1 nano8个月前03530
基于DeepSeek-R1构建的开源高效编码模型DeepCoder-14B由Together AI和Agentica联合推出了一款编码模型DeepCoder-14B,正以其卓越的性能和完全开源的特点,引发AI社区的广泛关注。这款基于DeepSeek-R1构建的模型,在多个编...大语言模型# DeepCoder-14B# DeepSeek-R1# 编码模型8个月前01990
英伟达发布开源大语言模型Llama-3.1 Nemotron Ultra-253B-v1:以半数参数超越DeepSeek R1英伟达今天发布了一款全新的开源大语言模型—Llama-3.1 Nemotron Ultra-253B-v1,这款拥有2530亿参数的模型在多个基准测试中表现出色,甚至超越了竞争对手DeepSeek R...大语言模型# Llama-3.1 Nemotron Ultra# Llama-3.1 Nemotron Ultra-253B-v1# 英伟达8个月前02550
Deep Cogito推出Cogito v1系列混合AI推理模型,基于Llama/Qwen训练Deep Cogito在今天发布了其最新成果——Cogito v1系列模型,这是一组参数规模从30亿到700亿不等的开源大语言模型(LLMs)。这些模型不仅在性能上超越了同等规模的最佳开源模型,还引入...大语言模型# Cogito v1# Deep Cogito# 混合AI推理模型8个月前03330
新型框架WriteHERE:通过异构递归规划实现自适应的长文本写作长文本写作(如小说、技术报告等)需要在信息检索、推理和创作之间进行灵活的整合与交互。现有的方法通常依赖于预定义的工作流程和僵化的思维模式,先生成大纲再进行写作,这限制了写作过程中的适应性。 项目主页...大语言模型# WriteHERE# 长文本写作8个月前03510
开源框架OpenDeepSearch,挑战Perplexity和ChatGPT搜索Sentient Foundation的研究团队近日发布了开源深度搜索(Open Deep Search,简称ODS),这是一款开源框架,能够匹敌如Perplexity和ChatGPT Search等...大语言模型# ODS# Open Deep Search# 开源深度搜索8个月前03650
Meta发布Llama 4系列多模态模型:首次采用MoE架构,最高1000万上下文长度2025年4月6日星期日,Meta正式推出了其最新的AI模型系列——Llama 4。这款新模型不仅支持网络版Meta AI助手,还为WhatsApp、Messenger和Instagram等平台提供了...大语言模型# Llama 4# Meta# MoE架构8个月前04060
Tessa-T1:专为 React 前端开发打造的推理模型在前端开发领域,React 一直是构建现代 Web 应用的核心框架之一。然而,随着项目复杂度的增加,手动编写和优化 React 组件变得越来越耗时且容易出错。为了提升开发效率并简化前端工作流程,Tes...大语言模型# Qwen2.5-Coder# Tessa-T1# 推理模型9个月前02260
香港大学与华为合作发布扩散大语言模型 Dream 7B香港大学与华为诺亚方舟实验室携手,正式发布了迄今为止最强大的开放扩散(Diffusion)大语言模型——Dream 7B。这一模型不仅在性能上大幅超越现有的扩散语言模型,还在通用能力、数学能力和编码能...大语言模型# Dream 7B# 华为诺亚方舟实验室# 扩散大语言模型8个月前04750
谷歌发布了新推理模型Gemini 2.5系列:其特色在于回答问题前会进行“思考”过程本周二(2025年3月25日),谷歌发布了新推理模型Gemini 2.5系列,其特色在于回答问题前会进行“思考”过程。为了启动这一系列,谷歌推出了Gemini 2.5 Pro Experimental...大语言模型# Gemini 2.5# 思考模型# 推理模型9个月前01900
腾讯混元项目组推出高效课程强化学习方法FASTCURL:通过逐步扩展上下文窗口的策略,加速了类似 R1 的推理模型的强化学习训练效率,并提升其在复杂推理任务中的性能腾讯混元项目组推出提出了一种名为 FASTCURL 的高效课程强化学习方法,通过逐步扩展上下文窗口的策略,加速了类似 R1 的推理模型的强化学习训练效率,并提升了其在复杂推理任务中的性能。 它们还发布...大语言模型# FASTCURL# FastCuRL-1.5B-Preview# 混元9个月前03120
腾讯推出混元自研深度思考模型 T1 正式版:吐字快、能秒回,擅长超长文处理腾讯正式推出了其自主研发的深度思考模型——混元 T1 正式版。这款模型以其快速响应、擅长处理超长文本及强大的推理能力而著称,标志着腾讯在AI领域的又一重要进展。 项目主页:https://tencen...大语言模型# 混元 T1# 腾讯9个月前02860