Tessa-T1:专为 React 前端开发打造的推理模型在前端开发领域,React 一直是构建现代 Web 应用的核心框架之一。然而,随着项目复杂度的增加,手动编写和优化 React 组件变得越来越耗时且容易出错。为了提升开发效率并简化前端工作流程,Tes...大语言模型# Qwen2.5-Coder# Tessa-T1# 推理模型2周前0520
谷歌发布了新推理模型Gemini 2.5系列:其特色在于回答问题前会进行“思考”过程本周二(2025年3月25日),谷歌发布了新推理模型Gemini 2.5系列,其特色在于回答问题前会进行“思考”过程。为了启动这一系列,谷歌推出了Gemini 2.5 Pro Experimental...大语言模型# Gemini 2.5# 思考模型# 推理模型3周前0550
LG开源推理模型EXAONE Deep,在数学与编程方面表现出色LG AI Research正式开源了其最新研发的AI推理模型——EXAONE Deep。这款模型分为2.4B、7.8B和32B三个版本,在多个关键领域展现出卓越性能。据官方称,EXAONE Deep...大语言模型# EXAONE Deep# LG# 推理模型4周前0540
卡内基梅隆大学推出 L1-1.5B:用强化学习优化 AI 推理过程,精准控制“思考”时长推理语言模型通过生成更长的思维链序列来提升性能,但目前无法控制推理长度,导致计算资源分配低效。模型可能生成过长输出浪费资源,或过早停止导致性能不佳。传统方法(如使用“等待”或“最终答案”标记)会降低性...大语言模型# L1-1.5B# 卡内基梅隆大学# 推理模型1个月前0710
亚马逊计划推出「推理模型」,挑战 OpenAI 和 DeepSeek据 Business Insider 报道,亚马逊正在开发自己的推理模型,以在 AI 市场中与 OpenAI、Anthropic 和 DeepSeek 等公司展开竞争。这一新模型将通过亚马逊的 AWS...早报# DeepSeek# OpenAI# 亚马逊1个月前0710
360推出Light-R1-32B:通过SFT和DPO以低成本超越DeepSeek-R1-Distill-Qwen-32B在数学竞赛 AIME24 上,尽管许多研究者尝试在 72B 或更小的模型上复现 DeepSeek-R1-Distill-Qwen-32B 的 72.6 分,但一直未能成功。 模型 集成模型 推出日期 ...大语言模型# 360# Light-R1-32B# 推理模型1个月前0760
用推理模型评估模块化RAG:推理模型在核心检索任务中尚未超越传统RAG管道在检索增强生成(RAG)系统中,kapa.ai一直在探索如何利用最新的技术提升系统的性能和适应性。最近,它们团队尝试将OpenAI的o3-mini推理模型融入RAG管道,希望借助其强大的推理能力优化信...科普# RAG# 推理模型# 检索增强生成1个月前0740