微软发布20亿参数1-bit模型BitNet b1.58,性能超越主流LLM且更适合边缘设备本周,微软发布了全新的大语言模型家族——BitNet b1.58 LLM。这一系列模型采用了创新的1-bit架构,参数规模达到20亿(2B4T),是迄今为止最大的开源1-bit模型。研究团队表示,这种...大语言模型# BitNet b1.58# 微软12个月前05150
谷歌推出Gemini 2.5 Flash:更强大的推理能力与灵活的成本控制谷歌于今日通过Google AI Studio和Vertex AI的Gemini API,发布了Gemini 2.5 Flash的早期预览版。这一新版本在广受欢迎的2.0 Flash基础上进行了重大升...大语言模型# Gemini 2.5 Flash# 谷歌12个月前02940
OpenAI 推出o3 和 o4-mini:迄今最智能、最强大的模型,具备全面工具访问能力今天,OpenAI发布 OpenAI o3 和 o4-mini,这是OpenAI o 系列模型的最新版本,经过训练能在回答前进行更长时间的思考。这些是OpenAI迄今发布的最智能模型,显著提升了 Ch...大语言模型# o3# o4-mini# OpenAI12个月前05890
智谱发布新一代 GLM-4-32B-0414 系列模型:高性能、多功能、易部署4 月 14 日,智谱发布了一则重磅消息:推出新一代 GLM-4-32B-0414 系列模型。这一系列模型凭借 320 亿参数的强大性能,效果直逼 OpenAI 的 GPT 系列和 DeepSeek ...大语言模型# GLM-4-32B-0414# 智谱AI12个月前04280
OpenAI发布全新GPT-4.1系列模型:GPT-4.1、GPT-4.1 mini和GPT-4.1 nano本周一,OpenAI发布了全新的模型系列——GPT-4.1,包括GPT-4.1、GPT-4.1 mini和GPT-4.1 nano。这些模型在编程和指令遵循方面表现出色,标志着OpenAI在打造“代理...大语言模型早报# GPT-4.1# GPT-4.1 mini# GPT-4.1 nano1年前05770
基于DeepSeek-R1构建的开源高效编码模型DeepCoder-14B由Together AI和Agentica联合推出了一款编码模型DeepCoder-14B,正以其卓越的性能和完全开源的特点,引发AI社区的广泛关注。这款基于DeepSeek-R1构建的模型,在多个编...大语言模型# DeepCoder-14B# DeepSeek-R1# 编码模型1年前02030
英伟达发布开源大语言模型Llama-3.1 Nemotron Ultra-253B-v1:以半数参数超越DeepSeek R1英伟达今天发布了一款全新的开源大语言模型—Llama-3.1 Nemotron Ultra-253B-v1,这款拥有2530亿参数的模型在多个基准测试中表现出色,甚至超越了竞争对手DeepSeek R...大语言模型# Llama-3.1 Nemotron Ultra# Llama-3.1 Nemotron Ultra-253B-v1# 英伟达1年前02800
Deep Cogito推出Cogito v1系列混合AI推理模型,基于Llama/Qwen训练Deep Cogito在今天发布了其最新成果——Cogito v1系列模型,这是一组参数规模从30亿到700亿不等的开源大语言模型(LLMs)。这些模型不仅在性能上超越了同等规模的最佳开源模型,还引入...大语言模型# Cogito v1# Deep Cogito# 混合AI推理模型1年前04030
新型框架WriteHERE:通过异构递归规划实现自适应的长文本写作长文本写作(如小说、技术报告等)需要在信息检索、推理和创作之间进行灵活的整合与交互。现有的方法通常依赖于预定义的工作流程和僵化的思维模式,先生成大纲再进行写作,这限制了写作过程中的适应性。 项目主页...大语言模型# WriteHERE# 长文本写作1年前04130
开源框架OpenDeepSearch,挑战Perplexity和ChatGPT搜索Sentient Foundation的研究团队近日发布了开源深度搜索(Open Deep Search,简称ODS),这是一款开源框架,能够匹敌如Perplexity和ChatGPT Search等...大语言模型# ODS# Open Deep Search# 开源深度搜索1年前04360
Meta发布Llama 4系列多模态模型:首次采用MoE架构,最高1000万上下文长度2025年4月6日星期日,Meta正式推出了其最新的AI模型系列——Llama 4。这款新模型不仅支持网络版Meta AI助手,还为WhatsApp、Messenger和Instagram等平台提供了...大语言模型# Llama 4# Meta# MoE架构1年前05960
Tessa-T1:专为 React 前端开发打造的推理模型在前端开发领域,React 一直是构建现代 Web 应用的核心框架之一。然而,随着项目复杂度的增加,手动编写和优化 React 组件变得越来越耗时且容易出错。为了提升开发效率并简化前端工作流程,Tes...大语言模型# Qwen2.5-Coder# Tessa-T1# 推理模型1年前02640