Snowflake 开源两款 AI 工具Arctic-Text2SQL-R1 和 Arctic Inference,专治企业最头疼的两个难题!生成式 AI 发展到今天,很多问题已经解决,但仍有两大“顽疾”困扰着企业用户: 文本转 SQL 的准确性问题:AI 写出来的 SQL 看起来像模像样,但在真实数据库上却执行失败; AI 推理的速度与成...大语言模型# Arctic Inference# Arctic-Text2SQL-R1# Snowflake7个月前03850
DeepSeek R1 升级:推理能力逼近顶尖模型,小模型也迎来突破DeepSeek 最新发布了其旗舰模型 DeepSeek R1 的升级版本 —— DeepSeek-R1-0528。这次更新不仅在推理深度上有了显著提升,还在幻觉控制、函数调用支持和代码生成体验等方面...大语言模型# DeepSeek-R17个月前02730
DeepSeek推出基于Qwen3-8B的小型推理模型:DeepSeek-R1-0528-Qwen3-8B深度求索在本周对DeepSeek R1进行了升级,还开源了此版本模型DeepSeek-R1-0528,官方还推出了一个基于Qwen3-8B的小型推理模型:DeepSeek-R1-0528-Qwen3...大语言模型# DeepSeek# DeepSeek-R1-0528-Qwen3-8B# 深度求索7个月前02300
阿里推出高效的长上下文压缩框架QwenLong-CPRS在大语言模型(LLM)处理长文本时,两个核心问题始终存在:计算开销高 和 中间信息丢失严重。为了解决这些问题,阿里通义实验室 Qwen-Doc 团队推出了一个全新上下文压缩框架 —— QwenLong...大语言模型# QwenLong-CPRS# QwenLong-CPRS-7B7个月前04870
DMind AI 推出专为 Web3 生态系统优化的领域专用大模型 DMind-1 和 DMind-1-miniWeb3 技术的迅猛发展,尤其是区块链、去中心化金融(DeFi)和智能合约的广泛应用,催生了对专门的大型语言模型(LLM)的迫切需求。这些领域需要精准的领域适配和高级推理能力,而通用 LLM 往往在特...大语言模型# DMind AI# DMind-1# DMind-1-mini7个月前01250
腾讯推出大型混合 Transformer-Mamba 专家混合(MoE)模型Hunyuan-TurboS腾讯推出了Hunyuan-TurboS,这是一个新型的大型混合 Transformer-Mamba 专家混合(MoE)模型。它结合了 Mamba 架构在长序列处理上的高效性与 Transformer ...大语言模型# Hunyuan-TurboS# 腾讯7个月前02590
Mistral 推出新编码模型 Devstral:开源、轻量、性能超越 GPT-4-mini法国AI 初创公司 Mistral 宣布推出其最新开源模型 —— Devstral,专为软件工程任务设计。该模型由 Mistral 与 AI 公司 All Hands AI 联合开发,采用 Apach...大语言模型# All Hands AI# Devstral# Mistral7个月前03780
谷歌推了个能装进手机的大模型Gemma 3n,速度快、内存低、还能听会说谷歌宣布推出其最新开源模型 Gemma 3n 的预览版,这是继 Gemma 3 和 Gemma 3 QAT 后,谷歌在轻量级大模型领域的又一重要进展。 Gemma 3n 专为手机、平板和笔记本电脑等设...大语言模型# Gemma 3n# 谷歌7个月前02270
谷歌新研究模型 Gemini Diffusion:用扩散模型重新定义文本生成谷歌推出了一项新的实验性研究模型 —— Gemini Diffusion,这是其在文本生成领域的一次重要尝试,探索扩散模型在语言任务中的潜力。 不同于传统的自回归模型逐词生成文本的方式,Gemini ...大语言模型# Gemini Diffusion# 扩散模型# 谷歌7个月前03480
Meta推出基于 Llama 3.1 Instruct的大语言模型KernelLLM:专注于使用 Triton 编写高效GPU内核的任务Meta推出了一款名为 KernelLLM 的大语言模型,该模型基于 Llama 3.1 Instruct,专注于使用 Triton 编写高效GPU内核的任务。KernelLLM的核心目标是通过自动化...大语言模型# KernelLLM# Llama 3.1 Instruct# Meta7个月前01350
Falcon-Edge:一系列强大、通用、可微调的1.58位语言模型Falcon 团队正式发布了 Falcon-Edge 系列模型——一组基于 BitNet 架构设计的三值格式语言模型。这些模型不仅具备高性能,还支持灵活的微调能力,为边缘设备上的高效部署提供了全新可能...大语言模型# BitNet# Falcon-Edge7个月前02890
A-M-team推出32B密集语言模型AM-Thinking-v1:专注增强推理能力A-M-team推出了AM-Thinking-v1,一款基于Qwen 2.5-32B-Base构建的32B密集语言模型,专注于提升推理能力。在推理基准测试中,AM-Thinking-v1表现出色,可媲...大语言模型# AM-Thinking-v1# 推理模型7个月前03690