LG开源推理模型EXAONE Deep,在数学与编程方面表现出色LG AI Research正式开源了其最新研发的AI推理模型——EXAONE Deep。这款模型分为2.4B、7.8B和32B三个版本,在多个关键领域展现出卓越性能。据官方称,EXAONE Deep...大语言模型# EXAONE Deep# LG# 推理模型11个月前02060
昆仑万维开源多模态思维链推理模型 Skywork R1V昆仑万维正式开源了首款工业界多模态思维链推理模型 Skywork R1V,成为中国第一个开源此类模型的企业。这一举措标志着昆仑万维在多模态 AI 领域的领先地位,并为全球开发者和研究人员提供了强大的工...大语言模型# Skywork R1V# 多模态思维链推理模型# 昆仑万维11个月前02080
Mistral AI发布开源模型Mistral Small 3.1,号称在性能上超越了Gemma 3和GPT-4o Mini等同类模型MistralAI宣布推出Mistral Small 3.1,这一新模型在性能和功能上均达到了同级别模型中的顶尖水平。作为Mistral Small 3的升级版本,3.1版本不仅在文本性能和多模态理解...大语言模型# Mistral AI# Mistral Small 3.1# 大语言模型11个月前01840
Reka推出210亿参数模型Reka Flash 3,号称性能上可与OpenAI o1-mini等专有模型竞争Reka于3月10日开源了Reka Flash 3的最新研究预览版,这是一个拥有210亿参数的模型。Reka Flash 3是一款紧凑的通用模型,擅长通用聊天、编码、指令遵循和函数调用。当前版本在性能...大语言模型# Reka# Reka Flash 311个月前04590
Cohere 推出了 Command A:高性能、低计算需求的大语言模型,为企业量身定制今天,Cohere 推出了 Command A,一款专为企业设计的新型先进生成模型,旨在满足企业对快速、安全和高质量 AI 的高要求。Command A 在性能、效率和企业级功能上表现出色,是市场上最...大语言模型# Cohere# Command A# 企业11个月前06320
Block Diffusion:结合了自回归(Autoregressive)和扩散(Diffusion)模型优点的新型语言生成模型康奈尔科技校区、斯坦福大学和Cohere推出语言模型Block Diffusion,它是一种结合了自回归(Autoregressive)和扩散(Diffusion)模型优点的新型语言生成模型。论文的核...大语言模型# Block Diffusion# 大语言模型11个月前05240
谷歌推出Gemma系列最新模型Gemma 3,号称是全球最佳单加速器模型自首次推出以来,Gemma 模型已被下载超过 1 亿次,社区创造了超过 60,000 个适用于各种用例的变体。今天,谷歌正式发布 Gemma 3,这是 Gemma 开源模型家族中最强大、最先进的版本...大语言模型# Gemma 3# 多语言大语言模型# 大语言模型11个月前02560
卡内基梅隆大学推出 L1-1.5B:用强化学习优化 AI 推理过程,精准控制“思考”时长推理语言模型通过生成更长的思维链序列来提升性能,但目前无法控制推理长度,导致计算资源分配低效。模型可能生成过长输出浪费资源,或过早停止导致性能不佳。传统方法(如使用“等待”或“最终答案”标记)会降低性...大语言模型# L1-1.5B# 卡内基梅隆大学# 推理模型12个月前02870
AI21开源大语言模型Jamba 1.6系列,适合企业私有部署AI21 正式发布开源模型Jamba 1.6 系列,专为企业私有部署设计,兼具卓越性能和数据安全性。 模型地址:https://huggingface.co/collections/ai21labs...大语言模型# AI21# Jamba 1.6# 大语言模型12个月前04780
老显卡福音!美团技术团队开源INT8无损满血版DeepSeek R1美团技术团队于3月6日宣布对 DeepSeek R1 模型进行了 INT8 精度量化,使其能够在如 A100 等老型号 GPU 上进行部署。这一技术突破为 DeepSeek R1 的广泛应用提供了更多...大语言模型# DeepSeek-R1# 美团12个月前03820
AMD 推出完全开源的 3B 参数语言模型Instella-3B,媲美 Llama-3.2-3B 和 Qwen2.5-3B在AI领域,开源模型的发展一直是推动技术进步和创新的重要力量。AMD宣布推出 Instella,这是一系列完全开源的语言模型,基于 AMD Instinct™ MI300X GPU 从头训练,参数量达...大语言模型# AMD# Instella-3B# Llama-3.2-3B12个月前02190
阿里达摩院开源多语言大语言模型Babel:解决现有开源多语言模型在语言覆盖上的不足阿里达摩院推出开源多语言大语言模型Babel,旨在解决现有开源多语言模型在语言覆盖上的不足。Babel 支持全球前 25 种使用人数最多的语言,覆盖超过 90% 的全球人口,并特别关注那些被现有模型忽...大语言模型# Babel# 多语言大语言模型# 阿里达摩院12个月前02410