大语言模型

百科工具模型 ComfyUI AI合集 web UI 提示词

大语言模型多模态模型图像模型语音模型 3D模型 Flux衍生视频模型世界模型

排序

发布更新浏览点赞

AI21 发布Jamba Reasoning 3B：30亿参数模型实现25万Token上下文，可在笔记本运行

在小型语言模型（SLM）加速落地的趋势下，以色列AI公司 AI21 Labs 推出其最新力作——Jamba Reasoning 3B。模型：https://huggingface.co/ai21la...

大语言模型 # AI21 # Jamba Reasoning 3B

4个月前

01210

三星研究员发布 TRM：700万参数小模型，在特定推理任务上超越大模型

一个仅含 700万参数的神经网络，如何在性能上匹敌甚至超过参数量高达其 10,000倍的大语言模型？这不是理论设想，而是现实。三星先进技术研究院（SAIT）蒙特利尔分部的高级AI研究员 Ale...

大语言模型 # TRM # 三星 # 小模型

4个月前

01580

蚂蚁集团发布万亿参数大模型 Ling-1T：开源最强非思考模型，推理效率超越 Gemini

蚂蚁集团百灵大模型团队正式推出其新一代通用语言模型——Ling-1T。作为“百灵”Ling 2.0 系列的首款旗舰级非思考（non-thinking）模型，Ling-1T 拥有总计1万亿参数，单次推...

大语言模型 # Ling-1T # 蚂蚁集团

4个月前

03570

Apriel-1.5-15B-Thinker：用中期训练提升多模态推理效率

在大模型竞赛普遍追求参数规模和算力投入的背景下，一个名为 Apriel-1.5-15B-Thinker 的新开源模型带来了不同的思路：它不依赖强化学习或偏好优化，也不从零训练，而是通过精心设计的中期训...

大语言模型 # Apriel-1.5-15B-Thinker

4个月前

01070

IBM 发布 Granite 4.0：基于 Mamba-2/Transformer 混合架构的新一代高效开源大模型

IBM 正式推出其最新开源语言模型系列 Granite 4.0，标志着企业在追求高性能与低推理成本之间的平衡上迈出关键一步。这一代模型不再依赖传统的纯 Transformer 架构，而是采用创新的 ...

大语言模型 # Granite 4.0 # IBM

4个月前

0640

新加坡国立大学等提出 SparseD：让扩散语言模型在长上下文场景高效运行的稀疏注意力新方案

扩散语言模型（Diffusion Language Models, DLMs）因其支持并行生成文本的能力，被视为自回归模型（AR）之外的一条重要技术路径。然而，其高昂的推理延迟严重制约了实际应用，尤其...

大语言模型 # SparseD # 稀疏注意力 # 长上下文场景

4个月前

01850

智谱发布 GLM-4.6：200K 上下文、30% 更省，专为编程优化

今日，智谱 AI 正式推出其最新旗舰文本模型 GLM-4.6，作为 GLM 系列的最新迭代版本，该模型在推理、编码与智能体能力上实现全面升级，定位为当前国内最强的代码专用大模型。项目主页：https...

大语言模型 # GLM-4.6 # 智谱

4个月前

0740

蚂蚁集团发布全球首个开源万亿参数推理大模型 Ring-1T-preview

在大模型迈向“深度思考”的关键阶段，蚂蚁集团迈出重要一步：其自研的万亿参数自然语言推理大模型 Ring-1T-preview 正式上线 Hugging Face，成为全球首个开源的万亿参数级推理专用大...

大语言模型 # Ring-1T-preview # 推理大模型 # 蚂蚁集团

4个月前

01150

Anthropic 发布 Claude Sonnet 4.5：编程能力业界领先，可自主开发生产级应用，定价不变

周一，Anthropic 正式发布其最新前沿模型 Claude Sonnet 4.5，宣称在编程任务中实现“生产级”输出能力，标志着其在软件工程场景下的可靠性迈上新台阶。该模型即日起通过 Claud...

大语言模型 # Anthropic # Claude Sonnet 4.5 # 编程模型

4个月前

01000

DeepSeek 发布DeepSeek-V3.2-Exp：首次引入细粒度稀疏注意力，API 成本直降 50%+

在国庆节假期前夕，DeepSeek 正式推出 DeepSeek-V3.2-Exp ——一个面向未来架构演进的实验性（Experimental）版本。该模型并非最终发布版，而是通向新一代高效架构的关键中...

大语言模型 # DeepSeek # DeepSeek-V3.2-Exp

4个月前

01900

谷歌发布推出改进的 Gemini 2.5 Flash 和 Flash-Lite 版本：响应更快、成本更低、智能更强

谷歌今日推出 Gemini 2.5 Flash 和 Gemini 2.5 Flash-Lite 的预览更新版本，已在 Google AI Studio 与 Vertex AI 平台上线。此次升级聚焦于...

大语言模型 # Gemini 2.5 Flash # Gemini 2.5 Flash-Lite # 谷歌

4个月前

01670

Meta 开源代码世界模型CWM：让AI像程序员一样"推演"代码的世界模型

Meta近日发布并开源代码世界模型（Code World Model, CWM），这是一款320亿参数的仅解码器大型语言模型（LLM），支持最长131k tokens的上下文长度。不同于传统代码模型仅...

大语言模型 # CWM # Meta # 代码世界模型

4个月前

01770

加载更多

AI21 发布Jamba Reasoning 3B：30亿参数模型实现25万Token上下文，可在笔记本运行

三星研究员发布 TRM：700万参数小模型，在特定推理任务上超越大模型

蚂蚁集团发布万亿参数大模型 Ling-1T：开源最强非思考模型，推理效率超越 Gemini

Apriel-1.5-15B-Thinker：用中期训练提升多模态推理效率

IBM 发布 Granite 4.0：基于 Mamba-2/Transformer 混合架构的新一代高效开源大模型

新加坡国立大学等提出 SparseD：让扩散语言模型在长上下文场景高效运行的稀疏注意力新方案

智谱发布 GLM-4.6：200K 上下文、30% 更省，专为编程优化

蚂蚁集团发布全球首个开源万亿参数推理大模型 Ring-1T-preview

Anthropic 发布 Claude Sonnet 4.5：编程能力业界领先，可自主开发生产级应用，定价不变

DeepSeek 发布DeepSeek-V3.2-Exp：首次引入细粒度稀疏注意力，API 成本直降 50%+

谷歌发布推出改进的 Gemini 2.5 Flash 和 Flash-Lite 版本：响应更快、成本更低、智能更强

Meta 开源代码世界模型CWM：让AI像程序员一样"推演"代码的世界模型

Clawdbot/Moltbot

Skills.sh

Situation Monitor

CutCut

Fogsight (雾象)

新Awesome Clawdbot(Moltbot) Skills

大语言模型

网址

Clawdbot/Moltbot

Skills.sh

Situation Monitor

CutCut

Fogsight (雾象)

新Awesome Clawdbot(Moltbot) Skills