大语言模型

百科工具模型 ComfyUI AI合集 web UI 提示词

大语言模型多模态模型图像模型语音模型 3D模型 Flux衍生视频模型世界模型

排序

发布更新浏览点赞

Meta推出基于 Llama 3.1 Instruct的大语言模型KernelLLM：专注于使用 Triton 编写高效GPU内核的任务

Meta推出了一款名为 KernelLLM 的大语言模型，该模型基于 Llama 3.1 Instruct，专注于使用 Triton 编写高效GPU内核的任务。KernelLLM的核心目标是通过自动化...

9个月前

01350

Falcon-Edge：一系列强大、通用、可微调的1.58位语言模型

Falcon 团队正式发布了 Falcon-Edge 系列模型——一组基于 BitNet 架构设计的三值格式语言模型。这些模型不仅具备高性能，还支持灵活的微调能力，为边缘设备上的高效部署提供了全新可能...

大语言模型 # BitNet # Falcon-Edge

9个月前

03450

A-M-team推出32B密集语言模型AM-Thinking-v1：专注增强推理能力

A-M-team推出了AM-Thinking-v1，一款基于Qwen 2.5-32B-Base构建的32B密集语言模型，专注于提升推理能力。在推理基准测试中，AM-Thinking-v1表现出色，可媲...

大语言模型 # AM-Thinking-v1 # 推理模型

9个月前

04330

基于 Qwen3 的混合专家（MoE）模型Arcana Qwen3 2.4B A0.6B

Arcana Qwen3 2.4B A0.6B 是一个基于 Qwen3 的混合专家（MoE）模型，总参数量为 24 亿，每个专家模型拥有 6 亿参数。该模型旨在提供更高的准确性、更高的效率和更低的内存...

大语言模型 # Arcana Qwen3 2.4B A0.6B # MoE模型 # Qwen3

9个月前

02440

INTELLECT-2 发布：首个通过全球分布式强化学习训练的 32B 参数模型

Prime Intellect发布 INTELLECT-2，这是首个通过全球分布式强化学习训练的 32B 参数模型。与传统的集中式训练不同，INTELLECT-2 使用完全异步的强化学习（RL），在一...

大语言模型 # INTELLECT-2 # 强化学习

9个月前

02680

无损压缩框架DFloat11：可将大语言模型的规模缩小约 30%，同时保持与原始模型完全一致的逐位相同输出

DFloat11 是一个无损压缩框架，可将大语言模型（LLM）的规模缩小约 30%，同时保持与原始模型完全一致的逐位相同输出。它支持在资源受限的硬件上进行高效的 GPU 推理，且不牺牲准确性。 Git...

大语言模型 # DFloat11 # 无损压缩框架

9个月前

03100

字节跳动推出Seed-Coder：轻量级开源代码大模型，性能媲美更大规模模型

字节跳动近日发布了全新的开源代码大语言模型（LLM）系列——Seed-Coder，标志着其在开源大语言模型生态系统中的首次重要贡献。这一系列模型以轻量化和高性能为核心特点，包括基础模型、指令模型和推理...

大语言模型 # Seed-Coder # 代码大模型 # 字节跳动

9个月前

03450

阿里通义实验室推出强化学习框架ZEROSEARCH：通过模拟搜索引擎来提升大语言模型的信息检索能力

阿里通义实验室推出一种创新的强化学习框架ZEROSEARCH，通过模拟搜索引擎来提升大语言模型（LLMs）的信息检索能力，而无需与真实搜索引擎进行交互。该框架通过轻量级的监督微调（SFT），将 LLM...

大语言模型 # ZEROSEARCH # 强化学习框架

9个月前

02050

艾伦AI研究所发布10 亿参数的小模型Olmo 2 1B

艾伦AI研究所（AI2）于周四发布了 Olmo 2 1B，这是一个拥有 10 亿参数的 AI 模型。AI2 宣称，该模型在多项基准测试中击败了谷歌、Meta 和阿里巴巴的同规模模型。尽管参数数量相对较...

大语言模型 # Olmo 2 1B # 艾伦AI研究所

9个月前

02360

思科发布专为网络安全打造的开源模型 Foundation-sec-8b

思科宣布其在AI领域的重大进展——推出首个由全新成立的Foundation AI团队开发的大语言模型（LLM）：Llama-3.1-FoundationAI-SecurityLLM-base-8B（简...

大语言模型 # Foundation-sec-8b # 思科

9个月前

05140

深度研究代理WebThinker：为大型推理模型提供深度研究能力

中国人民大学、智源研究院和华为的研究人员推出一个深度研究代理WebThinker，旨在为大型推理模型（Large Reasoning Models, LRMs）提供深度研究能力。WebThinker ...

大语言模型 # WebThinker # 推理模型 # 深度研究代理

9个月前

02160

微软推出Phi-4系列推理模型：Phi-4-reasoning、Phi-4-reasoning-plus和Phi-4-mini-reasoning

一年前，微软推出了Phi-3，开启了小型语言模型（SLM）的新篇章。这些模型以其高效性和灵活性迅速吸引了广泛关注。如今，在 Phi 系列发布一周年之际，微软再次突破技术边界，推出了三款全新推理模型：P...

大语言模型 # Phi-4-mini-reasoning # Phi-4-reasoning # Phi-4-reasoning-plus

9个月前

02130

加载更多

Meta推出基于 Llama 3.1 Instruct的大语言模型KernelLLM：专注于使用 Triton 编写高效GPU内核的任务

Falcon-Edge：一系列强大、通用、可微调的1.58位语言模型

A-M-team推出32B密集语言模型AM-Thinking-v1：专注增强推理能力

基于 Qwen3 的混合专家（MoE）模型Arcana Qwen3 2.4B A0.6B

INTELLECT-2 发布：首个通过全球分布式强化学习训练的 32B 参数模型

无损压缩框架DFloat11：可将大语言模型的规模缩小约 30%，同时保持与原始模型完全一致的逐位相同输出

字节跳动推出Seed-Coder：轻量级开源代码大模型，性能媲美更大规模模型

阿里通义实验室推出强化学习框架ZEROSEARCH：通过模拟搜索引擎来提升大语言模型的信息检索能力

艾伦AI研究所发布10 亿参数的小模型Olmo 2 1B

思科发布专为网络安全打造的开源模型 Foundation-sec-8b

深度研究代理WebThinker：为大型推理模型提供深度研究能力

微软推出Phi-4系列推理模型：Phi-4-reasoning、Phi-4-reasoning-plus和Phi-4-mini-reasoning

新QoderWork

OpenClaw（Clawdbot/Moltbot）

Situation Monitor

Skills.sh

中国科技云数据胶囊

Fogsight (雾象)

大语言模型

网址

新QoderWork

OpenClaw（Clawdbot/Moltbot）

Situation Monitor

Skills.sh

中国科技云数据胶囊

Fogsight (雾象)