大语言模型

百科工具模型 ComfyUI AI合集 web UI 提示词

大语言模型多模态模型图像模型语音模型 3D模型 Flux衍生视频模型世界模型

排序

发布更新浏览点赞

谷歌新研究模型 Gemini Diffusion：用扩散模型重新定义文本生成

谷歌推出了一项新的实验性研究模型 —— Gemini Diffusion，这是其在文本生成领域的一次重要尝试，探索扩散模型在语言任务中的潜力。不同于传统的自回归模型逐词生成文本的方式，Gemini ...

11个月前

04070

Meta推出基于 Llama 3.1 Instruct的大语言模型KernelLLM：专注于使用 Triton 编写高效GPU内核的任务

Meta推出了一款名为 KernelLLM 的大语言模型，该模型基于 Llama 3.1 Instruct，专注于使用 Triton 编写高效GPU内核的任务。KernelLLM的核心目标是通过自动化...

大语言模型 # KernelLLM # Llama 3.1 Instruct # Meta

11个月前

01410

Falcon-Edge：一系列强大、通用、可微调的1.58位语言模型

Falcon 团队正式发布了 Falcon-Edge 系列模型——一组基于 BitNet 架构设计的三值格式语言模型。这些模型不仅具备高性能，还支持灵活的微调能力，为边缘设备上的高效部署提供了全新可能...

大语言模型 # BitNet # Falcon-Edge

11个月前

04140

A-M-team推出32B密集语言模型AM-Thinking-v1：专注增强推理能力

A-M-team推出了AM-Thinking-v1，一款基于Qwen 2.5-32B-Base构建的32B密集语言模型，专注于提升推理能力。在推理基准测试中，AM-Thinking-v1表现出色，可媲...

大语言模型 # AM-Thinking-v1 # 推理模型

11个月前

05050

基于 Qwen3 的混合专家（MoE）模型Arcana Qwen3 2.4B A0.6B

Arcana Qwen3 2.4B A0.6B 是一个基于 Qwen3 的混合专家（MoE）模型，总参数量为 24 亿，每个专家模型拥有 6 亿参数。该模型旨在提供更高的准确性、更高的效率和更低的内存...

大语言模型 # Arcana Qwen3 2.4B A0.6B # MoE模型 # Qwen3

11个月前

02670

INTELLECT-2 发布：首个通过全球分布式强化学习训练的 32B 参数模型

Prime Intellect发布 INTELLECT-2，这是首个通过全球分布式强化学习训练的 32B 参数模型。与传统的集中式训练不同，INTELLECT-2 使用完全异步的强化学习（RL），在一...

大语言模型 # INTELLECT-2 # 强化学习

11个月前

02890

无损压缩框架DFloat11：可将大语言模型的规模缩小约 30%，同时保持与原始模型完全一致的逐位相同输出

DFloat11 是一个无损压缩框架，可将大语言模型（LLM）的规模缩小约 30%，同时保持与原始模型完全一致的逐位相同输出。它支持在资源受限的硬件上进行高效的 GPU 推理，且不牺牲准确性。 Git...

大语言模型 # DFloat11 # 无损压缩框架

11个月前

03430

字节跳动推出Seed-Coder：轻量级开源代码大模型，性能媲美更大规模模型

字节跳动近日发布了全新的开源代码大语言模型（LLM）系列——Seed-Coder，标志着其在开源大语言模型生态系统中的首次重要贡献。这一系列模型以轻量化和高性能为核心特点，包括基础模型、指令模型和推理...

大语言模型 # Seed-Coder # 代码大模型 # 字节跳动

11个月前

04270

阿里通义实验室推出强化学习框架ZEROSEARCH：通过模拟搜索引擎来提升大语言模型的信息检索能力

阿里通义实验室推出一种创新的强化学习框架ZEROSEARCH，通过模拟搜索引擎来提升大语言模型（LLMs）的信息检索能力，而无需与真实搜索引擎进行交互。该框架通过轻量级的监督微调（SFT），将 LLM...

大语言模型 # ZEROSEARCH # 强化学习框架

11个月前

02560

艾伦AI研究所发布10 亿参数的小模型Olmo 2 1B

艾伦AI研究所（AI2）于周四发布了 Olmo 2 1B，这是一个拥有 10 亿参数的 AI 模型。AI2 宣称，该模型在多项基准测试中击败了谷歌、Meta 和阿里巴巴的同规模模型。尽管参数数量相对较...

大语言模型 # Olmo 2 1B # 艾伦AI研究所

11个月前

02440

思科发布专为网络安全打造的开源模型 Foundation-sec-8b

思科宣布其在AI领域的重大进展——推出首个由全新成立的Foundation AI团队开发的大语言模型（LLM）：Llama-3.1-FoundationAI-SecurityLLM-base-8B（简...

大语言模型 # Foundation-sec-8b # 思科

11个月前

05740

深度研究代理WebThinker：为大型推理模型提供深度研究能力

中国人民大学、智源研究院和华为的研究人员推出一个深度研究代理WebThinker，旨在为大型推理模型（Large Reasoning Models, LRMs）提供深度研究能力。WebThinker ...

大语言模型 # WebThinker # 推理模型 # 深度研究代理

11个月前

02460

加载更多

谷歌新研究模型 Gemini Diffusion：用扩散模型重新定义文本生成

Meta推出基于 Llama 3.1 Instruct的大语言模型KernelLLM：专注于使用 Triton 编写高效GPU内核的任务

Falcon-Edge：一系列强大、通用、可微调的1.58位语言模型

A-M-team推出32B密集语言模型AM-Thinking-v1：专注增强推理能力

基于 Qwen3 的混合专家（MoE）模型Arcana Qwen3 2.4B A0.6B

INTELLECT-2 发布：首个通过全球分布式强化学习训练的 32B 参数模型

无损压缩框架DFloat11：可将大语言模型的规模缩小约 30%，同时保持与原始模型完全一致的逐位相同输出

字节跳动推出Seed-Coder：轻量级开源代码大模型，性能媲美更大规模模型

阿里通义实验室推出强化学习框架ZEROSEARCH：通过模拟搜索引擎来提升大语言模型的信息检索能力

艾伦AI研究所发布10 亿参数的小模型Olmo 2 1B

思科发布专为网络安全打造的开源模型 Foundation-sec-8b

深度研究代理WebThinker：为大型推理模型提供深度研究能力

S.H.I.T

Tripo

同事.skill

Joker of Academics（小丑学术期刊）

MaxClaw

waoo

大语言模型

网址

S.H.I.T

Tripo

同事.skill

Joker of Academics（小丑学术期刊 ）

MaxClaw

waoo

Joker of Academics（小丑学术期刊）