大语言模型

百科工具模型 ComfyUI AI合集 web UI 提示词

大语言模型多模态模型图像模型语音模型 3D模型 Flux衍生视频模型世界模型

排序

发布更新浏览点赞

阿里推出高效的长上下文压缩框架QwenLong-CPRS

在大语言模型（LLM）处理长文本时，两个核心问题始终存在：计算开销高和中间信息丢失严重。为了解决这些问题，阿里通义实验室 Qwen-Doc 团队推出了一个全新上下文压缩框架 —— QwenLong...

大语言模型 # QwenLong-CPRS # QwenLong-CPRS-7B

9个月前

05680

DMind AI 推出专为 Web3 生态系统优化的领域专用大模型 DMind-1 和 DMind-1-mini

Web3 技术的迅猛发展，尤其是区块链、去中心化金融（DeFi）和智能合约的广泛应用，催生了对专门的大型语言模型（LLM）的迫切需求。这些领域需要精准的领域适配和高级推理能力，而通用 LLM 往往在特...

大语言模型 # DMind AI # DMind-1 # DMind-1-mini

9个月前

01300

腾讯推出大型混合 Transformer-Mamba 专家混合（MoE）模型Hunyuan-TurboS

腾讯推出了Hunyuan-TurboS，这是一个新型的大型混合 Transformer-Mamba 专家混合（MoE）模型。它结合了 Mamba 架构在长序列处理上的高效性与 Transformer ...

大语言模型 # Hunyuan-TurboS # 腾讯

9个月前

02890

Mistral 推出新编码模型 Devstral：开源、轻量、性能超越 GPT-4-mini

法国AI 初创公司 Mistral 宣布推出其最新开源模型 —— Devstral，专为软件工程任务设计。该模型由 Mistral 与 AI 公司 All Hands AI 联合开发，采用 Apach...

大语言模型 # All Hands AI # Devstral # Mistral

9个月前

03910

谷歌推了个能装进手机的大模型Gemma 3n，速度快、内存低、还能听会说

谷歌宣布推出其最新开源模型 Gemma 3n 的预览版，这是继 Gemma 3 和 Gemma 3 QAT 后，谷歌在轻量级大模型领域的又一重要进展。 Gemma 3n 专为手机、平板和笔记本电脑等设...

大语言模型 # Gemma 3n # 谷歌

9个月前

02490

谷歌新研究模型 Gemini Diffusion：用扩散模型重新定义文本生成

谷歌推出了一项新的实验性研究模型 —— Gemini Diffusion，这是其在文本生成领域的一次重要尝试，探索扩散模型在语言任务中的潜力。不同于传统的自回归模型逐词生成文本的方式，Gemini ...

大语言模型 # Gemini Diffusion # 扩散模型 # 谷歌

9个月前

03770

Meta推出基于 Llama 3.1 Instruct的大语言模型KernelLLM：专注于使用 Triton 编写高效GPU内核的任务

Meta推出了一款名为 KernelLLM 的大语言模型，该模型基于 Llama 3.1 Instruct，专注于使用 Triton 编写高效GPU内核的任务。KernelLLM的核心目标是通过自动化...

大语言模型 # KernelLLM # Llama 3.1 Instruct # Meta

9个月前

01360

Falcon-Edge：一系列强大、通用、可微调的1.58位语言模型

Falcon 团队正式发布了 Falcon-Edge 系列模型——一组基于 BitNet 架构设计的三值格式语言模型。这些模型不仅具备高性能，还支持灵活的微调能力，为边缘设备上的高效部署提供了全新可能...

大语言模型 # BitNet # Falcon-Edge

9个月前

03620

A-M-team推出32B密集语言模型AM-Thinking-v1：专注增强推理能力

A-M-team推出了AM-Thinking-v1，一款基于Qwen 2.5-32B-Base构建的32B密集语言模型，专注于提升推理能力。在推理基准测试中，AM-Thinking-v1表现出色，可媲...

大语言模型 # AM-Thinking-v1 # 推理模型

9个月前

04610

基于 Qwen3 的混合专家（MoE）模型Arcana Qwen3 2.4B A0.6B

Arcana Qwen3 2.4B A0.6B 是一个基于 Qwen3 的混合专家（MoE）模型，总参数量为 24 亿，每个专家模型拥有 6 亿参数。该模型旨在提供更高的准确性、更高的效率和更低的内存...

大语言模型 # Arcana Qwen3 2.4B A0.6B # MoE模型 # Qwen3

9个月前

02520

INTELLECT-2 发布：首个通过全球分布式强化学习训练的 32B 参数模型

Prime Intellect发布 INTELLECT-2，这是首个通过全球分布式强化学习训练的 32B 参数模型。与传统的集中式训练不同，INTELLECT-2 使用完全异步的强化学习（RL），在一...

大语言模型 # INTELLECT-2 # 强化学习

9个月前

02710

无损压缩框架DFloat11：可将大语言模型的规模缩小约 30%，同时保持与原始模型完全一致的逐位相同输出

DFloat11 是一个无损压缩框架，可将大语言模型（LLM）的规模缩小约 30%，同时保持与原始模型完全一致的逐位相同输出。它支持在资源受限的硬件上进行高效的 GPU 推理，且不牺牲准确性。 Git...

大语言模型 # DFloat11 # 无损压缩框架

9个月前

03230

加载更多

阿里推出高效的长上下文压缩框架QwenLong-CPRS

DMind AI 推出专为 Web3 生态系统优化的领域专用大模型 DMind-1 和 DMind-1-mini

腾讯推出大型混合 Transformer-Mamba 专家混合（MoE）模型Hunyuan-TurboS

Mistral 推出新编码模型 Devstral：开源、轻量、性能超越 GPT-4-mini

谷歌推了个能装进手机的大模型Gemma 3n，速度快、内存低、还能听会说

谷歌新研究模型 Gemini Diffusion：用扩散模型重新定义文本生成

Meta推出基于 Llama 3.1 Instruct的大语言模型KernelLLM：专注于使用 Triton 编写高效GPU内核的任务

Falcon-Edge：一系列强大、通用、可微调的1.58位语言模型

A-M-team推出32B密集语言模型AM-Thinking-v1：专注增强推理能力

基于 Qwen3 的混合专家（MoE）模型Arcana Qwen3 2.4B A0.6B

INTELLECT-2 发布：首个通过全球分布式强化学习训练的 32B 参数模型

无损压缩框架DFloat11：可将大语言模型的规模缩小约 30%，同时保持与原始模型完全一致的逐位相同输出

YouMind

OpenClaw（Clawdbot/Moltbot）

A股智能分析系统

OpenClaw

OpenClaw 一键部署工具

Fogsight (雾象)

大语言模型

网址

YouMind

OpenClaw（Clawdbot/Moltbot）

A股智能分析系统

OpenClaw

OpenClaw 一键部署工具

Fogsight (雾象)