大语言模型

百科工具模型 ComfyUI AI合集 web UI 提示词

大语言模型多模态模型图像模型语音模型 3D模型 Flux衍生视频模型世界模型

排序

发布更新浏览点赞

Homunculus-12B：在消费级显卡上运行的高效推理模型

随着大语言模型不断向轻量化和高性能方向演进，Arcee Homunculus-12B 成为一个值得关注的新成员。它是一款基于 Qwen3-235B 蒸馏而来、部署在 Mistral-Nemo 架构上的...

大语言模型 # Homunculus-12B # 推理模型

8个月前

02910

OpenAI 发布 GPT-5：更智能、更诚实、更实用的统一模型

OpenAI在今天发布了其最新模型GPT-5，这是它们迄今为止最智能、快速和实用的模型，内置思考能力，将专家级智能赋予每个人。（官方博文介绍） OpenAI隆重推出 GPT-5，这是penAI迄今最好...

大语言模型 # GPT-5 # OpenAI

6个月前

02830

卡内基梅隆大学推出 L1-1.5B：用强化学习优化 AI 推理过程，精准控制“思考”时长

推理语言模型通过生成更长的思维链序列来提升性能，但目前无法控制推理长度，导致计算资源分配低效。模型可能生成过长输出浪费资源，或过早停止导致性能不佳。传统方法（如使用“等待”或“最终答案”标记）会降低性...

大语言模型 # L1-1.5B # 卡内基梅隆大学 # 推理模型

11个月前

02810

英伟达发布OpenReasoning-Nemotron：多规模推理模型，覆盖数学、科学与编程

英伟达近日发布了 OpenReasoning-Nemotron 模型家族，这是一组专为数学、科学和编程推理任务优化的大语言模型。模型：https://huggingface.co/collectio...

大语言模型 # OpenReasoning-Nemotron # 英伟达

7个月前

02800

腾讯推出大型混合 Transformer-Mamba 专家混合（MoE）模型Hunyuan-TurboS

腾讯推出了Hunyuan-TurboS，这是一个新型的大型混合 Transformer-Mamba 专家混合（MoE）模型。它结合了 Mamba 架构在长序列处理上的高效性与 Transformer ...

大语言模型 # Hunyuan-TurboS # 腾讯

8个月前

02800

腾讯推出新一代快思考模型混元 Turbo S

腾讯混元团队发布了其自研的快思考模型 Turbo S ，并在腾讯云官网上架，开发者和企业用户可通过 API 调用体验。同时，该模型从今天起在腾讯元宝平台灰度上线，供广大用户体验。 GitHub：htt...

大语言模型 # 混元 Turbo S # 腾讯

11个月前

02780

新加坡政府科技局发布LionGuard 2：专为新加坡语言生态设计的内容审核防护模型

在多语言交织、语码频繁切换的新加坡数字环境中，一句看似无害的“lah”或“leh”，可能暗藏冒犯；一段夹杂中英马来语的对话，对通用内容审核系统而言却是一道难题。去年，新加坡政府科技局（GovTech...

大语言模型 # LionGuard 2 # 内容审核防护模型

6个月前

02740

国内首个专攻K-12数学教育的大模型开源！网易有道发布“子曰3数学模型”，可在单卡消费级显卡运行

网易有道宣布正式开源其“子曰3”系列大模型中的数学推理专用模型——Confucius3-Math（中文名：子曰3数学模型），这是国内首个专注于 K-12 数学教育、且可在单块消费级 GPU（如 RT...

大语言模型 # Confucius3-Math # 子曰3数学模型 # 网易有道

7个月前

02740

字节跳动 Seed 团队发布 Seed-OSS 系列开源模型：36B 参数，512K 长上下文，可灵活调整思考长度

字节跳动Seed团队正式推出Seed-OSS系列开放权重模型，该系列均为36B参数规模，聚焦长上下文处理、推理能力与代理任务优化，以Apache-2.0许可证开源，为开发者与研究社区提供高实用性工具...

大语言模型 # Seed-OSS # 字节跳动

5个月前

02730

阿里通义实验室推出的端到端网络代理训练框架WebDancer

在信息检索和智能代理领域，如何让 AI 代理具备自主搜索、推理和决策能力是一个关键挑战。为此，阿里通义实验室提出了 WebDancer —— 一个全新的端到端代理训练框架，旨在增强基于网络的代理在多...

大语言模型 # WebDancer # 阿里通义实验室

7个月前

02730

艾伦AI研究所推出Tülu 3 405B：超越 DeepSeek V3 的性能表现

艾伦AI研究所在成功推出Tülu 3之后，又在昨天宣布推出Tülu 3 405B——这是首次将完全开放的后训练方法应用于最大规模的开放权重模型。此次发布不仅展示了艾伦AI研究所在大规模参数模型上的可扩...

大语言模型 # Tülu 3 # Tülu 3 405B # 艾伦AI研究所

12个月前

02730

INTELLECT-2 发布：首个通过全球分布式强化学习训练的 32B 参数模型

Prime Intellect发布 INTELLECT-2，这是首个通过全球分布式强化学习训练的 32B 参数模型。与传统的集中式训练不同，INTELLECT-2 使用完全异步的强化学习（RL），在一...

大语言模型 # INTELLECT-2 # 强化学习

9个月前

02680

加载更多

Homunculus-12B：在消费级显卡上运行的高效推理模型

OpenAI 发布 GPT-5：更智能、更诚实、更实用的统一模型

卡内基梅隆大学推出 L1-1.5B：用强化学习优化 AI 推理过程，精准控制“思考”时长

英伟达发布OpenReasoning-Nemotron：多规模推理模型，覆盖数学、科学与编程

腾讯推出大型混合 Transformer-Mamba 专家混合（MoE）模型Hunyuan-TurboS

腾讯推出新一代快思考模型混元 Turbo S

新加坡政府科技局发布LionGuard 2：专为新加坡语言生态设计的内容审核防护模型

国内首个专攻K-12数学教育的大模型开源！网易有道发布“子曰3数学模型”，可在单卡消费级显卡运行

字节跳动 Seed 团队发布 Seed-OSS 系列开源模型：36B 参数，512K 长上下文，可灵活调整思考长度

阿里通义实验室推出的端到端网络代理训练框架WebDancer

艾伦AI研究所推出Tülu 3 405B：超越 DeepSeek V3 的性能表现

INTELLECT-2 发布：首个通过全球分布式强化学习训练的 32B 参数模型

Clawdbot/Moltbot

Situation Monitor

Higgsfield AI

新QoderWork

CutCut

Fogsight (雾象)

大语言模型

网址

Clawdbot/Moltbot

Situation Monitor

Higgsfield AI

新QoderWork

CutCut

Fogsight (雾象)