大语言模型

百科工具模型 ComfyUI AI合集 web UI 提示词

大语言模型多模态模型图像模型语音模型 3D模型 Flux衍生视频模型世界模型

排序

发布更新浏览点赞

Sakana AI 推出 AB-MCTS：让多个前沿模型协作解决复杂推理问题

Sakana AI 发布了一项令人瞩目的研究成果：他们开发出一种名为 AB-MCTS（自适应分支蒙特卡洛树搜索）的新算法。该算法在 ARC-AGI-2 基准测试中表现出色，显著优于单独使用 o4-m...

大语言模型 # AB-MCTS # Sakana AI

7个月前

03110

Kurma AI专为水产养殖领域打造的通用语言模型AQUA-7B和AQUA-1B：以生成式 AI 重塑美国水产养殖业

美国拥有广阔的海岸线、纯净的水域资源以及领先的技术基础，具备发展高产、可持续水产养殖业的天然优势。然而，这一潜力远未被充分挖掘。据2021年数据显示，美国人均海产品消费量已达约 20.5磅，其中 8...

大语言模型 # AQUA-1B # AQUA-7B # Kurma AI

7个月前

03100

德国科技咨询公司TNG发布全新 DeepSeek R1-0528 变体DeepSeek-TNG R1T2 Chimera，速度提升 200%

距离中国 AI 初创公司 DeepSeek 发布其热门开源模型 DeepSeek-R1-0528 不到两个月，该模型因其低成本训练和高性能推理能力迅速风靡全球 AI 社区。如今，这款强大模型已被广泛...

大语言模型 # DeepSeek-R1-0528 # DeepSeek-TNG R1T2 Chimera # TNG

7个月前

02270

苹果 & 香港研究人员推出 DiffuCoder：首个面向代码生成的扩散大语言模型

近日，苹果与香港的研究团队联合提出了一种全新的基于扩散机制的大语言模型（Diffusion Large Language Model, dLLM）——DiffuCoder，专为代码生成任务设计。 Gi...

大语言模型 # DiffuCoder # 扩散大语言模型 # 苹果

7个月前

01870

百度开源 ERNIE 4.5：覆盖 0.3B 到 424B 参数的大型语言模型系列

百度正式开源了其最新的 ERNIE 4.5 系列，这是继 ERNIE 系列之后又一重磅发布的基础语言模型家族。该系列包含 10 款不同规模与架构的模型，从仅 0.3B（十亿）参数的小型密集模型到高达...

大语言模型 # ERNIE 4.5 # 百度

7个月前

02930

谷歌发布 Gemma 3n：为移动设备而生的高效多模态AI模型

继去年首款 Gemma 模型发布以来，Gemmaverse 生态系统迅速壮大，累计下载量突破 1.6亿次，覆盖从安全防护到医疗应用等十余个专业领域。社区创新成果斐然，例如 Roboflow 打造的企业...

大语言模型 # Gemma 3n # 谷歌

7个月前

01760

腾讯推出全新MoE模型Hunyuan-A13B：小参数、高性能的AI新选择

在大模型持续演进的过程中，如何在提升性能的同时控制资源消耗，成为行业面临的关键挑战。腾讯最新推出的 Hunyuan-A13B 模型，正是这一问题的创新性解决方案。该模型采用混合专家（MoE）架构，在仅...

大语言模型 # Hunyuan-A13B # 腾讯

7个月前

01520

阿里通义实验室推出的端到端网络代理训练框架WebDancer

在信息检索和智能代理领域，如何让 AI 代理具备自主搜索、推理和决策能力是一个关键挑战。为此，阿里通义实验室提出了 WebDancer —— 一个全新的端到端代理训练框架，旨在增强基于网络的代理在多...

大语言模型 # WebDancer # 阿里通义实验室

7个月前

02730

国内首个专攻K-12数学教育的大模型开源！网易有道发布“子曰3数学模型”，可在单卡消费级显卡运行

网易有道宣布正式开源其“子曰3”系列大模型中的数学推理专用模型——Confucius3-Math（中文名：子曰3数学模型），这是国内首个专注于 K-12 数学教育、且可在单块消费级 GPU（如 RT...

大语言模型 # Confucius3-Math # 子曰3数学模型 # 网易有道

7个月前

02740

微软新推 Mu 模型：专为 Windows 设置代理而生的小而强语言模型

微软近日推出了一款全新的小型语言模型——Mu，它专为边缘设备和特定任务设计，在本地运行时展现出卓越性能。目前，Mu 已经在 Copilot+ PC 的 Windows Insider 开发频道中，用于...

大语言模型 # Mu 模型 # 微软

7个月前

01980

LongWriter-Zero：通过强化学习从零开始训练大语言模型，以实现超长文本生成

新加坡科技设计大学和清华大学的研究人员推出新型模型LongWriter-Zero，基于 Qwen 2.5-32B-Base 构建，通过强化学习（RL）从零开始训练大语言模型（LLMs），以实现超长文本...

大语言模型 # LongWriter-Zero # 大语言模型

7个月前

02440

新型轨迹感知过程奖励模型（PRM） ReasonFlux-PRM：专门用于评估大型语言模型在长链推理中的轨迹-响应型推理痕迹

伊利诺伊大学厄巴纳-香槟分校、普林斯顿大学、康奈尔大学和字节跳动的研究人员推出新型轨迹感知过程奖励模型（PRM） ReasonFlux-PRM，专门用于评估大型语言模型（LLMs）在长链推理（Long...

大语言模型 # ReasonFlux-PRM # 轨迹感知过程奖励模型

7个月前

02360

加载更多

Sakana AI 推出 AB-MCTS：让多个前沿模型协作解决复杂推理问题

Kurma AI专为水产养殖领域打造的通用语言模型AQUA-7B和AQUA-1B：以生成式 AI 重塑美国水产养殖业

德国科技咨询公司TNG发布全新 DeepSeek R1-0528 变体DeepSeek-TNG R1T2 Chimera，速度提升 200%

苹果 & 香港研究人员推出 DiffuCoder：首个面向代码生成的扩散大语言模型

百度开源 ERNIE 4.5：覆盖 0.3B 到 424B 参数的大型语言模型系列

谷歌发布 Gemma 3n：为移动设备而生的高效多模态AI模型

腾讯推出全新MoE模型Hunyuan-A13B：小参数、高性能的AI新选择

阿里通义实验室推出的端到端网络代理训练框架WebDancer

国内首个专攻K-12数学教育的大模型开源！网易有道发布“子曰3数学模型”，可在单卡消费级显卡运行

微软新推 Mu 模型：专为 Windows 设置代理而生的小而强语言模型

LongWriter-Zero：通过强化学习从零开始训练大语言模型，以实现超长文本生成

新型轨迹感知过程奖励模型（PRM） ReasonFlux-PRM：专门用于评估大型语言模型在长链推理中的轨迹-响应型推理痕迹

新QoderWork

Clawdbot/Moltbot

Situation Monitor

中国科技云数据胶囊

ITELLOU

CutCut

大语言模型

网址

新QoderWork

Clawdbot/Moltbot

Situation Monitor

中国科技云数据胶囊

ITELLOU

CutCut