大语言模型

百科工具模型 ComfyUI AI合集 web UI 提示词

大语言模型多模态模型图像模型语音模型 3D模型 Flux衍生视频模型世界模型

排序

发布更新浏览点赞

阿里通义实验室开源 WebSailor，登顶 BrowseComp 榜单的网络智能体

近日，阿里云通义实验室正式开源了一款名为 WebSailor 的新型网络智能体（Web Agent），它具备强大的多步推理与信息检索能力，在高难度网页导航任务中表现出色。 GitHub：https...

7个月前

02310

微软推出 NextCoder：基于 Qwen2.5-Coder 的高效代码编辑模型

近年来，软件开发中的代码编辑需求日益增长，尤其是在维护和重构已有项目时。然而，现有的大语言模型在面对多样化的代码修改任务时，往往表现不佳。为了解决这一问题，微软联合相关研究团队提出了一套全新的方法，并...

大语言模型 # NextCoder # Qwen2.5-Coder # 代码编辑模型

7个月前

02300

DeepSeek 推出 DeepSeek-Prover-V2：为 Lean 4 形式化定理证明设计的开源大语言模型

DeepSeek于4月30日发布了 DeepSeek-Prover-V2，这是一个专门用于 Lean 4 形式化定理证明的开源大语言模型。该模型的设计目标是将非形式化的数学推理与形式化的证明构建整合到...

大语言模型 # DeepSeek # DeepSeek-Prover-V2 # DeepSeek-Prover-V2-671B

9个月前

02280

月之暗面发布Moonlight：使用 Muon 优化器训练的混合专家 (MoE) 模型

月之暗面（Moonshot AI）和加州大学洛杉矶分校的研究团队联合发布了 Moonlight，这是一款基于 Muon 优化器训练的混合专家（MoE）模型。该模型包含两种配置：一种具有 30 亿激活参...

大语言模型 # Moonlight # Moonshot AI # Muon 优化器

11个月前

02280

德国科技咨询公司TNG发布全新 DeepSeek R1-0528 变体DeepSeek-TNG R1T2 Chimera，速度提升 200%

距离中国 AI 初创公司 DeepSeek 发布其热门开源模型 DeepSeek-R1-0528 不到两个月，该模型因其低成本训练和高性能推理能力迅速风靡全球 AI 社区。如今，这款强大模型已被广泛...

大语言模型 # DeepSeek-R1-0528 # DeepSeek-TNG R1T2 Chimera # TNG

7个月前

02270

新型段落排序模型 ReasonRank：通过强大的推理能力提升段落排序任务的性能

中国人民大学高岭人工智能学院、百度公司和卡内基梅隆大学的研究人员推出新型段落排序模型 ReasonRank，通过强大的推理能力提升段落排序任务的性能。该模型通过引入推理能力，能够更好地理解查询意图，并...

大语言模型 # ReasonRank # 段落排序模型

6个月前

02250

InfoSeek：智源研究院提出可扩展的深度研究数据合成框架

在大模型迈向“自主思考”的过程中，一个关键瓶颈逐渐显现：现有基准任务太简单，无法真正测试模型的复杂推理能力。 Natural Questions、HotpotQA 等主流数据集虽然推动了多跳推理的发...

大语言模型 # InfoSeek # 深度研究

5个月前

02240

MiniMax发布全球首款开源大规模混合注意力推理模型MiniMax-M1

近日，MiniMax 宣布推出全新大语言模型 MiniMax-M1，这是全球首款开源的大规模混合注意力推理模型，专为复杂任务和长上下文场景设计。 GitHub：https://github.com/M...

大语言模型 # MiniMax # MiniMax-M1

8个月前

02240

AMD 推出完全开源的 3B 参数语言模型Instella-3B，媲美 Llama-3.2-3B 和 Qwen2.5-3B

在AI领域，开源模型的发展一直是推动技术进步和创新的重要力量。AMD宣布推出 Instella，这是一系列完全开源的语言模型，基于 AMD Instinct™ MI300X GPU 从头训练，参数量达...

大语言模型 # AMD # Instella-3B # Llama-3.2-3B

11个月前

02180

Liquid AI 发布 LFM2：设备端最快的生成式基础模型

Liquid AI 正式发布新一代设备端基础模型 LFM2（Liquid Foundation Model 2），重新定义了边缘 AI 推理的速度、效率与部署灵活性。模型：https://huggi...

大语言模型 # LFM2 # Liquid AI

7个月前

02170

深度研究代理WebThinker：为大型推理模型提供深度研究能力

中国人民大学、智源研究院和华为的研究人员推出一个深度研究代理WebThinker，旨在为大型推理模型（Large Reasoning Models, LRMs）提供深度研究能力。WebThinker ...

大语言模型 # WebThinker # 推理模型 # 深度研究代理

9个月前

02160

Intelligent Internet 发布两款新型搜索推理模型：II-Search-4B 与 II-Search-CIR 4B

Intelligent Internet（II）正式推出两款专注于信息检索与复杂推理的开源语言模型： II-Search-4B：面向多跳检索与事实验证的高效4B级模型 II-Search-CIR 4B...

大语言模型 # II-Search-4B # II-Search-CIR 4B # Intelligent Internet

6个月前

02130

加载更多

阿里通义实验室开源 WebSailor，登顶 BrowseComp 榜单的网络智能体

微软推出 NextCoder：基于 Qwen2.5-Coder 的高效代码编辑模型

DeepSeek 推出 DeepSeek-Prover-V2：为 Lean 4 形式化定理证明设计的开源大语言模型

月之暗面发布Moonlight：使用 Muon 优化器训练的混合专家 (MoE) 模型

德国科技咨询公司TNG发布全新 DeepSeek R1-0528 变体DeepSeek-TNG R1T2 Chimera，速度提升 200%

新型段落排序模型 ReasonRank：通过强大的推理能力提升段落排序任务的性能

InfoSeek：智源研究院提出可扩展的深度研究数据合成框架

MiniMax发布全球首款开源大规模混合注意力推理模型MiniMax-M1

AMD 推出完全开源的 3B 参数语言模型Instella-3B，媲美 Llama-3.2-3B 和 Qwen2.5-3B

Liquid AI 发布 LFM2：设备端最快的生成式基础模型

深度研究代理WebThinker：为大型推理模型提供深度研究能力

Intelligent Internet 发布两款新型搜索推理模型：II-Search-4B 与 II-Search-CIR 4B

新QoderWork

Clawdbot/Moltbot

Situation Monitor

CutCut

中国科技云数据胶囊

ITELLOU

大语言模型

网址

新QoderWork

Clawdbot/Moltbot

Situation Monitor

CutCut

中国科技云数据胶囊

ITELLOU