大语言模型

百科工具模型 ComfyUI AI合集 web UI 提示词

大语言模型多模态模型图像模型语音模型 3D模型 Flux衍生视频模型世界模型

排序

发布更新浏览点赞

DeepSeek-R1T-Chimera：结合推理能力与高效输出的开放权重模型

TNG科技发布了 DeepSeek-R1T-Chimera，这是一个通过创新方法构建的开放权重模型。它将 DeepSeek-R1 的强大推理能力与 DeepSeek-V3 (0324) 的高效 tok...

10个月前

04610

Meta发布Web-SSL系列模型：无语言也能学视觉，探索纯视觉自监督学习的潜力

近年来，对比语言-图像模型（如CLIP）在多模态任务中表现出色，成为学习视觉表征的主流选择。这些模型通过大规模的图像-文本对进行训练，利用语言监督来融入语义信息，广泛应用于视觉问答（VQA）、文档理解...

大语言模型 # Meta # Web-SSL

10个月前

02490

英伟达发布数学推理模型 OpenMath-Nemotron 系列，基于Qwen2.5-32B训练

长期以来，数学推理一直是人工智能领域的一项重大挑战。尽管传统的语言模型在生成自然语言文本方面表现出色，但在解决需要深入领域知识和多步骤逻辑推导的复杂数学问题时，它们往往显得力不从心。为了弥合这一差距...

大语言模型 # OpenMath-Nemotron # Qwen2.5-32B # 数学推理模型

10个月前

02090

MAI-DS-R1：微软团队基于DeepSeek-R1 推理模型进行后训练的版本

MAI-DS-R1 是一个由微软 AI 团队对 DeepSeek-R1 推理模型进行后训练的版本，提升其对受限话题的响应能力并改善其风险状况，同时保持推理能力和竞争力。简单来说就是把欧美的偏见加进去...

大语言模型 # DeepSeek-R1 # MAI-DS-R1 # 微软

10个月前

03150

谷歌发布量化感知训练（QAT）优化版 Gemma 3 模型Gemma 3 QAT

谷歌昨日（4月18日）通过官方博文发布了量化感知训练（QAT）优化版的Gemma 3模型。这一版本在保持高质量输出的同时，显著降低了对硬件内存的需求，为本地部署和普通硬件用户带来了福音。 MLX 版本...

大语言模型 # Gemma 3 # Gemma 3 QAT # 谷歌

10个月前

02120

微软发布20亿参数1-bit模型BitNet b1.58，性能超越主流LLM且更适合边缘设备

本周，微软发布了全新的大语言模型家族——BitNet b1.58 LLM。这一系列模型采用了创新的1-bit架构，参数规模达到20亿（2B4T），是迄今为止最大的开源1-bit模型。研究团队表示，这种...

大语言模型 # BitNet b1.58 # 微软

10个月前

04650

谷歌推出Gemini 2.5 Flash：更强大的推理能力与灵活的成本控制

谷歌于今日通过Google AI Studio和Vertex AI的Gemini API，发布了Gemini 2.5 Flash的早期预览版。这一新版本在广受欢迎的2.0 Flash基础上进行了重大升...

大语言模型 # Gemini 2.5 Flash # 谷歌

10个月前

02430

OpenAI 推出o3 和 o4-mini：迄今最智能、最强大的模型，具备全面工具访问能力

今天，OpenAI发布 OpenAI o3 和 o4-mini，这是OpenAI o 系列模型的最新版本，经过训练能在回答前进行更长时间的思考。这些是OpenAI迄今发布的最智能模型，显著提升了 Ch...

大语言模型 # o3 # o4-mini # OpenAI

10个月前

05310

智谱发布新一代 GLM-4-32B-0414 系列模型：高性能、多功能、易部署

4 月 14 日，智谱发布了一则重磅消息：推出新一代 GLM-4-32B-0414 系列模型。这一系列模型凭借 320 亿参数的强大性能，效果直逼 OpenAI 的 GPT 系列和 DeepSeek ...

大语言模型 # GLM-4-32B-0414 # 智谱AI

10个月前

03600

OpenAI发布全新GPT-4.1系列模型：GPT-4.1、GPT-4.1 mini和GPT-4.1 nano

本周一，OpenAI发布了全新的模型系列——GPT-4.1，包括GPT-4.1、GPT-4.1 mini和GPT-4.1 nano。这些模型在编程和指令遵循方面表现出色，标志着OpenAI在打造“代理...

大语言模型早报 # GPT-4.1 # GPT-4.1 mini # GPT-4.1 nano

10个月前

04900

基于DeepSeek-R1构建的开源高效编码模型DeepCoder-14B

由Together AI和Agentica联合推出了一款编码模型DeepCoder-14B，正以其卓越的性能和完全开源的特点，引发AI社区的广泛关注。这款基于DeepSeek-R1构建的模型，在多个编...

大语言模型 # DeepCoder-14B # DeepSeek-R1 # 编码模型

10个月前

02010

英伟达发布开源大语言模型Llama-3.1 Nemotron Ultra-253B-v1：以半数参数超越DeepSeek R1

英伟达今天发布了一款全新的开源大语言模型—Llama-3.1 Nemotron Ultra-253B-v1，这款拥有2530亿参数的模型在多个基准测试中表现出色，甚至超越了竞争对手DeepSeek R...

大语言模型 # Llama-3.1 Nemotron Ultra # Llama-3.1 Nemotron Ultra-253B-v1 # 英伟达

11个月前

02710

加载更多

DeepSeek-R1T-Chimera：结合推理能力与高效输出的开放权重模型

Meta发布Web-SSL系列模型：无语言也能学视觉，探索纯视觉自监督学习的潜力

英伟达发布数学推理模型 OpenMath-Nemotron 系列，基于Qwen2.5-32B训练

MAI-DS-R1：微软团队基于DeepSeek-R1 推理模型进行后训练的版本

谷歌发布量化感知训练（QAT）优化版 Gemma 3 模型Gemma 3 QAT

微软发布20亿参数1-bit模型BitNet b1.58，性能超越主流LLM且更适合边缘设备

谷歌推出Gemini 2.5 Flash：更强大的推理能力与灵活的成本控制

OpenAI 推出o3 和 o4-mini：迄今最智能、最强大的模型，具备全面工具访问能力

智谱发布新一代 GLM-4-32B-0414 系列模型：高性能、多功能、易部署

OpenAI发布全新GPT-4.1系列模型：GPT-4.1、GPT-4.1 mini和GPT-4.1 nano

基于DeepSeek-R1构建的开源高效编码模型DeepCoder-14B

英伟达发布开源大语言模型Llama-3.1 Nemotron Ultra-253B-v1：以半数参数超越DeepSeek R1

YouMind

OpenClaw（Clawdbot/Moltbot）

A股智能分析系统

OpenClaw

OpenClaw 一键部署工具

Fogsight (雾象)

大语言模型

网址

YouMind

OpenClaw（Clawdbot/Moltbot）

A股智能分析系统

OpenClaw

OpenClaw 一键部署工具

Fogsight (雾象)