大语言模型

百科工具模型 ComfyUI AI合集 web UI 提示词

大语言模型多模态模型图像模型语音模型 3D模型 Flux衍生视频模型

排序

发布更新浏览点赞

小米团队发布 MiMo-7B系列模型：专为推理任务从头开始训练的模型

在强化学习（RL）领域，大型基础模型一直是研究的主流方向。目前，许多成功的强化学习项目，尤其是那些专注于代码推理能力的项目，都依赖于庞大的模型，例如拥有 320 亿参数的模型。然而，要在小型模型中同时...

8个月前

02590

阿里推出 Qwen3 系列大模型：开源 8 款模型，性能飞跃，多语言支持，推理能力显著提升

阿里 QWEN 团队在今天推出 Qwen3，这是 Qwen 系列大言模型的最新力作。Qwen3 以其卓越的性能和广泛的应用潜力，正在成为开源AI领域的新焦点。性能突破：超越行业标杆 Qwen3 的旗...

大语言模型 # QWEN 团队 # 阿里巴巴

8个月前

03870

南加州大学推出一系列紧凑型推理模型Tina：利用LoRA技术实现低成本强化学习

在语言模型（LLM）领域，尽管通用任务性能取得了显著进展，但实现强大的多步推理能力仍然是一个重大挑战。这种能力对于复杂问题解决场景（如科学研究和战略规划）至关重要。然而，传统方法如监督微调（SFT）虽...

大语言模型 # Tina # v # 推理模型

8个月前

02920

DeepSeek-R1T-Chimera：结合推理能力与高效输出的开放权重模型

TNG科技发布了 DeepSeek-R1T-Chimera，这是一个通过创新方法构建的开放权重模型。它将 DeepSeek-R1 的强大推理能力与 DeepSeek-V3 (0324) 的高效 tok...

大语言模型 # DeepSeek-R1 # DeepSeek-R1T-Chimera # DeepSeek-V3-0324

8个月前

04360

Meta发布Web-SSL系列模型：无语言也能学视觉，探索纯视觉自监督学习的潜力

近年来，对比语言-图像模型（如CLIP）在多模态任务中表现出色，成为学习视觉表征的主流选择。这些模型通过大规模的图像-文本对进行训练，利用语言监督来融入语义信息，广泛应用于视觉问答（VQA）、文档理解...

大语言模型 # Meta # Web-SSL

8个月前

02250

英伟达发布数学推理模型 OpenMath-Nemotron 系列，基于Qwen2.5-32B训练

长期以来，数学推理一直是人工智能领域的一项重大挑战。尽管传统的语言模型在生成自然语言文本方面表现出色，但在解决需要深入领域知识和多步骤逻辑推导的复杂数学问题时，它们往往显得力不从心。为了弥合这一差距...

大语言模型 # OpenMath-Nemotron # Qwen2.5-32B # 数学推理模型

8个月前

02040

MAI-DS-R1：微软团队基于DeepSeek-R1 推理模型进行后训练的版本

MAI-DS-R1 是一个由微软 AI 团队对 DeepSeek-R1 推理模型进行后训练的版本，提升其对受限话题的响应能力并改善其风险状况，同时保持推理能力和竞争力。简单来说就是把欧美的偏见加进去...

大语言模型 # DeepSeek-R1 # MAI-DS-R1 # 微软

8个月前

02940

谷歌发布量化感知训练（QAT）优化版 Gemma 3 模型Gemma 3 QAT

谷歌昨日（4月18日）通过官方博文发布了量化感知训练（QAT）优化版的Gemma 3模型。这一版本在保持高质量输出的同时，显著降低了对硬件内存的需求，为本地部署和普通硬件用户带来了福音。 MLX 版本...

大语言模型 # Gemma 3 # Gemma 3 QAT # 谷歌

8个月前

02070

微软发布20亿参数1-bit模型BitNet b1.58，性能超越主流LLM且更适合边缘设备

本周，微软发布了全新的大语言模型家族——BitNet b1.58 LLM。这一系列模型采用了创新的1-bit架构，参数规模达到20亿（2B4T），是迄今为止最大的开源1-bit模型。研究团队表示，这种...

大语言模型 # BitNet b1.58 # 微软

8个月前

04290

谷歌推出Gemini 2.5 Flash：更强大的推理能力与灵活的成本控制

谷歌于今日通过Google AI Studio和Vertex AI的Gemini API，发布了Gemini 2.5 Flash的早期预览版。这一新版本在广受欢迎的2.0 Flash基础上进行了重大升...

大语言模型 # Gemini 2.5 Flash # 谷歌

8个月前

02330

OpenAI 推出o3 和 o4-mini：迄今最智能、最强大的模型，具备全面工具访问能力

今天，OpenAI发布 OpenAI o3 和 o4-mini，这是OpenAI o 系列模型的最新版本，经过训练能在回答前进行更长时间的思考。这些是OpenAI迄今发布的最智能模型，显著提升了 Ch...

大语言模型 # o3 # o4-mini # OpenAI

8个月前

04070

智谱发布新一代 GLM-4-32B-0414 系列模型：高性能、多功能、易部署

4 月 14 日，智谱发布了一则重磅消息：推出新一代 GLM-4-32B-0414 系列模型。这一系列模型凭借 320 亿参数的强大性能，效果直逼 OpenAI 的 GPT 系列和 DeepSeek ...

大语言模型 # GLM-4-32B-0414 # 智谱AI

8个月前

02790

加载更多

小米团队发布 MiMo-7B系列模型：专为推理任务从头开始训练的模型

阿里推出 Qwen3 系列大模型：开源 8 款模型，性能飞跃，多语言支持，推理能力显著提升

南加州大学推出一系列紧凑型推理模型Tina：利用LoRA技术实现低成本强化学习

DeepSeek-R1T-Chimera：结合推理能力与高效输出的开放权重模型

Meta发布Web-SSL系列模型：无语言也能学视觉，探索纯视觉自监督学习的潜力

英伟达发布数学推理模型 OpenMath-Nemotron 系列，基于Qwen2.5-32B训练

MAI-DS-R1：微软团队基于DeepSeek-R1 推理模型进行后训练的版本

谷歌发布量化感知训练（QAT）优化版 Gemma 3 模型Gemma 3 QAT

微软发布20亿参数1-bit模型BitNet b1.58，性能超越主流LLM且更适合边缘设备

谷歌推出Gemini 2.5 Flash：更强大的推理能力与灵活的成本控制

OpenAI 推出o3 和 o4-mini：迄今最智能、最强大的模型，具备全面工具访问能力

智谱发布新一代 GLM-4-32B-0414 系列模型：高性能、多功能、易部署

Fogsight (雾象)

秒哒

Tripo

朱雀大模型检测

新人生 K 线

YouMind

大语言模型

网址

Fogsight (雾象)

秒哒

Tripo

朱雀大模型检测

新人生 K 线

YouMind