大语言模型

百科工具模型 ComfyUI AI合集 web UI 提示词

大语言模型多模态模型图像模型语音模型 3D模型 Flux衍生视频模型世界模型

排序

发布更新浏览点赞

开源框架OpenDeepSearch，挑战Perplexity和ChatGPT搜索

Sentient Foundation的研究团队近日发布了开源深度搜索（Open Deep Search，简称ODS），这是一款开源框架，能够匹敌如Perplexity和ChatGPT Search等...

10个月前

03810

360推出Light-R1-32B：通过SFT和DPO以低成本超越DeepSeek-R1-Distill-Qwen-32B

在数学竞赛 AIME24 上，尽管许多研究者尝试在 72B 或更小的模型上复现 DeepSeek-R1-Distill-Qwen-32B 的 72.6 分，但一直未能成功。模型集成模型推出日期 ...

大语言模型 # 360 # Light-R1-32B # 推理模型

11个月前

03800

阿里推出“会思考”的30B模型Qwen3-30B-A3B-Thinking-2507：复杂任务表现大幅提升

阿里通义千问团队再次升级其 30B 级模型线，正式推出 Qwen3-30B-A3B-Thinking-2507。这并非一次简单迭代，而是针对复杂推理能力的深度优化版本。过去三个月中，项目组重点提升了...

大语言模型 # Qwen3-30B-A3B-Thinking-2507 # 推理模型

6个月前

03790

基于扩散模型的大语言模型LLaDA：通过一个前向掩码过程和一个反向过程来建模，能够同时优化双向依赖关系，并通过似然下界优化来生成文本

中国人民大学和蚂蚁集团的研究人员推出新型大语言模型LLaDA，基于扩散模型（Diffusion Model）从头开始训练，挑战了自回归模型（ARM）在大型语言模型中的主导地位。与传统的从左到右的生成方...

大语言模型 # LLaDA # 大语言模型 # 扩散模型

10个月前

03710

新型框架WriteHERE：通过异构递归规划实现自适应的长文本写作

长文本写作（如小说、技术报告等）需要在信息检索、推理和创作之间进行灵活的整合与交互。现有的方法通常依赖于预定义的工作流程和僵化的思维模式，先生成大纲再进行写作，这限制了写作过程中的适应性。项目主页...

大语言模型 # WriteHERE # 长文本写作

10个月前

03700

腾讯混元发布四款小尺寸开源模型，端侧 AI 应用迎来新选择

继此前开源大尺寸模型后，腾讯混元团队近日推出四款全新小尺寸开源模型，参数量分别为 0.5B、1.8B、4B 和 7B。这些模型专为低功耗、资源受限场景设计，可在消费级显卡、笔记本电脑、手机、智能座舱及...

大语言模型 # 腾讯混元

6个月前

03690

老显卡福音！美团技术团队开源INT8无损满血版DeepSeek R1

美团技术团队于3月6日宣布对 DeepSeek R1 模型进行了 INT8 精度量化，使其能够在如 A100 等老型号 GPU 上进行部署。这一技术突破为 DeepSeek R1 的广泛应用提供了更多...

大语言模型 # DeepSeek-R1 # 美团

11个月前

03680

谷歌新研究模型 Gemini Diffusion：用扩散模型重新定义文本生成

谷歌推出了一项新的实验性研究模型 —— Gemini Diffusion，这是其在文本生成领域的一次重要尝试，探索扩散模型在语言任务中的潜力。不同于传统的自回归模型逐词生成文本的方式，Gemini ...

大语言模型 # Gemini Diffusion # 扩散模型 # 谷歌

8个月前

03670

谷歌发布 Gemma 3 270M：专为微调而生的超高效小模型

在开源大模型领域持续发力的谷歌，近日为其 Gemma 模型家族再添新成员——Gemma 3 270M。这是一款拥有 2.7 亿参数的紧凑型模型，专为特定任务微调设计，旨在为开发者提供一个高效、节能、生...

大语言模型 # Gemma 3 270M # 小模型 # 谷歌

6个月前

03610

Jan-v1 发布：一个专为本地搜索与深度推理优化的 4B 级开源模型

在 AI 搜索领域，闭源商业产品长期占据主导地位。而今天，开源社区迎来了一位强有力的挑战者——Jan-v1。作为 Jan 模型家族的首个正式版本，Jan-v1 基于 Qwen3-4B-Thinkin...

大语言模型 # Jan-v1 # 搜索

6个月前

03580

蚂蚁集团发布万亿参数大模型 Ling-1T：开源最强非思考模型，推理效率超越 Gemini

蚂蚁集团百灵大模型团队正式推出其新一代通用语言模型——Ling-1T。作为“百灵”Ling 2.0 系列的首款旗舰级非思考（non-thinking）模型，Ling-1T 拥有总计1万亿参数，单次推...

大语言模型 # Ling-1T # 蚂蚁集团

4个月前

03570

Deep Cogito推出Cogito v1系列混合AI推理模型，基于Llama/Qwen训练

Deep Cogito在今天发布了其最新成果——Cogito v1系列模型，这是一组参数规模从30亿到700亿不等的开源大语言模型（LLMs）。这些模型不仅在性能上超越了同等规模的最佳开源模型，还引入...

大语言模型 # Cogito v1 # Deep Cogito # 混合AI推理模型

10个月前

03540

加载更多

开源框架OpenDeepSearch，挑战Perplexity和ChatGPT搜索

360推出Light-R1-32B：通过SFT和DPO以低成本超越DeepSeek-R1-Distill-Qwen-32B

阿里推出“会思考”的30B模型Qwen3-30B-A3B-Thinking-2507：复杂任务表现大幅提升

基于扩散模型的大语言模型LLaDA：通过一个前向掩码过程和一个反向过程来建模，能够同时优化双向依赖关系，并通过似然下界优化来生成文本

新型框架WriteHERE：通过异构递归规划实现自适应的长文本写作

腾讯混元发布四款小尺寸开源模型，端侧 AI 应用迎来新选择

老显卡福音！美团技术团队开源INT8无损满血版DeepSeek R1

谷歌新研究模型 Gemini Diffusion：用扩散模型重新定义文本生成

谷歌发布 Gemma 3 270M：专为微调而生的超高效小模型

Jan-v1 发布：一个专为本地搜索与深度推理优化的 4B 级开源模型

蚂蚁集团发布万亿参数大模型 Ling-1T：开源最强非思考模型，推理效率超越 Gemini

Deep Cogito推出Cogito v1系列混合AI推理模型，基于Llama/Qwen训练

Clawdbot/Moltbot

CivitAI

Fogsight (雾象)

打滑作业平台

NotebookLM

Tripo

大语言模型

网址

Clawdbot/Moltbot

CivitAI

Fogsight (雾象)

打滑作业平台

NotebookLM

Tripo