大语言模型

排序

发布更新浏览点赞

谷歌发布 Gemma 3：您可以在单个 GPU 或 TPU 上运行的最强大模型

谷歌在今天宣布推出 Gemma 3，声称这是目前可以在单个 GPU 上运行的最强大的 AI 模型。这款全新升级的“开放”AI 模型不仅能够处理文本，还能解读图像和短视频，进一步拓展了其应用场景。 Ge...

早报 # Gemma 3 # Gemmaverse # 大语言模型

1年前

03250

端到端的训练框架Mimir：通过大语言模型增强文本到视频生成

蚂蚁集团和清华大学的研究人员提出了Mimir，这是一个端到端的训练框架，旨在解决当前视频扩散模型在文本理解方面的不足，并充分利用大语言模型（LLMs）的强大文本处理能力。Mimir通过引入精心设计的标...

新技术 # Mimir # 大语言模型

1年前

02990

针对大语言模型（LLMs）的量化感知训练（QAT）的统一缩放定律

香港大学和字节跳动的研究人员介绍了一种针对大语言模型（LLMs）的量化感知训练（QAT）的统一缩放定律。量化是一种减少模型权重和激活精度的方法，以降低内存使用和计算成本。尽管现有的量化方法在中等精度...

新技术 # 大语言模型 # 量化感知训练

10个月前

02900

高效的无数据量化方法HIGGS：可快速压缩大语言模型而无需显著牺牲质量

近年来，大语言模型（LLM）的快速发展为AI领域带来了巨大的潜力，但其对计算资源的高需求也限制了广泛应用。无论是研究机构还是个人开发者，都面临着高昂的成本和技术门槛。然而，这一局面可能即将被打破。由...

新技术 # HIGGS # 大语言模型

12个月前

02880

LongWriter-Zero：通过强化学习从零开始训练大语言模型，以实现超长文本生成

新加坡科技设计大学和清华大学的研究人员推出新型模型LongWriter-Zero，基于 Qwen 2.5-32B-Base 构建，通过强化学习（RL）从零开始训练大语言模型（LLMs），以实现超长文本...

大语言模型 # LongWriter-Zero # 大语言模型

9个月前

02690

字节跳动发布DAPO（动态采样策略优化）：提升大语言模型的推理能力

来自字节跳动、清华大学和香港大学的研究团队共同推出了一款名为 DAPO（动态采样策略优化）的开源系统，旨在提升大语言模型（LLM）的推理能力。DAPO 的发布标志着在强化学习（RL）技术应用于大规模语...

新技术 # DAPO # 动态采样策略优化 # 大语言模型

1年前

02640

开启大语言模型的新篇章：《大语言模型的后训练技术：全面综述》

在AI领域，大语言模型（LLMs）的发展正以前所未有的速度重塑自然语言处理（NLP）的边界。从聊天机器人到科学探索，LLMs 已经成为不可或缺的工具。然而，这些模型在预训练阶段往往暴露出在特定领域的局...

新技术 # 后训练 # 大语言模型

1年前

02620

谷歌推出Gemma系列最新模型Gemma 3，号称是全球最佳单加速器模型

自首次推出以来，Gemma 模型已被下载超过 1 亿次，社区创造了超过 60,000 个适用于各种用例的变体。今天，谷歌正式发布 Gemma 3，这是 Gemma 开源模型家族中最强大、最先进的版本...

大语言模型 # Gemma 3 # 多语言大语言模型 # 大语言模型

1年前

02600