谷歌发布 Gemma 3:您可以在单个 GPU 或 TPU 上运行的最强大模型谷歌在今天宣布推出 Gemma 3,声称这是目前可以在单个 GPU 上运行的最强大的 AI 模型。这款全新升级的“开放”AI 模型不仅能够处理文本,还能解读图像和短视频,进一步拓展了其应用场景。 Ge...早报# Gemma 3# Gemmaverse# 大语言模型9个月前03150
端到端的训练框架Mimir:通过大语言模型增强文本到视频生成蚂蚁集团和清华大学的研究人员提出了Mimir,这是一个端到端的训练框架,旨在解决当前视频扩散模型在文本理解方面的不足,并充分利用大语言模型(LLMs)的强大文本处理能力。Mimir通过引入精心设计的标...新技术# Mimir# 大语言模型1年前02910
高效的无数据量化方法HIGGS:可快速压缩大语言模型而无需显著牺牲质量近年来,大语言模型(LLM)的快速发展为AI领域带来了巨大的潜力,但其对计算资源的高需求也限制了广泛应用。无论是研究机构还是个人开发者,都面临着高昂的成本和技术门槛。然而,这一局面可能即将被打破。 由...新技术# HIGGS# 大语言模型8个月前02570
开启大语言模型的新篇章:《大语言模型的后训练技术:全面综述》在AI领域,大语言模型(LLMs)的发展正以前所未有的速度重塑自然语言处理(NLP)的边界。从聊天机器人到科学探索,LLMs 已经成为不可或缺的工具。然而,这些模型在预训练阶段往往暴露出在特定领域的局...新技术# 后训练# 大语言模型9个月前02540
字节跳动发布DAPO(动态采样策略优化):提升大语言模型的推理能力来自字节跳动、清华大学和香港大学的研究团队共同推出了一款名为 DAPO(动态采样策略优化)的开源系统,旨在提升大语言模型(LLM)的推理能力。DAPO 的发布标志着在强化学习(RL)技术应用于大规模语...新技术# DAPO# 动态采样策略优化# 大语言模型9个月前02530
谷歌推出Gemma系列最新模型Gemma 3,号称是全球最佳单加速器模型自首次推出以来,Gemma 模型已被下载超过 1 亿次,社区创造了超过 60,000 个适用于各种用例的变体。今天,谷歌正式发布 Gemma 3,这是 Gemma 开源模型家族中最强大、最先进的版本...大语言模型# Gemma 3# 多语言大语言模型# 大语言模型9个月前02510
针对大语言模型(LLMs)的量化感知训练(QAT)的统一缩放定律香港大学和字节跳动的研究人员介绍了一种针对大语言模型(LLMs)的量化感知训练(QAT)的统一缩放定律。量化是一种减少模型权重和激活精度的方法,以降低内存使用和计算成本。尽管现有的量化方法在中等精度...新技术# 大语言模型# 量化感知训练7个月前02340
大语言模型真的具备推理能力吗?——RoR-Bench研究揭示真相随着大语言模型(LLMs)在各种任务上的表现越来越接近人类水平,人们开始质疑这些模型是否真的具备人类意义上的推理能力,还是仅仅是在重复训练过程中见过的解决方案。 论文:https://arxiv.or...新技术# 大语言模型# 推理能力8个月前02340
LongWriter-Zero:通过强化学习从零开始训练大语言模型,以实现超长文本生成新加坡科技设计大学和清华大学的研究人员推出新型模型LongWriter-Zero,基于 Qwen 2.5-32B-Base 构建,通过强化学习(RL)从零开始训练大语言模型(LLMs),以实现超长文本...大语言模型# LongWriter-Zero# 大语言模型6个月前02320
阿里巴巴提出START:显著提升大语言模型推理能力的创新工具在大语言模型的发展中,尽管在理解和生成类人文本方面取得了显著进展,但在处理复杂推理任务时,尤其是需要多步计算或逻辑分析的任务,这些模型往往表现不佳。传统的思维链(Chain of Thought, C...新技术# START# 大语言模型# 推理9个月前02170
ComfyUI LLM Toolkit:将各种大语言模型提供商与 ComfyUI 集成的自定义节点集合ComfyUI LLM Toolkit是一个专为 ComfyUI 打造的自定义节点集合,旨在将多种大语言模型(包括云端和本地模型)无缝集成到工作流中。无论是文本生成、图像创作,还是未来的视频生成,这款...插件# ComfyUI LLM Toolkit# 大语言模型7个月前02110
改进大语言模型的后训练方法,提升其在创意写作任务中的输出多样性和质量Midjourney和纽约大学的研究人员发布论文《Modifying Large Language Model Post-Training for Diverse Creative Writing...新技术# 创意写作# 大语言模型9个月前01850