Allen人工智能研究所推出OLMoTrace:让大语言模型透明化,追溯AI决策的真实来源在企业AI应用中,大语言模型(LLM)的“黑盒”特性一直是阻碍其大规模采用的主要障碍之一。如何理解模型输出的来源、提升透明度并增强信任,成为行业亟需解决的问题。本周,Allen人工智能研究所(Ai2...新技术# Ai2# OLMoTrace# 大语言模型8个月前03300
大语言模型真的具备推理能力吗?——RoR-Bench研究揭示真相随着大语言模型(LLMs)在各种任务上的表现越来越接近人类水平,人们开始质疑这些模型是否真的具备人类意义上的推理能力,还是仅仅是在重复训练过程中见过的解决方案。 论文:https://arxiv.or...新技术# 大语言模型# 推理能力8个月前02340
FilmComposer:利用大语言模型驱动的方法为无声电影片段生成音乐上海大学和上海电影特效工程技术研究中心的研究人员推出 FilmComposer,利用大语言模型(LLM)驱动的方法为无声电影片段生成音乐。FilmComposer 旨在模拟专业音乐家的实际工作流程,结...新技术# FilmComposer# 大语言模型# 音乐9个月前04060
改进大语言模型的后训练方法,提升其在创意写作任务中的输出多样性和质量Midjourney和纽约大学的研究人员发布论文《Modifying Large Language Model Post-Training for Diverse Creative Writing...新技术# 创意写作# 大语言模型9个月前01850
字节跳动发布DAPO(动态采样策略优化):提升大语言模型的推理能力来自字节跳动、清华大学和香港大学的研究团队共同推出了一款名为 DAPO(动态采样策略优化)的开源系统,旨在提升大语言模型(LLM)的推理能力。DAPO 的发布标志着在强化学习(RL)技术应用于大规模语...新技术# DAPO# 动态采样策略优化# 大语言模型9个月前02530
基于扩散模型的大语言模型LLaDA:通过一个前向掩码过程和一个反向过程来建模,能够同时优化双向依赖关系,并通过似然下界优化来生成文本中国人民大学和蚂蚁集团的研究人员推出新型大语言模型LLaDA,基于扩散模型(Diffusion Model)从头开始训练,挑战了自回归模型(ARM)在大型语言模型中的主导地位。与传统的从左到右的生成方...大语言模型# LLaDA# 大语言模型# 扩散模型9个月前03580
Mistral AI发布开源模型Mistral Small 3.1,号称在性能上超越了Gemma 3和GPT-4o Mini等同类模型MistralAI宣布推出Mistral Small 3.1,这一新模型在性能和功能上均达到了同级别模型中的顶尖水平。作为Mistral Small 3的升级版本,3.1版本不仅在文本性能和多模态理解...大语言模型# Mistral AI# Mistral Small 3.1# 大语言模型9个月前01790
开启大语言模型的新篇章:《大语言模型的后训练技术:全面综述》在AI领域,大语言模型(LLMs)的发展正以前所未有的速度重塑自然语言处理(NLP)的边界。从聊天机器人到科学探索,LLMs 已经成为不可或缺的工具。然而,这些模型在预训练阶段往往暴露出在特定领域的局...新技术# 后训练# 大语言模型9个月前02540
Cohere 推出了 Command A:高性能、低计算需求的大语言模型,为企业量身定制今天,Cohere 推出了 Command A,一款专为企业设计的新型先进生成模型,旨在满足企业对快速、安全和高质量 AI 的高要求。Command A 在性能、效率和企业级功能上表现出色,是市场上最...大语言模型# Cohere# Command A# 企业9个月前04710
Block Diffusion:结合了自回归(Autoregressive)和扩散(Diffusion)模型优点的新型语言生成模型康奈尔科技校区、斯坦福大学和Cohere推出语言模型Block Diffusion,它是一种结合了自回归(Autoregressive)和扩散(Diffusion)模型优点的新型语言生成模型。论文的核...大语言模型# Block Diffusion# 大语言模型9个月前04630
谷歌推出Gemma系列最新模型Gemma 3,号称是全球最佳单加速器模型自首次推出以来,Gemma 模型已被下载超过 1 亿次,社区创造了超过 60,000 个适用于各种用例的变体。今天,谷歌正式发布 Gemma 3,这是 Gemma 开源模型家族中最强大、最先进的版本...大语言模型# Gemma 3# 多语言大语言模型# 大语言模型9个月前02510
谷歌发布 Gemma 3:您可以在单个 GPU 或 TPU 上运行的最强大模型谷歌在今天宣布推出 Gemma 3,声称这是目前可以在单个 GPU 上运行的最强大的 AI 模型。这款全新升级的“开放”AI 模型不仅能够处理文本,还能解读图像和短视频,进一步拓展了其应用场景。 Ge...早报# Gemma 3# Gemmaverse# 大语言模型9个月前03150