新FilmComposer:利用大语言模型驱动的方法为无声电影片段生成音乐 上海大学和上海电影特效工程技术研究中心的研究人员推出 FilmComposer,利用大语言模型(LLM)驱动的方法为无声电影片段生成音乐。FilmComposer 旨在模拟专业音乐家的实际工作流程,结... 新技术# FilmComposer# 大语言模型# 音乐 3天前0240
改进大语言模型的后训练方法,提升其在创意写作任务中的输出多样性和质量 Midjourney和纽约大学的研究人员发布论文《Modifying Large Language Model Post-Training for Diverse Creative Writing》,... 新技术# 创意写作# 大语言模型 5天前0240
字节跳动发布DAPO(动态采样策略优化):提升大语言模型的推理能力 来自字节跳动、清华大学和香港大学的研究团队共同推出了一款名为 DAPO(动态采样策略优化)的开源系统,旨在提升大语言模型(LLM)的推理能力。DAPO 的发布标志着在强化学习(RL)技术应用于大规模语... 新技术# DAPO# 动态采样策略优化# 大语言模型 1周前0320
基于扩散模型的大语言模型LLaDA:通过一个前向掩码过程和一个反向过程来建模,能够同时优化双向依赖关系,并通过似然下界优化来生成文本 中国人民大学和蚂蚁集团的研究人员推出新型大语言模型LLaDA,基于扩散模型(Diffusion Model)从头开始训练,挑战了自回归模型(ARM)在大型语言模型中的主导地位。与传统的从左到右的生成方... 大语言模型# LLaDA# 大语言模型# 扩散模型 1周前0430
Mistral AI发布开源模型Mistral Small 3.1,号称在性能上超越了Gemma 3和GPT-4o Mini等同类模型 MistralAI宣布推出Mistral Small 3.1,这一新模型在性能和功能上均达到了同级别模型中的顶尖水平。作为Mistral Small 3的升级版本,3.1版本不仅在文本性能和多模态理解... 大语言模型# Mistral AI# Mistral Small 3.1# 大语言模型 2周前0290
开启大语言模型的新篇章:《大语言模型的后训练技术:全面综述》 在AI领域,大语言模型(LLMs)的发展正以前所未有的速度重塑自然语言处理(NLP)的边界。从聊天机器人到科学探索,LLMs 已经成为不可或缺的工具。然而,这些模型在预训练阶段往往暴露出在特定领域的局... 新技术# 后训练# 大语言模型 2周前0270
Cohere 推出了 Command A:高性能、低计算需求的大语言模型,为企业量身定制 今天,Cohere 推出了 Command A,一款专为企业设计的新型先进生成模型,旨在满足企业对快速、安全和高质量 AI 的高要求。Command A 在性能、效率和企业级功能上表现出色,是市场上最... 大语言模型# Cohere# Command A# 企业 2周前0650
Block Diffusion:结合了自回归(Autoregressive)和扩散(Diffusion)模型优点的新型语言生成模型 康奈尔科技校区、斯坦福大学和Cohere推出语言模型Block Diffusion,它是一种结合了自回归(Autoregressive)和扩散(Diffusion)模型优点的新型语言生成模型。论文的核... 大语言模型# Block Diffusion# 大语言模型 2周前0760
谷歌推出Gemma系列最新模型Gemma 3,号称是全球最佳单加速器模型 自首次推出以来,Gemma 模型已被下载超过 1 亿次,社区创造了超过 60,000 个适用于各种用例的变体。今天,谷歌正式发布 Gemma 3,这是 Gemma 开源模型家族中最强大、最先进的版本。... 大语言模型# Gemma 3# 多语言大语言模型# 大语言模型 1周前0580
谷歌发布 Gemma 3:您可以在单个 GPU 或 TPU 上运行的最强大模型 谷歌在今天宣布推出 Gemma 3,声称这是目前可以在单个 GPU 上运行的最强大的 AI 模型。这款全新升级的“开放”AI 模型不仅能够处理文本,还能解读图像和短视频,进一步拓展了其应用场景。 Ge... 早报# Gemma 3# Gemmaverse# 大语言模型 2周前0570
AI21开源大语言模型Jamba 1.6系列,适合企业私有部署 AI21 正式发布开源模型Jamba 1.6 系列,专为企业私有部署设计,兼具卓越性能和数据安全性。 模型地址:https://huggingface.co/collections/ai21labs/... 大语言模型# AI21# Jamba 1.6# 大语言模型 3周前0690
阿里巴巴提出START:显著提升大语言模型推理能力的创新工具 在大语言模型的发展中,尽管在理解和生成类人文本方面取得了显著进展,但在处理复杂推理任务时,尤其是需要多步计算或逻辑分析的任务,这些模型往往表现不佳。传统的思维链(Chain of Thought, C... 新技术# START# 大语言模型# 推理 3周前0470