大语言模型

排序

发布更新浏览点赞

FilmComposer：利用大语言模型驱动的方法为无声电影片段生成音乐

上海大学和上海电影特效工程技术研究中心的研究人员推出 FilmComposer，利用大语言模型（LLM）驱动的方法为无声电影片段生成音乐。FilmComposer 旨在模拟专业音乐家的实际工作流程，结...

1年前

05610

Block Diffusion：结合了自回归（Autoregressive）和扩散（Diffusion）模型优点的新型语言生成模型

康奈尔科技校区、斯坦福大学和Cohere推出语言模型Block Diffusion，它是一种结合了自回归（Autoregressive）和扩散（Diffusion）模型优点的新型语言生成模型。论文的核...

大语言模型 # Block Diffusion # 大语言模型

1年前

05590

清华大学与瑞莱智慧联合团队推出RealSafe-R1：基于 DeepSeek R1 的安全优化大语言模型

随着大语言模型（LLMs）在各个领域的广泛应用，其安全性问题日益受到关注。尽管这些模型在性能上表现出色，但在面对恶意查询和越狱攻击时，仍存在一定的风险。为了应对这一挑战，清华大学与瑞莱智慧联合团队推出...

新技术 # DeepSeek-R1 # RealSafe-R1 # 大语言模型

1年前

05590

Prompt-to-Leaderboard (P2L)：为特定使用场景量身定制的大语言模型排行榜

LMArena 推出了 Prompt-to-Leaderboard（P2L），这是一种创新方法，旨在通过自然语言提示生成针对特定使用场景的实时大语言模型（LLM）排行榜。P2L 的核心思想是训练一个大...

大语言模型 # P2L # 大语言模型

1年前

05460

AI21开源大语言模型Jamba 1.6系列，适合企业私有部署

AI21 正式发布开源模型Jamba 1.6 系列，专为企业私有部署设计，兼具卓越性能和数据安全性。模型地址：https://huggingface.co/collections/ai21labs...

大语言模型 # AI21 # Jamba 1.6 # 大语言模型

1年前

05350

苹果推出基于最优传输理论的通用框架ACT：用于控制大型生成模型的生成过程

大型生成模型（如大语言模型LLMs和文本到图像扩散模型T2Is）的能力不断增强，但其日益广泛的部署也引发了对可靠性和安全性的担忧。为了解决这些问题，研究人员提出了通过引导模型激活来控制模型生成的方法...

新技术 # ACT # 大语言模型 # 文生图模型

1年前

05070

一站式大语言模型平台AnyChat，为开发者提供灵活性

AnyChat是一款新工具，旨在通过将多个领先的大语言模型（LLMs）统一在一个界面下，为开发者提供前所未有的灵活性。这款工具由AI社区的知名人物、Gradio的机器学习增长负责人Ahsen Khal...

工具 # AnyChat # 大语言模型

1年前

04810

结合了大语言模型与文生图模型的新框架SGEdit：用于基于场景图的精确和灵活的图像编辑

场景图提供了一种结构化、层次化的图像表示方式，其中节点和边分别代表图像中的对象及其相互关系。这种方式不仅能够帮助用户更直观地理解图像内容，还能作为图像编辑的有效接口，极大提升了编辑工作的准确性和灵活性...

新技术 # SGEdit # 图像编辑 # 大语言模型

1年前

04680

强化学习新范式OREAL：基于结果奖励的强化学习（RL）提升大语言模型在数学推理任务中的表现

上海AI实验室、上海交通大学、香港中文大学和InnoHK的研究人员提出基于结果奖励的强化学习新范式OREAL，通过基于结果奖励的强化学习（RL）提升大语言模型（LLMs）在数学推理任务中的表现。该框架...

新技术 # OREAL # 大语言模型 # 强化学习

1年前

04400

基于扩散模型的大语言模型LLaDA：通过一个前向掩码过程和一个反向过程来建模，能够同时优化双向依赖关系，并通过似然下界优化来生成文本

中国人民大学和蚂蚁集团的研究人员推出新型大语言模型LLaDA，基于扩散模型（Diffusion Model）从头开始训练，挑战了自回归模型（ARM）在大型语言模型中的主导地位。与传统的从左到右的生成方...

大语言模型 # LLaDA # 大语言模型 # 扩散模型

1年前

04170

LMCache：为大语言模型加速的新一代缓存系统

随着大语言模型（LLM）在各类应用场景中的广泛部署，如何提升推理效率、降低延迟、节省资源成为关键挑战。近日，开源项目 LMCache 正式亮相，它是一个专为 LLM 服务优化的高性能缓存引擎，显著降低...

新技术 # LMCache # 大语言模型 # 缓存

9个月前

03740

Allen人工智能研究所推出OLMoTrace：让大语言模型透明化，追溯AI决策的真实来源

在企业AI应用中，大语言模型（LLM）的“黑盒”特性一直是阻碍其大规模采用的主要障碍之一。如何理解模型输出的来源、提升透明度并增强信任，成为行业亟需解决的问题。本周，Allen人工智能研究所（Ai2...

新技术 # Ai2 # OLMoTrace # 大语言模型

12个月前

03590

加载更多