Anthropic发布AI安全性研究:链式推理(CoT)的忠实度评估Anthropic最近发布了一篇关于推理模型的链式推理(CoT)忠实度的研究论文。这项研究深入探讨了CoT在AI安全中的应用,尤其是其在监控模型意图和推理过程中的有效性。 研究背景 CoT的重要性 链...新技术# Anthropic# CoT# 思维链9个月前03100
首个针对 GPT-4o 图像生成能力进行定量和定性评估的基准测试GPT-ImgEval北京大学深圳研究生院、中山大学、Rabbitpre AI、上海人工智能实验室、深圳大学和香港科技大学(广州)的研究人员发布首个针对 GPT-4o 图像生成能力进行定量和定性评估的基准测试GPT-Img...新技术# GPT-4o# GPT-ImgEval9个月前06140
Any2Caption:通过将多样化的输入条件(如文本、图像、视频、人体姿态、相机运动等)转化为结构化的详细字幕,从而实现可控的视频生成快手和新加坡国立大学的研究人员推出新型框架 Any2Caption ,通过将多样化的输入条件(如文本、图像、视频、人体姿态、相机运动等)转化为结构化的详细字幕,从而实现可控的视频生成。这一框架的核心思...新技术# Any2Caption# 视频生成9个月前02770
字节跳动推出基于DiT模型的人类图像动画框架DreamActor-M1:实现整体性、表现力和鲁棒性的人类图像动画生成字节跳动推出一个基于DiT模型的人类图像动画框架DreamActor-M1,实现整体性(holistic)、表现力(expressive)和鲁棒性(robust)的人类图像动画生成。该框架通过混合引导...新技术# DiT模型# DreamActor-M1# 字节跳动10个月前02760
大语言模型真的具备推理能力吗?——RoR-Bench研究揭示真相随着大语言模型(LLMs)在各种任务上的表现越来越接近人类水平,人们开始质疑这些模型是否真的具备人类意义上的推理能力,还是仅仅是在重复训练过程中见过的解决方案。 论文:https://arxiv.or...新技术# 大语言模型# 推理能力10个月前02410
清华大学推出RIFLEx:解决视频扩散模型在生成更长视频时的时空连贯性问题清华大学的研究人员推出RIFLEx,解决视频扩散模型在生成更长视频时的时空连贯性问题。该方法通过调整位置编码中的内在频率,有效抑制重复内容的生成,同时保持运动一致性,无需额外训练或修改模型。 项目主页...新技术# RIFLEx# 清华大学# 视频扩散模型10个月前03860
最优步长蒸馏(OSS):通过优化采样步长来加速扩散模型的生成过程,同时保持生成质量扩散模型是一种强大的生成模型,能够生成高质量的图像、视频等内容。然而,传统的扩散模型在采样过程中需要大量的步骤来逐步去除噪声并生成最终结果,这使得采样过程计算成本高昂。例如,在生成一张高质量的图像时...新技术# OSS# 扩散模型# 最优步长蒸馏10个月前04020
MineStudio:用于简化《我的世界(Minecraft)》中AI代理开发的开源软件包北京大学和加州大学洛杉矶分校的研究人员推出MineStudio,这是一个用于简化《我的世界(Minecraft)》中AI代理开发的开源软件包。它通过整合七个关键工程组件(模拟器、数据、模型、离线预训练...新技术# MineStudio# 我的世界10个月前04100
WikiAutoGen:用于自动化生成多模态维基百科风格文章的系统阿卜杜拉国王科技大学、兰州大学、悉尼大学的研究人员推出WikiAutoGen,这是一个用于自动化生成多模态维基百科风格文章的系统。它通过整合文本和图像信息,生成高质量、多模态的维基百科风格文章,同时引...新技术# WikiAutoGen# 多模态# 维基百科10个月前04020
Diffusion-4K:利用潜在扩散模型(如SD3、Flux)进行超高清(4K)图像生成北京航空航天大学和美团的研究人员推出 Diffusion-4K,即利用潜在扩散模型(Latent Diffusion Models)进行超高清(4K)图像合成。该研究的核心目标是直接生成高质量的4K图...新技术# Diffusion-4K# FLUX# SD310个月前05290
FilmComposer:利用大语言模型驱动的方法为无声电影片段生成音乐上海大学和上海电影特效工程技术研究中心的研究人员推出 FilmComposer,利用大语言模型(LLM)驱动的方法为无声电影片段生成音乐。FilmComposer 旨在模拟专业音乐家的实际工作流程,结...新技术# FilmComposer# 大语言模型# 音乐10个月前04600
Video-T1:视频生成任务中引入测试时扩展(TTS)技术,以提升生成视频的质量和与文本提示的一致性清华大学和腾讯的研究人员推出 Video-T1,在视频生成任务中引入测试时扩展(Test-Time Scaling, TTS)技术,以提升生成视频的质量和与文本提示的一致性。通过在推理阶段增加计算资源...新技术# TTS# Video-T1# 测试时扩展10个月前03360