新技术

百科工具模型 ComfyUI AI合集 web UI 提示词

教程新技术硬件科普早报

排序

发布更新浏览点赞

通过推理计算来提高通用奖励建模（RM）的推理时间可扩展性

强化学习（RL）在大语言模型（LLM）的后续训练中已被广泛应用，尤其是在提升模型的推理能力方面。然而，如何在各种领域中为LLM获得准确的奖励信号，仍然是一个关键挑战。论文：https://arxiv...

10个月前

03090

Anthropic发布AI安全性研究：链式推理（CoT）的忠实度评估

Anthropic最近发布了一篇关于推理模型的链式推理（CoT）忠实度的研究论文。这项研究深入探讨了CoT在AI安全中的应用，尤其是其在监控模型意图和推理过程中的有效性。研究背景 CoT的重要性链...

新技术 # Anthropic # CoT # 思维链

10个月前

03170

首个针对 GPT-4o 图像生成能力进行定量和定性评估的基准测试GPT-ImgEval

北京大学深圳研究生院、中山大学、Rabbitpre AI、上海人工智能实验室、深圳大学和香港科技大学（广州）的研究人员发布首个针对 GPT-4o 图像生成能力进行定量和定性评估的基准测试GPT-Img...

新技术 # GPT-4o # GPT-ImgEval

10个月前

06470

Any2Caption：通过将多样化的输入条件（如文本、图像、视频、人体姿态、相机运动等）转化为结构化的详细字幕，从而实现可控的视频生成

快手和新加坡国立大学的研究人员推出新型框架 Any2Caption ，通过将多样化的输入条件（如文本、图像、视频、人体姿态、相机运动等）转化为结构化的详细字幕，从而实现可控的视频生成。这一框架的核心思...

新技术 # Any2Caption # 视频生成

10个月前

02830

字节跳动推出基于DiT模型的人类图像动画框架DreamActor-M1：实现整体性、表现力和鲁棒性的人类图像动画生成

字节跳动推出一个基于DiT模型的人类图像动画框架DreamActor-M1，实现整体性（holistic）、表现力（expressive）和鲁棒性（robust）的人类图像动画生成。该框架通过混合引导...

新技术 # DiT模型 # DreamActor-M1 # 字节跳动

10个月前

02770

大语言模型真的具备推理能力吗？——RoR-Bench研究揭示真相

随着大语言模型（LLMs）在各种任务上的表现越来越接近人类水平，人们开始质疑这些模型是否真的具备人类意义上的推理能力，还是仅仅是在重复训练过程中见过的解决方案。论文：https://arxiv.or...

新技术 # 大语言模型 # 推理能力

10个月前

02440

清华大学推出RIFLEx：解决视频扩散模型在生成更长视频时的时空连贯性问题

清华大学的研究人员推出RIFLEx，解决视频扩散模型在生成更长视频时的时空连贯性问题。该方法通过调整位置编码中的内在频率，有效抑制重复内容的生成，同时保持运动一致性，无需额外训练或修改模型。项目主页...

新技术 # RIFLEx # 清华大学 # 视频扩散模型

10个月前

04130

最优步长蒸馏（OSS）：通过优化采样步长来加速扩散模型的生成过程，同时保持生成质量

扩散模型是一种强大的生成模型，能够生成高质量的图像、视频等内容。然而，传统的扩散模型在采样过程中需要大量的步骤来逐步去除噪声并生成最终结果，这使得采样过程计算成本高昂。例如，在生成一张高质量的图像时...

新技术 # OSS # 扩散模型 # 最优步长蒸馏

10个月前

04120

MineStudio：用于简化《我的世界（Minecraft）》中AI代理开发的开源软件包

北京大学和加州大学洛杉矶分校的研究人员推出MineStudio，这是一个用于简化《我的世界（Minecraft）》中AI代理开发的开源软件包。它通过整合七个关键工程组件（模拟器、数据、模型、离线预训练...

新技术 # MineStudio # 我的世界

10个月前

04290

WikiAutoGen：用于自动化生成多模态维基百科风格文章的系统

阿卜杜拉国王科技大学、兰州大学、悉尼大学的研究人员推出WikiAutoGen，这是一个用于自动化生成多模态维基百科风格文章的系统。它通过整合文本和图像信息，生成高质量、多模态的维基百科风格文章，同时引...

新技术 # WikiAutoGen # 多模态 # 维基百科

10个月前

04210

Diffusion-4K：利用潜在扩散模型（如SD3、Flux）进行超高清（4K）图像生成

北京航空航天大学和美团的研究人员推出 Diffusion-4K，即利用潜在扩散模型（Latent Diffusion Models）进行超高清（4K）图像合成。该研究的核心目标是直接生成高质量的4K图...

新技术 # Diffusion-4K # FLUX # SD3

10个月前

05450

FilmComposer：利用大语言模型驱动的方法为无声电影片段生成音乐

上海大学和上海电影特效工程技术研究中心的研究人员推出 FilmComposer，利用大语言模型（LLM）驱动的方法为无声电影片段生成音乐。FilmComposer 旨在模拟专业音乐家的实际工作流程，结...

新技术 # FilmComposer # 大语言模型 # 音乐

10个月前

04820

加载更多

通过推理计算来提高通用奖励建模（RM）的推理时间可扩展性

Anthropic发布AI安全性研究：链式推理（CoT）的忠实度评估

首个针对 GPT-4o 图像生成能力进行定量和定性评估的基准测试GPT-ImgEval

Any2Caption：通过将多样化的输入条件（如文本、图像、视频、人体姿态、相机运动等）转化为结构化的详细字幕，从而实现可控的视频生成

字节跳动推出基于DiT模型的人类图像动画框架DreamActor-M1：实现整体性、表现力和鲁棒性的人类图像动画生成

大语言模型真的具备推理能力吗？——RoR-Bench研究揭示真相

清华大学推出RIFLEx：解决视频扩散模型在生成更长视频时的时空连贯性问题

最优步长蒸馏（OSS）：通过优化采样步长来加速扩散模型的生成过程，同时保持生成质量

MineStudio：用于简化《我的世界（Minecraft）》中AI代理开发的开源软件包

WikiAutoGen：用于自动化生成多模态维基百科风格文章的系统

Diffusion-4K：利用潜在扩散模型（如SD3、Flux）进行超高清（4K）图像生成

FilmComposer：利用大语言模型驱动的方法为无声电影片段生成音乐

新QoderWork

OpenClaw（Clawdbot/Moltbot）

Situation Monitor

Skills.sh

中国科技云数据胶囊

Fogsight (雾象)

新技术

网址

新QoderWork

OpenClaw（Clawdbot/Moltbot）

Situation Monitor

Skills.sh

中国科技云数据胶囊

Fogsight (雾象)