苹果提出了新的文生图模型架构DiT-Air和DiT-Air-Lite:提高模型的参数效率和生成性能苹果提出了新的文生图模型架构DiT-Air和DiT-Air-Lite,旨在提高模型的参数效率和生成性能。其论文主要研究了扩散模型(Diffusion Models)在文本到图像生成任务中的架构设计、文...新技术# DiT-Air# DiT-Air-Lite# 文生图模型9个月前05440
xAI已推出图像生成API,每张图像的定价为0.07美元埃隆·马斯克旗下AI公司xAI宣布为其API增加了图像生成功能,正式进军图像生成领域。xAI的图像生成API目前提供了一种名为“grok-2-image-1212”的模型。用户只需提供一个标题,该模型...早报# xAI# 图像生成9个月前02820
Udio推出 v1.5 Allegro模型,体验更快更高质量的音乐创作体验Udio近期推出了v1.5 Allegro模型,这一更新为音乐创作者带来了显著的效率提升和更高质量的作品输出。v1.5 Allegro模型并不是一个全新的代次,而是基于原有v1.5模型的优化版本。它通...早报# Udio# v1.5 Allegro9个月前02570
Impossible Videos:通过创建和评估“不可能视频”来挑战和推进视频理解和生成模型的能力新加坡国立大学的研究人员推出Impossible Videos项目,即“不可能视频”。这项研究旨在通过创建和评估“不可能视频”来挑战和推进视频理解和生成模型的能力。不可能视频是指那些在现实世界中不可能...新技术# AI视频# Impossible Videos# 不可能视频9个月前03570
DeepPerception:通过结合知识和推理能力,提升多模态大语言模型在细粒度视觉识别任务中的表现澳门大学、清华大学、西北工业大学和山东大学的研究人员推出DeepPerception,在多模态大语言模型(MLLMs)中推进类似R1的认知视觉感知,用于知识密集型视觉定位。这项研究旨在通过结合知识和推...新技术# DeepPerception# 多模态大语言模型9个月前02400
如何在保持计算效率的同时,将原始文生图模型的多样性和控制能力转移到高效的蒸馏模型中美国东北大学的研究人员发布论文《Distilling Diversity and Control in Diffusion Models》,探讨了如何在保持计算效率的同时,将原始扩散模型的多样性和控制...新技术# 文生图模型# 蒸馏模型9个月前03210
美国联邦上诉法院:AI生成艺术作品无法获得版权保护路透社报道,美国华盛顿特区的一家联邦上诉法院在周二做出了裁决,根据美国法律,完全由人工智能(AI)生成且无人参与的艺术作品,将无法获得版权保护。这一判决引发了广泛关注,因为它涉及到一个在当今数字时代愈...早报# AI# 版权9个月前01940
基于DiT架构模型无训练框架Personalize Anything:能够在不进行任何训练或微调的情况下,实现高质量的个性化图像生成清华深圳国际研究生院、北京航空航天大学软件学院、中国人民大学财政金融学院和清华大学自动化系的研究人员推出无训练(training-free)框架Personalize Anything,能够在不进行任...新技术# DiT架构# FLUX模型# Personalize Anything9个月前02380
韩国科学技术研究院推出专门针对文生图模型的新型数据投毒攻击方法Silent Branding Attack韩国科学技术研究院和DeepAuto.ai的研究人员推出一种新型数据投毒攻击方法Silent Branding Attack ,专门针对文生图模型。该方法能够在文生图模型中隐秘地嵌入特定品牌标志或符号...新技术# Silent Branding Attack# 文生图模型# 韩国科学技术研究院9个月前03970
Operative Games 推出 AI 驱动的互动叙事平台,开启个性化故事体验Operative Games,一家专注于 AI 驱动互动叙事的公司,于近日正式亮相并获得了来自 1AM Gaming、三星 Next 和 LongJourney.vc 等知名投资者的支持。该公司致力...早报# Operative Games# StoryEngine# 互动叙事9个月前01860
Adobe 推出 AI 代理Agent Orchestrator,为企业打造个性化客户体验Adobe 正在通过其 Adobe Experience Platform(AEP)推出一系列 AI 代理和工具,以帮助企业为客户提供更加个性化和高效的体验。这些新功能不仅展示了 Adobe 在生成式...早报# Adobe# Agent Orchestrator9个月前01860
谷歌为 Gemini 推出“画布(Canvas)”及“音频概览(Audio Overview)”功能,提升 AI 生产力谷歌正在将其 AI 驱动的 Gemini 聊天机器人打造成一个全面的生产力工具。周二,谷歌为 Gemini 添加了两项新功能:“画布”(Canvas)和音频概览(Audio Overview),进一步...早报# Audio Overview# canvas# 画布9个月前02130