Perplexity 想要收集用户的所有在线行为数据,以实现“超个性化”广告Perplexity,这家 AI搜索引擎公司,似乎并不满足于仅仅与谷歌竞争。它正在效仿谷歌的做法——通过构建自己的浏览器来追踪用户的在线行为数据,从而实现“超个性化”广告的目标。 为什么 Perple...早报# Perplexity# 广告8个月前04040
ObjectMate:能够在无需微调的情况下,实现对象插入和主题驱动的图像生成对象插入和主体驱动生成是计算机视觉中的两个重要任务,旨在将给定的对象合成到由图像或文本指定的场景中。具体来说: 对象插入:将一个对象无缝地插入到目标场景中,要求合成后的图像在姿态、光照等方面看起来逼真...新技术# ObjectMate# 图像编辑1年前04040
基于扩散模型的图像处理系统PromptFix:能够根据人类的指令执行各种图像处理任务,如上色、提升照片亮度、去除水印、抠图、去雾和去模糊等扩散模型结合语言模型在图像生成任务中展现了卓越的可控性,能够根据人类指令进行图像处理。然而,由于缺乏多样化的指令遵循数据,模型在识别和执行用户定制指令方面仍面临挑战,尤其是在低级任务中。此外,扩散过程...新技术# PromptFix# 图像处理# 扩散模型1年前04040
用于生成同步语音体态手势视频的框架 TANGO:把新的语音和已有的视频动作结合起来,生成高保真的、与语音同步的身体手势视频东京大学和CyberAgent 人工智能实验室的研究人员推出了一个用于生成同步语音体态手势视频的框架 TANGO,它可以从一个几分钟长的参考视频(里面有一个说话者的身体动作)和目标语音音频出发,生...新技术# TANGO# 同步语音体态手势1年前04030
新型视频生成框架VideoGuide:改善视频生成模型在时间连续性方面的性能,同时保持甚至提高生成视频的图像质量韩国科学技术研究院推出新型框架VideoGuide,它能够改善视频生成模型在时间连续性方面的性能,同时保持甚至提高生成视频的图像质量。这就意味着,使用VideoGuide,可以让现有的视频生成模型在不...新技术# VideoGuide# 视频生成框架1年前04010
YouTube 集中发布多领域新工具:覆盖音乐、创作者变现、播客与直播,AI 成核心驱动力在纽约举行的“Made on YouTube”年度活动上,YouTube 宣布了一系列面向创作者、艺术家和播客的新功能。这些更新覆盖 AI 内容生成、直播体验升级、粉丝互动增强、品牌合作灵活性提升以及...早报# YouTube# YouTube Music3个月前04000
用于长视频生成的双速学习系统SLOWFAST-VGEN:模仿了人类大脑中慢速学习和快速学习相结合的互补学习系统人类拥有一个独特的学习系统,它既能从普遍的世界规律中缓慢学习,也能迅速地将新的经历转化为情景记忆。这种能力使我们在面对新情况时能灵活应对,同时保持对已知世界的深刻理解。然而,现有的视频生成技术大多聚焦...新技术# SLOWFAST-VGEN# 长视频生成1年前04000
Grok 即将推出“任务(Tasks)”功能,支持自动化定期执行xAI 正在为旗下 AI 模型 Grok 开发一项名为“任务”(Tasks)的新功能。这项功能预计将在 Grok 的下一次模型更新前正式上线,并为用户带来更强大的自动化能力。与 ChatGPT 的自定...早报# Grok# 任务7个月前03970
浙江大学发布“浙大先生”,可使用满血版DeepSeek V3和R1模型浙江大学于2月14日正式发布了深度融合智能体“浙大先生”(chat.zju.edu.cn)。该平台本地化部署了DeepSeek V3和R1模型,并基于CARSI资源共享平台,全面覆盖教学、科研和生活等...早报# Deepseek V3# DeepSeek-R1# 浙大先生10个月前03970
Autodesk推出新型3D生成模型WaLa:基于多种输入条件(如文本描述、图像、点云等)生成参数化的3D CAD模型Autodesk推出新型3D生成模型“Wavelet Latent Diffusion (WaLa)”,它能够基于多种输入条件(如文本描述、图像、点云等)生成参数化的3D CAD模型。WaLa模型的核...新技术# 3D生成模型# Autodesk# WaLa1年前03970
新型视频分词器LARP:专为自回归(AR)生成模型设计,用于提高视频生成任务的性能马里兰大学学院公园分校的研究人员提出了一种名为LARP(Latent Aggregation and Refinement for Perception)的新型视频分词器,它专为自回归(AR)生成模型...新技术# LARP# 视频分词器# 视频生成1年前03970
Gemini 3 或已就位!谷歌开发中的新一代 AI 大模型曝光在当前大模型竞赛愈演愈烈的背景下,谷歌正在推进其旗舰模型 Gemini 的新一代迭代——Gemini 3.0。尽管官方尚未正式公布,但近期在开源项目 Gemini CLI 工具 的代码中,出现了多个关...百科# Gemini 3.0# Google DeepMind# 谷歌5个月前03960