多模态框架Tar:通过统一的离散语义表示将视觉理解和生成任务整合到一个共享空间中香港中文大学和字节跳动的研究人员推出多模态框架Tar,通过统一的离散语义表示将视觉理解和生成任务整合到一个共享空间中。该框架的核心是 Text-Aligned Tokenizer (TA-Tok),它...图像模型# Tar# 多模态框架6个月前02920
多模态框架FakeShield:通过多模态大语言模型评估图像的真实性,用于检测AI及PS图片生成式AI的快速发展为内容创作带来了巨大便利,但同时也使得图像篡改变得更加容易且难以检测。当前的图像伪造检测和定位(IFDL)方法虽然通常有效,但仍面临两大挑战: 黑箱性质:检测原理未知,难以理解和解...新技术# FakeShield# 多模态框架1年前05530
多模态框架MotionLLM:理解和解释人类行为,特别是通过分析人体动作和视频清华大学、香港中文大学(深圳)、国际数字经济学院和香港科技大学的研究人员推出人工智能系统MotionLLM,它的主要任务是理解和解释人类行为,特别是通过分析人体动作和视频。例如,你有一台智能相机,它不...新技术# MotionLLM# 多模态框架2年前01,0070