新型实时端到端目标检测系统YOLOv10:快速地识别图像中的多个对象,并且告诉用户这些对象的具体位置
清华大学的研究人员推出新型实时端到端目标检测系统YOLOv10,目标检测是计算机视觉...
谷歌推出CamViG:控制视频生成过程中的相机视角,从而生成具有精确相机运动的视频
Google Research推出CamViG(Camera Aware Image-to-Video Generation),它能够根...
新型图像生成模型Diffusion Mamba(DiM):通过结合Mamba序列模型的效率和扩散模型的表现力,来高效生成高分辨率的图像
来自香港大学、华为诺亚方舟实验室、清华大学和上海交通大学的研究人员推出新型图...
索尼推出音频-视觉生成模型Visual Echoes:根据一张图片生成与之相对应的音频,或者反过来,根据一段音频生成匹配的图片
索尼推出新型音频-视觉生成模型Visual Echoes,这个模型能够根据一张图片生成与之...
无需训练的个性化定制RectifID:根据用户提供的参考图像定制化地生成新图像,同时保留原始图像中的身份特征
来自北京大学、快手、电子科技大学和浙江大学的研究人员推出新型图像生成技术Recti...
基于图像条件的扩散模型Semantica:根据给定的条件图像(即输入图像)的语义信息生成新的图像
Google Deepmind推出新型图像生成模型Semantica,Semantica的核心特点是它能够在不...