新技术

百科工具模型 ComfyUI AI合集 web UI 提示词

教程新技术硬件科普早报

排序

发布更新浏览点赞

基于物理的交互式3D对象动态生成方法PhysDreamer：利用视频生成技术实现与3D物体进行物理交互

来自麻省理工学院、斯坦福大学、哥伦比亚大学和康奈尔大学的研究人员推出PhysDreamer系统，这是一个基于物理的交互式3D对象动态生成方法。PhysDreamer能够使静态的3D对象通过视频生成模...

新技术 # 3D对象 # PhysDreamer

2年前

04820

多模态大语言模型Groma：具备精细化和定位化的视觉感知能力

来自香港大学和字节跳动的研究人员推出多模态大语言模型Groma，它具备精细化和定位化的视觉感知能力。Groma不仅能够理解整个图像的内容，还能处理区域级别的任务，比如区域字幕（region capti...

新技术 # Groma # 多模态大语言模型

2年前

06560

微软亚洲研究院推出新框架VASA-1：基于一张静态图片和一个语音音频片段，实时生成逼真的会说话的面孔

微软亚洲研究院推出新框架VASA-1，它可以根据单张静态图像和语音音频片段，生成具有吸引力的视觉情感技能（VAS）的虚拟角色栩栩如生的说话面孔。这个技术的核心在于它能够精确地捕捉到人脸的微妙动态和头部...

新技术 # VASA-1

2年前

04940

AniClipart：根据文本提示将静态的剪贴画转换成动画

香港城市大学和莫纳什大学的研究人员推出AniClipart，它能够根据文本提示将静态的剪贴画（clipart）转换成动画。剪贴画是一种预先制作的图形艺术形式，通常用于快速增强视觉内容。传统的剪贴画动画...

新技术 # AniClipart

2年前

05990

动态排版Dynamic Typography：将文字通过动画效果生动呈现的技术

来自香港科技大学和特拉维夫大学的研究人员推出Dynamic Typography（动态排版），它是一种将文字通过动画效果生动呈现的技术。简单来说，就是让文字动起来，通过变形和运动来表达文字的含义，从而...

新技术 # Dynamic Typography # 动态排版

2年前

06200

EdgeFusion：能够在资源受限的移动设备上快速生成与文本描述相匹配的高质量图像

来自韩国Nota AI和三星电子的研究人员推出EdgeFusion，它能够在资源受限的移动设备上快速生成与文本描述相匹配的高质量图像。这项技术的核心是优化了文生图模型Stable Diffusion...

新技术 # EdgeFusion # LCM # 文生图模型

2年前

06960

3D重建模型MeshLRM：基于LRM的方法，能够从极少量的输入图像（仅需四张）快速重建出高质量的3D网格模型

来自加州大学圣地亚哥分校和Adobe的研究人员推出大型3D重建模型MeshLRM，这是一种新颖的基于LRM的方法，它能在不到一秒的时间内，能够从极少量的输入图像（仅需四张）快速重建出高质量的3D网...

新技术 # 3D重建模型 # MeshLRM

2年前

05760

新型文本到音频生成模型Tango 2：提高音频生成的质量和与文本的匹配度

新加坡科技设计大学和密歇根大学的研究人员推出新型文本到音频生成模型Tango 2，它通过直接偏好优化（Direct Preference Optimization, DPO）来提高音频生成的质量和与文...

新技术 # Tango 2 # 文本到音频生成模型

2年前

06310

基于指令的高质量图像编辑数据集HQ-Edit

加州大学圣克鲁斯分校的研究人员推出高质量数据集HQ-Edit，它专门用于基于指令的图像编辑任务。例如，你有一张图片，想要根据某些具体的指令来修改它，比如改变背景、调整物体的颜色或者添加一些新元素。HQ...

新技术 # HQ-Edit # 图像编辑数据集

2年前

09590

Video2Game：自动将现实世界的视频转化为真实且具备交互性的游戏环境

来自伊利诺伊大学厄巴纳-香槟分校、上海交通大学和康奈尔大学的研究人员推出Video2Game，它可以将任何真实世界的视频转换成一个实时、互动、真实感强且与浏览器兼容的游戏环境。例如，你有一段拍摄街道的...

新技术 # Video2Game # 游戏

2年前

06730

字节跳动推出数据集COCONut，专门针对图像分割任务

字节跳动推出数据集COCONut，它是对现有的COCO数据集的现代化升级，专门针对图像分割任务。图像分割是计算机视觉中的一个核心问题，它的目标是将图像中的每个像素正确地分类到不同的实例或类别中，此数据...

新技术 # COCONut # 图像分割 # 字节跳动

2年前

06850

Scaling (Down) CLIP：从数据、架构和训练策略三个维度对CLIP进行了详细探究

来自加州大学圣克鲁斯分校和Google Deepmind的研究人员发布论文探讨如何有效地缩减对比语言-图像预训练（CLIP）模型的规模，以适应计算资源有限的情况。研究团队从数据、架构和训练策略三个维度...

新技术 # CLIP模型

2年前

05670

加载更多