新技术

百科工具模型 ComfyUI AI合集 web UI 提示词

教程新技术硬件科普早报

排序

发布更新浏览点赞

LayerDiffusion：可生成高质量的透明图像和图层

Controlnet、Fooocus、Stable Diffusion WebUI Forge的开发者lllyasviel推出新的项目LayerDiffusion，它允许大规模预训练的潜在扩散模型（如...

新技术 # LayerDiffusion # 图层 # 透明图像

2年前

07270

Binary Opacity Grids：从多视角图像重建三角网格，生成高质量的视图合成

来自的谷歌的研究人员推出名为“Binary Opacity Grids”的新方法，它用于从多视角图像重建三角网格，并能够捕捉到精细的几何细节，如叶子、树枝和草地等。这种方法在保持低计算成本的同时，能够...

新技术 # 3D # Binary Opacity Grids

2年前

07260

新型框架Isotropic3D：根据单张参考图片的CLIP嵌入生成多视角一致且高质量的3D模型

来自复旦、清华、同济的研究人员推出新型框架Isotropic3D，它能够根据单张参考图片的CLIP嵌入（embedding）生成多视角一致且高质量的3D内容。CLIP嵌入是一种能够捕捉图像语义信息的技...

新技术 # 3D模型 # Isotropic3D

2年前

07240

新算法ViewFusion：解决在多视角图像生成一致性的问题

来自亚马逊、悉尼大学、阿德莱德大学的研究人员推出新算法ViewFusion，它旨在解决在多视角图像合成中保持一致性的挑战。这个算法可以与现有的预训练扩散模型无缝集成，用于生成高质量、多样化的图像。论...

新技术 # ViewFusion # 图像生成

2年前

07240

阿里推出AI视频生成模型I2VGen-XL

阿里旗下达摩院推出AI视频生成模型I2VGen-XL，可以根据用户输入的静态图像和文本生成目标接近、语义相同的视频，生成的视频具高清 (1280 * 720)、宽屏 (16:9)、时序连贯、质感好等特...

新技术 # AI视频 # I2VGen-XL # 阿里

2年前

07240

阿里推出新型大型多模态模型ConvLLaVA：专门设计用于处理高分辨率的视觉数据

清华大学和阿里巴巴的研究人员推出新型大型多模态模型ConvLLaVA，它专门设计用于处理高分辨率的视觉数据。多模态模型能够理解和处理多种类型的数据，比如文本、图像和视频，这使得它们在各种应用场景中都非...

新技术 # ConvLLaVA # 多模态模型 # 阿里巴巴

2年前

07200

新型图像匹配技术OmniGlue：首个以泛化为核心设计原则的可学习图像匹配器

德克萨斯大学奥斯汀分校和谷歌的研究人员推出新型图像匹配技术OmniGlue，这是首个以泛化为核心设计原则的可学习图像匹配器。OmniGlue利用来自视觉基础模型的广泛知识来指导特征匹配过程，从而增强了...

新技术 # OmniGlue # 谷歌

2年前

07200

FreeNoise：通过噪声调度实现无需调参的长视频生成

来自腾讯人工智能实验室、南洋理工大学、香港科技大学的研究人员提出了一种利用预训练的视频扩散模型生成高质量长视频的方法FreeNoise，它能够使模型在生成更长时间视频时保持内容的一致性，无需对模型进行...

新技术 # AI视频 # FreeNoise # 噪声

2年前

07200

新型SD模型压缩方法VQDM：通过向量量化技术，能够将大型的文本到图像扩散模型压缩到较低比特位表示，同时保持图像生成的高质量

Yandex 研究、HSE 大学、Skoltech、MIPT、Neural Magic和IST 奥地利的研究人员推出新型文本到图像扩散模型压缩方法VQDM，通过向量量化（Vector Quantiza...

新技术 # VQDM # 模型压缩

2年前

07190

新型图像编辑方法Guide-and-Rescale：能够在不破坏原始图像的基础上，对真实的照片进行各种编辑

俄罗斯高等经济大学、斯科尔科沃科学技术研究所和新南威尔士大学悉尼分校的研究人员推出新的图像编辑方法Guide-and-Rescale，此方法的核心是能够在不破坏原始图像的基础上，对真实的照片进行各种...

新技术 # Guide-and-Rescale # 图像编辑

2年前

07180

专门解读胸部X光片的图像模型CheXagent：帮助医生提高临床决策的效率和质量

来自斯坦福大学和Stability AI的研究人员推出了一个专门解读胸部X光片的图像模型CheXagent，这个模型的目的是帮助医生更准确地分析和理解X光片，从而提高临床决策的效率和质量。项目主页 ...

新技术 # CheXagent # Stability AI # X光片

2年前

07180

创新框架EMO：只需要提供一张静态照片和一段语音，就能生成口型匹配的视频

阿里巴巴推出创新框架EMO，它是一个能够根据音频生成表情丰富的肖像视频的系统。想象一下，你只需要提供一张静态的照片和一段语音，EMO就能创造出一个视频，视频中的人物头像会根据语音的内容和情感变化做出相...

新技术 # EMO # 口型匹配

2年前

07170

加载更多

LayerDiffusion：可生成高质量的透明图像和图层

Binary Opacity Grids：从多视角图像重建三角网格，生成高质量的视图合成

新型框架Isotropic3D：根据单张参考图片的CLIP嵌入生成多视角一致且高质量的3D模型

新算法ViewFusion：解决在多视角图像生成一致性的问题

阿里推出AI视频生成模型I2VGen-XL

阿里推出新型大型多模态模型ConvLLaVA：专门设计用于处理高分辨率的视觉数据

新型图像匹配技术OmniGlue：首个以泛化为核心设计原则的可学习图像匹配器

FreeNoise：通过噪声调度实现无需调参的长视频生成

新型SD模型压缩方法VQDM：通过向量量化技术，能够将大型的文本到图像扩散模型压缩到较低比特位表示，同时保持图像生成的高质量

新型图像编辑方法Guide-and-Rescale：能够在不破坏原始图像的基础上，对真实的照片进行各种编辑

专门解读胸部X光片的图像模型CheXagent：帮助医生提高临床决策的效率和质量

创新框架EMO：只需要提供一张静态照片和一段语音，就能生成口型匹配的视频

S.H.I.T

ITELLOU

新360 安全龙虾

Agent2Agent

RunningHub

DeckEdit

新技术

网址

S.H.I.T

ITELLOU

新360 安全龙虾

Agent2Agent

RunningHub

DeckEdit