新技术

百科工具模型 ComfyUI AI合集 web UI 提示词

教程新技术硬件科普早报

排序

发布更新浏览点赞

AI音乐模型Stable Audio：结合文本提示和时间控制长音频生成

Stability AI发布AI音乐模型Stable Audio，它专注于从文本提示生成高质量、可变长度的立体声音乐和音效。这个模型特别适用于需要快速生成长形式音频内容的场景，如音乐制作、游戏音效设计...

新技术 # AI音乐 # Stability AI # Stable Audio

2年前

06120

专门解读胸部X光片的图像模型CheXagent：帮助医生提高临床决策的效率和质量

来自斯坦福大学和Stability AI的研究人员推出了一个专门解读胸部X光片的图像模型CheXagent，这个模型的目的是帮助医生更准确地分析和理解X光片，从而提高临床决策的效率和质量。项目主页 ...

新技术 # CheXagent # Stability AI # X光片

2年前

07180

阿里推出AI视频生成模型I2VGen-XL

阿里旗下达摩院推出AI视频生成模型I2VGen-XL，可以根据用户输入的静态图像和文本生成目标接近、语义相同的视频，生成的视频具高清 (1280 * 720)、宽屏 (16:9)、时序连贯、质感好等特...

新技术 # AI视频 # I2VGen-XL # 阿里

2年前

07240

AI视频生成新模型CONSISTI2V：通过增强视觉一致性来改善视频生成的质量

来自滑铁卢大学、Vector Institute、Harmony.AI、多模式艺术投影研究社区的研究人员提出了一种基于扩散的图像到视频生成新方法CONSISTI2V，它旨在通过增强视觉一致性来改善视频...

新技术 # AI视频生成 # CONSISTI2V

2年前

06860

英伟达开源ConsiStory：免训练保持角色和物品一致性的文生图方法

来自特拉维夫大学和英伟达的研究人员提出了一种创新方法ConsiStory，它允许用户通过自然语言描述生成一系列图像，这些图像不仅能够保持一致的主题，而且能够遵循文本提示。ConsiStory的核心目标...

新技术 # ConsiStory # 英伟达

1年前

06260

LoRA：为解决大语言模型微调而开发

微软的研究人员于2021年推出LoRA（Low-Rank Adaptation of Large Language Models，大语言模型的低阶适应），这是为解决大语言模型微调而开发的一项技术，用于...

新技术 # Lora # 大语言模型 # 微软

2年前

05980

文本反转Textual Inversion：通过少量的图像和自然语言描述来创建新的“伪词”来指导图像生成

使用文本到图像生成模型（Text-to-Image Models）来个性化地创造图像，这些模型能够根据自然语言描述生成图像，但通常难以精确地表达特定的独特概念。项目主页 GitHub 来自特拉维夫大...

新技术 # Textual Inversion # 文本反转 # 英伟达

2年前

06290

语音驱动人脸说话生成框架AVCT

来自网易伏羲AI实验室、悉尼科技大学的研究人员推出了从单人音频生成单人说话脸部的框架Audio-Visual Correlation Transformer (AVCT)，它能够从单个说话者的音频-视...

新技术 # AVCT

2年前

08280

字节跳动推出新颖视频合成方法Boximator：可控制画面范围及运动方向

字节跳动发布了一种新颖视频合成方法Boximator，主要用于生成具有丰富和精细运动控制的高质量视频。Boximator引入了两种约束类型：硬边框（hard box）和软边框（soft box），允许...

新技术 # Boximator # 字节跳动 # 视频合成

2年前

06120

文本嵌入模型nomic-embed-text-v1：完全开源可复现

Nomic AI发布文本嵌入模型nomic-embed-text-v1，这是一个开源的、可复现的、拥有8192个上下文长度的英文文本嵌入模型。这个模型在处理短文本和长文本任务上的表现超过了OpenAI...

新技术 # nomic-embed-text-v1 # 文本嵌入模型

2年前

05510

动态视频模型DynamiCrafter：为静态图片添加动画效果

来自香港中文大学、腾讯人工智能实验室、北京大学的研究人员推出动态视频模型DynamiCrafter，它是一个利用视频扩散模型（Video Diffusion Models）来为静态图片添加动画效果的工...

新技术 # DynamiCrafter # 视频模型

2年前

05780

3D内容生成框架DreamGaussian：提高基于图像和文本生成3D模型的效率和质量

来自南洋理工大学、百度和北京大学的研究人员推出3D内容生成框架DreamGaussian，专门设计用于提高基于优化方法创建三维（3D）模型的效率和质量。该框架旨在解决当前从图像或文本快速生成高质量3D...

新技术 # 3D内容生成框架 # DreamGaussian

2年前

05820

加载更多