新技术

百科工具模型 ComfyUI AI合集 web UI 提示词

教程新技术硬件科普早报

排序

发布更新浏览点赞

谷歌研究团队推出专为移动设备打造的文生图模型MobileDiffusion

谷歌的研究团队推出了新的文生图模型MobileDiffusion，它能够在手机上几乎瞬间（亚秒级）生成高质量的图片。该模型在架构和采样技术方面进行广泛优化，在iPhone 15 Pro上，Mobile...

新技术 # MobileDiffusion # 安卓 # 扩散模型

2年前

07900

全新生成模型StableIdentity：只需一张人脸照片，快速生成不同风格的人物照片、视频

来自大连理工大学、ZMO AI的研究人员提出了一种全新的图像、视频和3D定制生成模型StableIdentity，它能够将任何人的面部特征稳定地融入到各种不同的场景中。这项技术的核心在于，它能够通过一...

新技术 # StableIdentity # 生成模型

2年前

07900

视频驱动人脸识别动画系统LivePortrait：将静态的肖像照片生动地动画化，同时保持高效和精确的控制能力

快手科技、中国科学技术大学和复旦大学的研究人员推出视频驱动人脸识别动画系统LivePortrait，它能够将静态的肖像照片生动地动画化，同时保持高效和精确的控制能力。例如，你有一张其他人物照片，Liv...

新技术 # LivePortrait

2年前

07880

图像高清修复技术SUPIR：将低质量图像提升到高质量水平

来自中国科学院深圳先进技术学院、上海AI实验室、悉尼大学、香港理工大学、，腾讯PCG ARC实验室、香港中文大学的研究人员推出图像高清修复技术SUPIR（Scaling-UP Image Restor...

新技术 # SUPIR # 高清修复

2年前

07880

图像超分辨率技术StableSR：将低分辨率的图像转换为高分辨率的图像

StableSR是来自南洋理工大学S实验室的研究人员开发的图像超分辨率技术，它可以将低分辨率的图像转换为高分辨率的图像。简单来说，这项技术可以让你看到的图片变得更加清晰和详细。我们可以用一个生活中的...

新技术 # StableSR # 超分辨率

2年前

07880

CAD-MLLM：实现一个统一的计算机辅助设计（CAD）模型生成系统

上海科技大学、忆生科技、深度求索（DeepSeek-AI）和香港大学的研究人员推出一个名为“CAD-MLLM”的系统，它旨在实现一个统一的计算机辅助设计（CAD）模型生成系统。该系统能够根据用户的多种...

新技术 # CAD # CAD-MLLM

1年前

07860

针对姿势引导的人像图像动画技术TCAN：让图片中的人物根据某个动作序列（比如一个视频）来做出相应的动作

韩国科学技术院和Naver的研究人员推出一种针对姿势引导的人像图像动画技术TCAN，该技术能有效抵抗姿态估计错误，并在时间维度上保持连贯。这是一个关于如何让静态图片中的人体动作起来的研究，具体来说，就...

新技术 # TCAN # 人像图像动画

2年前

07860

步态感知偏好优化SPO：改进SD模型的训练过程，使其生成的图像更符合人类的审美偏好

来自澳大利亚国立大学、利物浦大学、东南大学和微软亚洲研究院的研究人员推出新技术Step-aware Preference Optimization（SPO，步态感知偏好优化），用于改进文本到图像的扩散...

新技术 # SD模型 # SPO # 步态感知偏好优化

2年前

07850

合成语言-视觉数据集StableSemantics：专注于自然图像中的语义表示

卡内基·梅隆大学的研究人员推出合成语言-视觉数据集StableSemantics，它专注于自然图像中的语义表示。简单来说，这个数据集旨在帮助计算机视觉系统更好地理解图像中的场景和对象的语义含义。它涵盖...

新技术 # StableSemantics # 合成语言-视觉数据集

2年前

07830

BroadWay：提升文生视频模型的质量，而且不需要额外的训练

上海交通大学、中国科学技术大学、香港中文大学和上海人工智能实验室的研究人员推出为BroadWay，它能够提升文生视频模型的质量，而且不需要额外的训练。这就像是给视频生成模型安装了一个“涡轮增压器”，让...

新技术 # BroadWay # 文生视频模型

1年前

07800

适用于 DiTs 模型的快速后训练向量量化方法 VQ4DiT：能够在各种资源受限的环境中高效运行，同时保持生成图像的质量。

浙江大学和vivo的研究人员推出一种适用于 DiTs 的快速后训练向量量化方法 VQ4DiT，它是一种针对扩散变换器模型（Diffusion Transformers，简称DiTs）的高效后训练矢量化...

新技术 # DiTs 模型 # VQ4DiT

2年前

07780

用“Megakernel”打破LLM推理瓶颈：斯坦福Hazy Research实现Llama-1B史上最低延迟

在一些对响应速度极为敏感的应用场景中，例如对话式 AI 或人机协同的工作流系统，语言模型的推理延迟不仅影响效率，更直接影响用户体验。以 Llama-3.2-1B 这类小型开源模型为例，在单序列生成任...

新技术 # Llama-1B # Megakernel

10个月前

07720

加载更多

谷歌研究团队推出专为移动设备打造的文生图模型MobileDiffusion

全新生成模型StableIdentity：只需一张人脸照片，快速生成不同风格的人物照片、视频

视频驱动人脸识别动画系统LivePortrait：将静态的肖像照片生动地动画化，同时保持高效和精确的控制能力

图像高清修复技术SUPIR：将低质量图像提升到高质量水平

图像超分辨率技术StableSR：将低分辨率的图像转换为高分辨率的图像

CAD-MLLM：实现一个统一的计算机辅助设计（CAD）模型生成系统

针对姿势引导的人像图像动画技术TCAN：让图片中的人物根据某个动作序列（比如一个视频）来做出相应的动作

步态感知偏好优化SPO：改进SD模型的训练过程，使其生成的图像更符合人类的审美偏好

合成语言-视觉数据集StableSemantics：专注于自然图像中的语义表示

BroadWay：提升文生视频模型的质量，而且不需要额外的训练

适用于 DiTs 模型的快速后训练向量量化方法 VQ4DiT：能够在各种资源受限的环境中高效运行，同时保持生成图像的质量。

用“Megakernel”打破LLM推理瓶颈：斯坦福Hazy Research实现Llama-1B史上最低延迟

S.H.I.T

ArkClaw

Joker of Academics（小丑学术期刊）

新360 安全龙虾

waoo

ITELLOU

新技术

网址

S.H.I.T

ArkClaw

Joker of Academics（小丑学术期刊 ）

新360 安全龙虾

waoo

ITELLOU

Joker of Academics（小丑学术期刊）