新技术

百科工具模型 ComfyUI AI合集 web UI 提示词

教程新技术硬件科普早报

排序

发布更新浏览点赞

新型虚拟试穿技术FitDiT：专为优化DiT模型的虚拟试穿性能而设计

尽管基于图像的虚拟试穿技术已取得显著进展，但在生成高保真度和适应性强的拟合图像上仍面临诸多挑战。尤其在纹理感知维护和尺寸感知拟合等关键领域，现有方法往往难以达到理想效果，这限制了技术的整体实用性。为应...

新技术 # FitDiT # 虚拟试穿

1年前

03700

LMCache：为大语言模型加速的新一代缓存系统

随着大语言模型（LLM）在各类应用场景中的广泛部署，如何提升推理效率、降低延迟、节省资源成为关键挑战。近日，开源项目 LMCache 正式亮相，它是一个专为 LLM 服务优化的高性能缓存引擎，显著降低...

新技术 # LMCache # 大语言模型 # 缓存

9个月前

03690

腾讯开源用于加速形状生成的通用框架 FlashVDM：加速 Hunyuan3D 2.0 模型生成速度提升30 倍

腾讯推出一个通用的框架FlashVDM，用于加速形状生成向量集扩散模型（VDM），例如 Hunyuan3D-2、Michelangelo、CraftsMan3D、CLAY、TripoSG、Dora 等...

新技术 # FlashVDM # Hunyuan3D-2.0 # 腾讯

1年前

03680

字节推出CausalFusion：基于解码器的变换器，旨在统一自回归（AR）和扩散模型的生成范式

字节跳动介绍了一个名为CausalFusion的模型，它是一个基于解码器的变换器（decoder-only transformer），旨在统一自回归（AR）和扩散模型（diffusion models...

新技术 # CausalFusion

1年前

03680

FlowChef：利用矢量场动力学的统一受控图像生成框架

扩散模型（DMs）在照片真实感图像生成、图像编辑和逆问题解决方面取得了显著进展，这主要归功于无分类器引导和图像反演技术。然而，校正流模型（RFMs）在这类任务中的潜力尚未得到充分开发。现有的基于DM的...

新技术 # FlowChef # 图像生成框架

1年前

03680

MotiF：通过引导模型关注更多运动区域来改善文本对齐和运动生成

文本-图像到视频生成（TI2V）是一项旨在根据文本描述从静态图像生成动态视频的技术。尽管这一领域已经取得了一定进展，但现有方法在生成与文本提示良好对齐的视频时仍面临显著挑战，尤其是在指定运动细节方面...

新技术 # MotiF # 图生视频

1年前

03670

多视角视频生成新技术SynCamMaster：能够从不同的视点生成同步的、一致性高的动态场景视频

浙江大学、快手科技、清华大学和香港中文大学的研究人员推出一种用于多视角视频生成的技术SynCamMaster，能够从不同的视点生成同步的、一致性高的动态场景视频。这项技术特别适用于虚拟拍摄等应用，它通...

新技术 # SynCamMaster # 多视角视频

1年前

03670

Reducio-DiT：通过先进压缩技术提升视频生成效率

随着技术的进步，视频生成模型已经能够创造出令人惊叹的高质量视频片段。然而，这些模型在实际应用中面临着一些显著的障碍，主要集中在计算资源的需求上。目前市场上的领先模型，例如Sora、Runway Gen...

新技术 # Reducio-DiT # Reducio-VAE

1年前

03660

VLM-R3：增强多模态链式思考（CoT）的能力

北京大学国家软件工程工程研究中心、阿里巴巴和中科智库的研究人员推出VLM-R3的框架，增强多模态链式思考（CoT）的能力。VLM-R3通过动态和迭代地关注和重新访问图像区域，实现文本推理在视觉证据中的...

新技术 # VLM-R3 # 多模态推理

10个月前

03650

新型视频生成框架GS-DiT：通过伪4D高斯场实现对视频内容的精确4D控制

香港中文大学多媒体实验室、博智感知交互研究中心和Avolution AI的研究人员推出新型视频生成框架GS-DiT，旨在通过伪4D高斯场实现对视频内容的精确4D控制。GS-DiT通过构建伪4D高斯场并...

新技术 # GS-DiT # 视频生成

1年前

03650

Gemini 2.5 实现对话式图像分割，用语言精准“圈出”图像中的目标

AI在视觉理解领域正不断突破边界。从最初的物体检测，到像素级语义分割，再到开放词汇识别，AI 对图像的理解能力持续进化。如今，谷歌 Gemini 2.5 带来了一个更具交互性的能力——对话式图像分割...

新技术 # Gemini 2.5 # 图像分割

8个月前

03640

新型测试时扩展框架Evolutionary Search (EvoSearch) ：通过在推理阶段分配额外计算资源来提升图像和视频生成模型的性能

香港科技大学和快手的研究人员推出新型测试时扩展（Test-Time Scaling, TTS）框架Evolutionary Search (EvoSearch) ，通过在推理阶段分配额外计算资源来提升...

新技术 # Evolutionary Search # EvoSearch

10个月前

03640

加载更多

新型虚拟试穿技术FitDiT：专为优化DiT模型的虚拟试穿性能而设计

LMCache：为大语言模型加速的新一代缓存系统

腾讯开源用于加速形状生成的通用框架 FlashVDM：加速 Hunyuan3D 2.0 模型生成速度提升30 倍

字节推出CausalFusion：基于解码器的变换器，旨在统一自回归（AR）和扩散模型的生成范式

FlowChef：利用矢量场动力学的统一受控图像生成框架

MotiF：通过引导模型关注更多运动区域来改善文本对齐和运动生成

多视角视频生成新技术SynCamMaster：能够从不同的视点生成同步的、一致性高的动态场景视频

Reducio-DiT：通过先进压缩技术提升视频生成效率

VLM-R3：增强多模态链式思考（CoT）的能力

新型视频生成框架GS-DiT：通过伪4D高斯场实现对视频内容的精确4D控制

Gemini 2.5 实现对话式图像分割，用语言精准“圈出”图像中的目标

新型测试时扩展框架Evolutionary Search (EvoSearch) ：通过在推理阶段分配额外计算资源来提升图像和视频生成模型的性能

新悟空

S.H.I.T

Meshy

新OpenMAIC

Sub2API

CutCut

新技术

网址

新悟空

S.H.I.T

Meshy

新OpenMAIC

Sub2API

CutCut