SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    新技术

    共 972 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    教程新技术硬件科普早报
    排序
    发布更新浏览点赞
    虚拟脱衣TryOffAnyone:从穿着服装的人身上生成高保真平铺服装图像

    虚拟脱衣TryOffAnyone:从穿着服装的人身上生成高保真平铺服装图像

    多伦多大学和帕特雷大学的研究人员推出TryOffAnyone,这是一个从穿着服装的人身上生成高保真平铺服装图像的技术。这项技术对于时尚行业来说非常重要,因为它可以增强在线购物体验,提供个性化推荐、服装...
    新技术# TryOffAnyone# 虚拟脱衣
    1年前
    09010
    视频流翻译方法Live2Diff:专为直播视频转换设计的时间单向注意力视频扩散模型

    视频流翻译方法Live2Diff:专为直播视频转换设计的时间单向注意力视频扩散模型

    上海人工智能实验室、马克斯普朗克信息研究所和南洋理工大学的研究人员推出视频流翻译方法Live2Diff(LIVE2DIFF),它利用了单向注意力机制在视频扩散模型中,专门为直播视频流设计。这种方法的核...
    新技术# Live2Diff# 直播
    2年前
    09010
    小冰推出Portrait4D-v2:创建出逼真的4D头部头像

    小冰推出Portrait4D-v2:创建出逼真的4D头部头像

    小冰推出Portrait4D-v2,它能够创建出逼真的4D头部头像。4D头像不仅具有三维的立体形状,还能随着时间变化而展示出不同的面部表情和头部动作,就像活生生的人一样。这项技术的应用前景非常广泛,比...
    新技术# 4D头部头像# Portrait4D-v2
    2年前
    09000
    虚拟服装试穿技术IDM-VTON:根据一个人的图片和一件衣服的图片,生成这个人穿上这件衣服的图像

    虚拟服装试穿技术IDM-VTON:根据一个人的图片和一件衣服的图片,生成这个人穿上这件衣服的图像

    来自韩国科学技术院和OMNIOUS.AI的研究人员推出虚拟服装试穿技术IDM-VTON,该技术能够根据分别描绘人物和服装的图像对,渲染出人物穿着精选服装的视觉效果。虚拟试穿是一种计算机视觉技术,它可以...
    新技术# IDM-VTON# 虚拟服装试穿# 虚拟试穿
    2年前
    08970
    视觉-语言适配器PaLM2-VAdapter:将传统的视觉编码器和大语言模型结合起来

    视觉-语言适配器PaLM2-VAdapter:将传统的视觉编码器和大语言模型结合起来

    PaLM2-VAdapter模型的主要目的是更有效地连接视觉编码器和大语言模型,以提高它们之间的协同工作效果。 论文 它能够有效地将传统的视觉编码器(vision encoders)和大语言模型(LL...
    新技术# PaLM2-VAdapter# 大语言模型# 视觉编码器
    2年前
    08970
    AI视频编辑工具LAVE:利用大语言模型(LLMs)来辅助用户进行视频编辑

    AI视频编辑工具LAVE:利用大语言模型(LLMs)来辅助用户进行视频编辑

    来自加州大学圣地亚哥分校和Meta的研究人员推出AI视频编辑工具LAVE(LLM-Powered Agent Assistance and Language Augmentation for Vide...
    新技术# AI视频编辑# LAVE
    2年前
    08940
    新型图像压缩技术CMC(模态压缩):利用大型多模态模型来实现图像到文本再到图像的转换,从而在保持图像质量的同时,大幅度减小图像的大小

    新型图像压缩技术CMC(模态压缩):利用大型多模态模型来实现图像到文本再到图像的转换,从而在保持图像质量的同时,大幅度减小图像的大小

    上海交通大学和南洋理工大学的研究人员推出一种新型的图像压缩技术“跨模态压缩”(Cross Modality Compression,简称CMC)。这项技术的核心思想是利用大型多模态模型(Large M...
    新技术# CMC# CMC-Bench# 图像压缩
    2年前
    08910
    基于SAM的新型视觉模型Open-Vocabulary SAM:交互式的图像分割和识别

    基于SAM的新型视觉模型Open-Vocabulary SAM:交互式的图像分割和识别

    来自南洋理工大学、上海AI实验室的研究人员推出了一款基于SAM的新型视觉模型Open-Vocabulary SAM,它结合了Segment Anything Model(SAM)和CLIP模型的优势...
    新技术# Open-Vocabulary SAM# SAM# 图像分割
    2年前
    08910
    清华大学和新畅元科技推出Human4DiT:能够根据单幅图像及任意视点生成高质量、时空连贯的人类视频

    清华大学和新畅元科技推出Human4DiT:能够根据单幅图像及任意视点生成高质量、时空连贯的人类视频

    清华大学和新畅元科技推出新技术Human4DiT,它是一种用于生成高质量、时空一致的人类视频的4D扩散变换器(4D Diffusion Transformer)。这项技术可以从单张图片生成逼真的人类动...
    新技术# Human4DiT# 新畅元科技# 清华大学
    2年前
    08900
    FontStudio系统:为多语言字体生成文字特效,创造具有艺术感的字体效果

    FontStudio系统:为多语言字体生成文字特效,创造具有艺术感的字体效果

    微软亚洲研究院和利物浦大学推出FontStudio系统,它是一个基于现代扩散模型的文本到图像生成系统,专门用来创造具有艺术感的字体效果。例如,你想在电脑上设计一个独特的字体,比如让字母'A'看起来像一...
    新技术# FontStudio# 字体
    2年前
    08890
    新型图像生成模型EMMA:能够接受多模态提示,并生成高质量的图像

    新型图像生成模型EMMA:能够接受多模态提示,并生成高质量的图像

    南洋理工大学和腾讯的研究人员推出新型图像生成模型EMMA,它基于最先进的文本到图像(T2I)扩散模型ELLA,能够接受多模态提示(multi-modal prompts),并生成高质量的图像。简单来说...
    新技术# ELLA# EMMA# 图像生成
    2年前
    08890
    IDEA研究院推出先进开集目标检测模型系列Grounding DINO 1.5:推动开放集对象检测技术的边界

    IDEA研究院推出先进开集目标检测模型系列Grounding DINO 1.5:推动开放集对象检测技术的边界

    IDEA研究院(粤港澳大湾区数字经济研究院)推出先进模型系列Grounding DINO 1.5,旨在推动开放集对象检测技术的边界。开放集对象检测是一种计算机视觉任务,它要求模型能够识别图像中的对象...
    新技术# Grounding DINO 1.5# 开集目标检测模型
    2年前
    08870
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    ITELLOU

    ITELLOU

    ITELLYOU(也称为NEXT, ITELLYOU)是一个专注于提供微软原版软件资源的非官方网站,主要帮助用户获取未经修改的微软产品镜像,如Windows操作系统、Office办公软件和开发工具等。
    S.H.I.T

    S.H.I.T

    在主流学术界为顶刊版面、高影响因子和“非升即走”的考核指标疯狂内卷之时,一场名为“学术垃圾”的反叛运动正在角落里悄然兴起。一群“想开了”的硕博研究生和青年学者(青椒),不再试图迎合传统的学术评价体系,而是隆重推出了一系列名字惊世骇俗的“旗舰”期刊——《SHIT》、《Notrue》、《Silence》、《Crazy》。
    Tripo

    Tripo

    Tripo AI 是一家领先的 AI 驱动 3D 建模解决方案提供商,允许用户使用文本、单张图像、多张图像、涂鸦或视频等输入,快速创建高质量的 3D 模型和环境。
    TapNow

    TapNow

    TapNow是一个面向创作者的专业级 AI 视觉内容平台,支持从脚本撰写、分镜头设计到高保真成片输出的完整流程,单人即可在 1–3 天内完成传统需 4–6 周的影视级项目。
    BuildCores

    BuildCores

    BuildCores 是一款集 3D 组装预览、智能兼容性检测、全球比价 于一体的在线装机工具。无论你是首次装机的新手,还是追求极致性能的发烧友,都能在手机或电脑上轻松规划、验证并优化你的 PC 配置。
    Meshy

    Meshy

    Meshy 是一款非常适合初学者和专业用户的 3D 模型生成工具。无论是快速建模、3D 打印还是动画设计,它都能轻松应对。如果你对 3D 模型创建感兴趣,不妨试试 Meshy,让生成式 AI 为你的创意插上翅膀!
    查看完整榜单