SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 知识库
  • 排行榜
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 知识库
    • 排行榜

    新技术

    共 939 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    教程新技术硬件科普早报
    排序
    发布更新浏览点赞
    适用于 DiTs 模型的快速后训练向量量化方法 VQ4DiT:能够在各种资源受限的环境中高效运行,同时保持生成图像的质量。

    适用于 DiTs 模型的快速后训练向量量化方法 VQ4DiT:能够在各种资源受限的环境中高效运行,同时保持生成图像的质量。

    浙江大学和vivo的研究人员推出一种适用于 DiTs 的快速后训练向量量化方法 VQ4DiT,它是一种针对扩散变换器模型(Diffusion Transformers,简称DiTs)的高效后训练矢量化...
    新技术# DiTs 模型# VQ4DiT
    1年前
    06790
    新框架VSP-LLM:通过观察视频中人的嘴型来理解和翻译说话内容

    新框架VSP-LLM:通过观察视频中人的嘴型来理解和翻译说话内容

    这篇论文介绍了一个名为VSP-LLM(Visual Speech Processing incorporated with LLMs)的新框架,它结合了视觉语音处理和大语言模型(LLMs),以提高视觉...
    新技术# VSP-LLM# 大语言模型# 视觉语音翻译
    2年前
    06790
    Search_T2V:改善文本到视频合成的质量和真实感

    Search_T2V:改善文本到视频合成的质量和真实感

    浙江大学、飞步科技、宁波港和腾讯数据平台的研究人员推出新技术Search_T2V,旨在改善文本到视频(Text-to-Video, T2V)合成的质量和真实感。该技术通过搜索现有的视频资源作为运动先验...
    新技术# Search_T2V# 文生视频模型
    2年前
    06780
    谷歌推出新采样方法EM Distillation(EMD):用于提高扩散模型(diffusion models)的采样效率

    谷歌推出新采样方法EM Distillation(EMD):用于提高扩散模型(diffusion models)的采样效率

    谷歌推出新采样方法EM Distillation(EMD),用于提高扩散模型(diffusion models)的采样效率。扩散模型是一种强大的生成模型,能够学习复杂的数据分布并生成高质量的图像、视频...
    新技术# EM Distillation# EMD# 采样方法
    2年前
    06760
    条件感知神经网络CAN:用于在图像生成模型中添加控制

    条件感知神经网络CAN:用于在图像生成模型中添加控制

    来自麻省理工学院、清华大学和英伟达的研究人员推出一种条件感知神经网络(CAN),用于在图像生成模型中添加控制,它通过动态调整神经网络的权重来实现对生成图像的控制。 论文 GitHub 与之前的条件控制...
    新技术# CAN# 条件感知神经网络
    2年前
    06750
    Meta推出局部图像水印的深度学习模型WAM

    Meta推出局部图像水印的深度学习模型WAM

    图像水印技术在保护数字内容的版权和完整性方面发挥着重要作用。然而,传统的图像水印方法并未针对处理小面积水印区域进行优化,这限制了其在实际应用中的使用,例如图像的部分可能来自不同来源或已被编辑。Meta...
    新技术# WAM# 图像水印
    1年前
    06730
    基于Transformer架构的新型图像生成模型DART:根据文本描述生成高质量的图像

    基于Transformer架构的新型图像生成模型DART:根据文本描述生成高质量的图像

    苹果和香港中文大学的研究人员推出新型图像生成模型DART,这个模型的目标是让计算机能够根据文本描述生成高质量的图像。DART是一个基于Transformer架构的模型,它在非马尔可夫框架内统一了自回归...
    新技术# DART# Transformer架构# 图像生成模型
    1年前
    06720
    新型SD模型压缩方法VQDM:通过向量量化技术,能够将大型的文本到图像扩散模型压缩到较低比特位表示,同时保持图像生成的高质量

    新型SD模型压缩方法VQDM:通过向量量化技术,能够将大型的文本到图像扩散模型压缩到较低比特位表示,同时保持图像生成的高质量

    Yandex 研究、HSE 大学、Skoltech、MIPT、Neural Magic和IST 奥地利的研究人员推出新型文本到图像扩散模型压缩方法VQDM,通过向量量化(Vector Quantiza...
    新技术# VQDM# 模型压缩
    1年前
    06700
    模型量化技术BitsFusion:减少SD模型参数大小,同时还能让这个模型生成的图片质量更好

    模型量化技术BitsFusion:减少SD模型参数大小,同时还能让这个模型生成的图片质量更好

    Snap和罗格斯大学的研究人员推出新型图像生成模型的权重量化技术BitsFusion。简单来说,就是研究者们开发了一种方法,可以把一个用来生成图片的复杂模型(叫做扩散模型)的参数量大大减少,同时还能让...
    新技术# BitsFusion# 模型参数# 模型量化
    2年前
    06700
    创建人物图像动画的新方法Champ:让静态人物图片动起来

    创建人物图像动画的新方法Champ:让静态人物图片动起来

    来自南京大学、复旦大学和阿里巴巴的研究团队推出一种用于创建人物图像动画的新方法Champ,该方法利用潜在扩散框架内的3D人体参数模型来强化当前人体生成技术中的形状对齐和运动引导。例如,你有一张静态的照...
    新技术# Champ# 图像动画
    2年前
    06690
    字节跳动推出数据集COCONut,专门针对图像分割任务

    字节跳动推出数据集COCONut,专门针对图像分割任务

    字节跳动推出数据集COCONut,它是对现有的COCO数据集的现代化升级,专门针对图像分割任务。图像分割是计算机视觉中的一个核心问题,它的目标是将图像中的每个像素正确地分类到不同的实例或类别中,此数据...
    新技术# COCONut# 图像分割# 字节跳动
    2年前
    06680
    图像编辑框架FlexEdit:用于灵活且可控地编辑图像中的物体

    图像编辑框架FlexEdit:用于灵活且可控地编辑图像中的物体

    来自VinAI Research和越南科技大学的研究人员推出图像编辑框架FlexEdit,它是一个基于扩散模型(Stable Diffusion)的图像编辑框架,专门设计用于灵活且可控地编辑图像中的物...
    新技术# FlexEdit# 图像编辑框架
    2年前
    06680
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2025 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    人生 K 线

    新人生 K 线

    人生 K 线(Life Destiny K-Line)是一个结合传统八字命理与现代大语言模型(LLM)的轻量级可视化工具。它将一个人从 1 岁到 100 岁的运势走势,以类似股票 K 线图的形式呈现,试图用数据可视化的方式“翻译”命理推演结果。
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    朱雀大模型检测

    朱雀大模型检测

    腾讯朱雀 AI 检测是于 2025 年 1 月 17 日推出的一款 AI 生成内容检测工具,主要用于帮助用户识别 AI 生成的文本和图像内容。每位用户每天最多可检测20次文本和20次图片。
    Tripo

    Tripo

    Tripo AI 是一家领先的 AI 驱动 3D 建模解决方案提供商,允许用户使用文本、单张图像、多张图像、涂鸦或视频等输入,快速创建高质量的 3D 模型和环境。
    YouMind

    YouMind

    YouMind 是一款重新构想的 AI 写作工具,帮助每个人轻松开启创作之旅。捕捉灵感、收集素材、撰写草稿,并将其转化为精炼的文章、播客、视频等丰富内容。
    NaturalReader

    NaturalReader

    NaturalReader 是一款功能强大、易于使用的文本转语音工具,适合各种场景下的阅读需求。无论您是希望节省时间的学生、需要无障碍支持的读者,还是寻求高质量语音内容的创作者,NaturalReader 都能为您提供卓越的体验。
    查看完整榜单