SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    新技术

    共 942 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    教程新技术硬件科普早报
    排序
    发布更新浏览点赞
    视频修复模型SeedVR:处理任意长度和分辨率的真实世界视频修复任务

    视频修复模型SeedVR:处理任意长度和分辨率的真实世界视频修复任务

    南洋理工大学和字节跳动的研究团队提出了 SeedVR,旨在解决通用视频恢复(video restoration,VR)中面临的挑战,即如何在处理未知退化的真实世界视频时,有效地恢复高质量视频并保持时间...
    新技术# SeedVR# 视频修复模型
    1年前
    03100
    华中科技大学推出VA-VAE和LightningDiT框架:在不牺牲重建质量的前提下,显著提升生成性能

    华中科技大学推出VA-VAE和LightningDiT框架:在不牺牲重建质量的前提下,显著提升生成性能

    华中科技大学的研究团队聚焦于潜在扩散模型(latent diffusion models)中的优化困境,即视觉分词器(visual tokenizer)中每令牌特征维度的增加虽能提升重建质量,但会降低...
    新技术# LightningDiT# VA-VAE
    1年前
    02600
    VideoRefer Suite:提升视频大语言模型对视频中时空对象的理解能力

    VideoRefer Suite:提升视频大语言模型对视频中时空对象的理解能力

    由浙江大学和阿里巴巴达摩院的研究团队提出了VideoRefer Suite,旨在提升视频大语言模型(Video LLM)对视频中时空对象的理解能力,解决现有Video LLM在细粒度时空理解方面的不足...
    新技术# VideoRefer Suite# 视频大语言模型
    1年前
    02520
    零样本视频对象插入框架VideoAnydoor:能够在视频中高精度地插入给定对象,并且允许用户精确控制对象的运动

    零样本视频对象插入框架VideoAnydoor:能够在视频中高精度地插入给定对象,并且允许用户精确控制对象的运动

    由香港大学和阿里巴巴达摩院等机构的研究团队推出零样本视频对象插入框架VideoAnydoor ,它能够在视频中高精度地插入给定对象,并且允许用户精确控制对象的运动。这项技术的核心挑战在于既要保留参考对...
    新技术# VideoAnydoor# 视频对象插入
    1年前
    03370
    Stability AI 推出一种基于大规模 Transformer 架构的新型音频编码模型TAAE

    Stability AI 推出一种基于大规模 Transformer 架构的新型音频编码模型TAAE

    在语音处理领域,标记化(tokenization)是生成或理解语音的关键步骤。传统的语音编码模型通常依赖于低参数量的架构,使用具有强归纳偏置的组件,如卷积神经网络(CNN)和循环神经网络(RNN)。然...
    新技术# Stability AI# TAAE
    1年前
    02960
    虚拟脱衣TryOffAnyone:从穿着服装的人身上生成高保真平铺服装图像

    虚拟脱衣TryOffAnyone:从穿着服装的人身上生成高保真平铺服装图像

    多伦多大学和帕特雷大学的研究人员推出TryOffAnyone,这是一个从穿着服装的人身上生成高保真平铺服装图像的技术。这项技术对于时尚行业来说非常重要,因为它可以增强在线购物体验,提供个性化推荐、服装...
    新技术# TryOffAnyone# 虚拟脱衣
    1年前
    08250
    PERSE:从单张肖像图像创建一个可动的个性化3D生成头像

    PERSE:从单张肖像图像创建一个可动的个性化3D生成头像

    首尔国立大学的研究人员提出了一种名为PERSE的创新方法,用于从参考肖像构建可动画化、个性化的生成头像,从单张肖像图像创建一个可动的个性化3D生成头像(avatar)。PERSE 的核心优势在于它能够...
    新技术# PERSE
    1年前
    02770
    即插即用的美学适配器VMix:提升生成图像的质量,特别是在视觉审美维度上,如颜色、光线、构图等方面

    即插即用的美学适配器VMix:提升生成图像的质量,特别是在视觉审美维度上,如颜色、光线、构图等方面

    尽管扩散模型(Diffusion Models)在文本到图像生成方面展现了非凡的才能,但在生成高度美学图像方面仍存在不足。具体来说,生成图像与真实世界美学图像在更细粒度的维度(如色彩、光影、构图等)上...
    新技术# VMix# 美学适配器
    1年前
    02920
    Bringing Objects to Life:将静态的3D对象转换成4D动画(即动态的3D对象),这个过程是通过文本提示来控制的

    Bringing Objects to Life:将静态的3D对象转换成4D动画(即动态的3D对象),这个过程是通过文本提示来控制的

    巴伊兰大学和英伟达的研究人员推出一种名为3to4D的方法,它能够将静态的3D对象转换成4D动画(即动态的3D对象),这个过程是通过文本提示来控制的。这种方法允许用户为提供的3D模型添加动态行为,模拟对...
    新技术# 3to4D
    1年前
    02880
    图像编辑框架Edicho:能够在野外环境(即非受控环境)中实现一致性的图像编辑

    图像编辑框架Edicho:能够在野外环境(即非受控环境)中实现一致性的图像编辑

    在处理真实场景图像时,实现一致的编辑效果是一个长期存在的技术挑战。这主要由于物体姿态、光照条件和摄影环境等不可控因素的影响。为了应对这些挑战,香港科技大学、蚂蚁集团、斯坦福大学和香港中文大学的研究人员...
    新技术# Edicho# 图像编辑框架
    1年前
    02700
    新型框架VideoMaker:实现高质量的零样本(zero-shot)定制化视频生成

    新型框架VideoMaker:实现高质量的零样本(zero-shot)定制化视频生成

    浙江大学计算机科学与技术学院、腾讯PCG ARC实验室、腾讯AI实验室和华为诺亚方舟实验室的研究人员推出新型框架VideoMaker,它能够实现高质量的零样本(zero-shot)定制化视频生成。这个...
    新技术# VideoMaker
    1年前
    03190
    自动图形设计构图方法LaDeCo:从多模态图形元素自动组成一个协调、平衡且视觉上令人愉悦的图形设计

    自动图形设计构图方法LaDeCo:从多模态图形元素自动组成一个协调、平衡且视觉上令人愉悦的图形设计

    随着技术的进步,自动化的图形设计工具正在逐渐改变我们创造视觉内容的方式。然而,现有的生成模型往往局限于特定的子任务,并未能全面地处理设计组合这一复杂过程。为了克服这些限制,西安交通大学与微软研究院联手...
    新技术# LaDeCo# 自动图形设计
    1年前
    02410
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    人生 K 线

    人生 K 线

    人生 K 线(Life Destiny K-Line)是一个结合传统八字命理与现代大语言模型(LLM)的轻量级可视化工具。它将一个人从 1 岁到 100 岁的运势走势,以类似股票 K 线图的形式呈现,试图用数据可视化的方式“翻译”命理推演结果。
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    MiroFish

    MiroFish

    MiroFish 是一款基于多智能体技术的新一代 AI 预测引擎。通过提取现实世界的种子信息(如突发新闻、政策草案、金融信号),自动构建出高保真的平行数字世界。
    Higgsfield AI

    Higgsfield AI

    Higgsfield AI平台支持文生图和图生视频,近期对图生视频功能进行了全面升级,专为追求高质量、风格化内容创作并渴望真正电影级操控的创意人士打造——无论是MV导演、商业片制作人、AI创作者,还是社交媒体叙事者。
    Tripo

    Tripo

    Tripo AI 是一家领先的 AI 驱动 3D 建模解决方案提供商,允许用户使用文本、单张图像、多张图像、涂鸦或视频等输入,快速创建高质量的 3D 模型和环境。
    朱雀大模型检测

    朱雀大模型检测

    腾讯朱雀 AI 检测是于 2025 年 1 月 17 日推出的一款 AI 生成内容检测工具,主要用于帮助用户识别 AI 生成的文本和图像内容。每位用户每天最多可检测20次文本和20次图片。
    查看完整榜单