SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    新技术

    共 943 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    教程新技术硬件科普早报
    排序
    发布更新浏览点赞
    新型视频生成模型HPDM:通过分层处理和上下文融合技术,生成高分辨率视频

    新型视频生成模型HPDM:通过分层处理和上下文融合技术,生成高分辨率视频

    Snap、阿卜杜拉国王科技大学和特伦托大学的研究人员推出新型视频生成模型Hierarchical Patch Diffusion Models(HPDM,分层补丁扩散模型),这个模型专门设计用于高分辨...
    新技术# HPDM# 分层补丁扩散模型# 视频生成
    2年前
    07470
    无需训练、基于轨迹的可控图像生成技术TraDiffusion:允许用户通过鼠标轨迹来轻松引导图像的生成,而无需进行额外的训练或微调

    无需训练、基于轨迹的可控图像生成技术TraDiffusion:允许用户通过鼠标轨迹来轻松引导图像的生成,而无需进行额外的训练或微调

    厦门大学和中国科学院大学深圳先进技术研究院的研究人员推出新型图像生成技术TraDiffusion,这项技术的核心在于它允许用户通过鼠标轨迹来轻松引导图像的生成,而无需进行额外的训练或微调。简单来说,就...
    新技术# TraDiffusion# 图像生成
    1年前
    07450
    OpenAI公开AI视频生成模型Sora:可创建长达 60 秒的视频

    OpenAI公开AI视频生成模型Sora:可创建长达 60 秒的视频

    OpenAI公开了AI视频生成(文生视频)模型Sora,它可以创建长达 60 秒的视频,其中包含高度详细的场景、复杂的摄像机运动和具有生动情感的多个角色。 官方介绍 以下是官方介绍全文翻译: 我们正在...
    新技术# AI视频生成模型# OpenAI# Sora
    2年前
    07440
    LongAlign:改进文生图模型的长文本对齐

    LongAlign:改进文生图模型的长文本对齐

    文生图模型的快速发展使它们能够从给定的文本生成前所未有的结果。然而,随着文本输入变长,现有的编码方法如 CLIP 面临限制,并且将生成的图像与长文本对齐变得具有挑战性。为了解决这些问题,香港大学、新加...
    新技术# LongAlign# 文生图模型# 长文本对齐
    1年前
    07430
    Meta推出新型框架OPT2I:通过优化文本提示(prompt)来提高文生图模型的图像与输入提示的一致性

    Meta推出新型框架OPT2I:通过优化文本提示(prompt)来提高文生图模型的图像与输入提示的一致性

    Meta推出新型框架OPT2I,它旨在通过优化文本提示(prompt)来提高文本到图像(T2I)生成模型的图像与输入提示的一致性。尽管现有的T2I模型能够生成高质量和逼真的图像,但它们在确保生成的图像...
    新技术# OPT2I# 提示词# 文生图模型
    2年前
    07430
    建立在多模态大语言模型基础上的统一文本到图像生成和检索框架TIGeR

    建立在多模态大语言模型基础上的统一文本到图像生成和检索框架TIGeR

    来自新加坡国立大学 NExT++ 实验室、南洋理工大学、香港理工大学和哈尔滨工业大学(深圳)的研究人员推出一个统一的文本到图像生成和检索框架TIGeR,这个框架建立在多模态大语言模型(MLLMs)的基...
    新技术# TIGeR# 文生图
    2年前
    07420
    深度模型DepthFM:从单张图像中快速估算深度信息

    深度模型DepthFM:从单张图像中快速估算深度信息

    来自慕尼黑大学的研究团队推出深度模型DepthFM,它是一个用于从单目(单个摄像头)图像中快速估算深度信息的系统。简单来说,DepthFM能够通过一张照片,推断出物体与摄像头之间的距离,这对于三维场景...
    新技术# DepthFM# 深度模型
    2年前
    07400
    英伟达推出视频生成模型CMD:解决现有视频生成技术在处理高维视频数据时所面临的高内存和计算需求问题

    英伟达推出视频生成模型CMD:解决现有视频生成技术在处理高维视频数据时所面临的高内存和计算需求问题

    英伟达推出新型的视频生成模型内容-运动潜在扩散模型(Content-Motion Latent Diffusion Model,简称CMD),这个模型是为了解决现有视频生成技术在处理高维视频数据时所面...
    新技术# CMD# 英伟达
    2年前
    07380
    去噪方法GeneOH Diffusion:解决手-物体交互(HOI)去噪的问题

    去噪方法GeneOH Diffusion:解决手-物体交互(HOI)去噪的问题

    来自清华大学、上海人工智能实验室、上海启智研究院的研究人员推出GeneOH Diffusion,它旨在解决手-物体交互(HOI)去噪的问题。在手-物体交互中,我们经常需要准确地追踪手部动作,尤其是在游...
    新技术# GeneOH Diffusion
    2年前
    07350
    图像编辑框架FlexEdit:用于灵活且可控地编辑图像中的物体

    图像编辑框架FlexEdit:用于灵活且可控地编辑图像中的物体

    来自VinAI Research和越南科技大学的研究人员推出图像编辑框架FlexEdit,它是一个基于扩散模型(Stable Diffusion)的图像编辑框架,专门设计用于灵活且可控地编辑图像中的物...
    新技术# FlexEdit# 图像编辑框架
    2年前
    07340
    全新文生图框架RealCompo:结合SD1.5模型与GLIGEN模型的优势来提高生成图像的质量

    全新文生图框架RealCompo:结合SD1.5模型与GLIGEN模型的优势来提高生成图像的质量

    RealCompo是一个全新的文生图框架,它旨在解决当前文生图模型在处理多对象组合生成时遇到的困难,通过动态平衡真实性和组合性来提高生成图像的质量。 GitHub 论文 RealCompo利用了文本到...
    新技术# GLIGEN模型# RealCompo# 文生图框架
    2年前
    07320
    单前向视频生成模型SF-V:通过一次前向传播快速生成高质量、运动连贯的视频

    单前向视频生成模型SF-V:通过一次前向传播快速生成高质量、运动连贯的视频

    Snap和罗格斯大学的研究人员推出新型单步视频生成模型SF-V,此模型的核心特点是能够通过一次前向传播(single forward pass)快速生成高质量、运动连贯的视频,这对于需要实时视频合成和...
    新技术# SF-V# 单前向视频生成模型
    2年前
    07310
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    QoderWork

    新QoderWork

    阿里发布旗下首个桌面Agent工具QoderWork,用户无需任何复杂部署工作,输入一句话,QoderWork就能按需调用授权的本地应用,完成文件整理、数据处理、文档生成等任务。
    Clawdbot/Moltbot

    Clawdbot/Moltbot

    Clawdbot 是一款可在您自己的设备上运行的个人 AI 助手。它在您已使用的渠道(WhatsApp、Telegram、Slack、Discord、Google Chat、Signal、iMessage、Microsoft Teams、WebChat)以及扩展渠道(如 BlueBubbles、Matrix、Zalo 和 Zalo Personal)上为您提供应答。它可以在 macOS/iOS/Android 上进行语音交谈,并能渲染一个您可控制的实时画布。网关仅是控制平面——核心产品是助手本身。
    Situation Monitor

    Situation Monitor

    Situation Monitor 是由开发者 Reggie James 创建的一个免费、开源的全球风险监测平台。它通过一张交互式地图,实时整合并可视化全球范围内的关键地缘政治与安全信息,帮助用户快速掌握潜在冲突热点和战略动态。
    中国科技云数据胶囊

    中国科技云数据胶囊

    中国科学院旗下的 中国科技云数据胶囊(Data Capsule)提供 20GB 免费存储空间,支持 标准 S3 与 WebDAV 协议,无需手机号绑定,支持微信/QQ/GitHub 第三方登录,非常适合注重隐私、追求开源生态兼容性的科研用户或个人知识管理者。
    Skills.sh

    Skills.sh

    Vercel 近日上线了一个名为 skills.sh 的新站点,专门用于发现、浏览和安装 AI 智能体的“技能”(Skills)。
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    查看完整榜单