SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    新技术

    共 947 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    教程新技术硬件科普早报
    排序
    发布更新浏览点赞
    Go-with-the-Flow:通过实时扭曲噪声实现对视频生成的运动控制

    Go-with-the-Flow:通过实时扭曲噪声实现对视频生成的运动控制

    Netflix Eyeline Studios、Netflix、石溪大学、马里兰大学和斯坦福大学的研究人员推出一种简单高效的控制视频扩散模型运动模式的方法Go-with-the-Flow ,通过实时扭...
    新技术# Go-with-the-Flow
    1年前
    02930
    字节跳动推出新型单目深度估计方法Video Depth Anything:专门用于超长视频(数分钟)的高质量、一致的深度估计

    字节跳动推出新型单目深度估计方法Video Depth Anything:专门用于超长视频(数分钟)的高质量、一致的深度估计

    字节跳动推出新型单目深度估计方法Video Depth Anything,专门用于超长视频(数分钟)的高质量、一致的深度估计。该方法基于 Depth Anything V2,通过引入高效的空间-时间头...
    新技术# Video Depth Anything# 字节跳动
    1年前
    02620
    阿里推出新型音频驱动的虚拟角色视频生成方法EMO2:同时生成富有表现力的面部表情和手势动作

    阿里推出新型音频驱动的虚拟角色视频生成方法EMO2:同时生成富有表现力的面部表情和手势动作

    阿里在去年2月推出新型音频驱动的虚拟角色视频生成方法EMO,近期又发布了 EMO2,它能够同时生成富有表现力的面部表情和手势动作。该方法特别关注于语音伴随手势(co-speech gestures)的...
    新技术# EMO2
    1年前
    05960
    GameFactory框架:通过生成式交互视频来创建全新的游戏

    GameFactory框架:通过生成式交互视频来创建全新的游戏

    香港大学和快手科技的研究人员推出GameFactory框架,旨在通过生成式交互视频来创建全新的游戏。该框架利用预训练的视频扩散模型(video diffusion models),结合少量的第一人称游...
    新技术# GameFactory# 快手
    1年前
    03030
    新型多概念个性化方法TokenVerse:通过预训练的DiT架构文生图模型实现从单张或多张图像中提取复杂视觉概念,并支持无缝组合这些概念以生成新的图像

    新型多概念个性化方法TokenVerse:通过预训练的DiT架构文生图模型实现从单张或多张图像中提取复杂视觉概念,并支持无缝组合这些概念以生成新的图像

    谷歌 DeepMind、特拉维夫大学、以色列理工学院和魏茨曼研究所的研究人员推出新型多概念个性化方法TokenVerse,旨在通过预训练的DiT架构文生图模型实现从单张或多张图像中提取复杂视觉概念,并...
    新技术# TokenVerse
    1年前
    02530
    多智能体协作框架 FILMAGENT:通过大语言模型实现虚拟 3D 空间中的端到端电影自动化制作

    多智能体协作框架 FILMAGENT:通过大语言模型实现虚拟 3D 空间中的端到端电影自动化制作

    哈尔滨工业大学(深圳)和清华大学的研究人员推出多智能体协作框架 FILMAGENT,旨在通过大语言模型(LLMs)实现虚拟 3D 空间中的端到端电影自动化制作。该框架模拟了电影制作中的各种角色(如导演...
    新技术# FILMAGENT# 电影
    1年前
    02550
    字节跳动推出新型身份保持视频生成方法EchoVideo

    字节跳动推出新型身份保持视频生成方法EchoVideo

    字节跳动推出新型身份保持视频生成方法EchoVideo ,旨在通过多模态特征融合解决传统方法中存在的“复制粘贴”现象和身份相似度低的问题。该方法能够生成高质量、连贯且一致的视频内容,同时保持人物的身份...
    新技术# EchoVideo# 视频生成
    1年前
    02530
    1Prompt1Story:解决文生图模型生成中的一致性问题

    1Prompt1Story:解决文生图模型生成中的一致性问题

    南开大学、巴塞罗那自治大学计算机视觉中心、穆罕默德·本·扎耶德人工智能大学,林雪平大学和软银的研究人员推出1Prompt1Story,旨在解决文本到图像(Text-to-Image,T2I)生成中的一...
    新技术# 1Prompt1Story
    1年前
    02360
    基于扩散模型的视频修复方法DiffuEraser:分解视频修复任务为子问题并给出解决方案

    基于扩散模型的视频修复方法DiffuEraser:分解视频修复任务为子问题并给出解决方案

    阿里巴巴通义实验室的研究人员推出一种基于扩散模型的视频修复方法DiffuEraser,能够生成更详细、更连贯的结构,并通过引入先验信息和优化时间一致性来提升性能。比如,在一段视频中,如果某个物体被意外...
    新技术# DiffuEraser# 视频修复
    1年前
    03000
    思维链推理策略在自回归图像生成中的应用潜力

    思维链推理策略在自回归图像生成中的应用潜力

    香港中文大学、北京大学和上海人工智能实验室的研究人员探索思维链(Chain-of-Thought, CoT)推理策略在自回归图像生成中的应用潜力。思维链是一种通过逐步分解复杂问题来解决问题的策略,在语...
    新技术# 思维链
    1年前
    02480
    基于扩散模型的新型零样本人像视频动画生成技术X-Dyna

    基于扩散模型的新型零样本人像视频动画生成技术X-Dyna

    南加州大学、字节跳动公司、斯坦福大学、加州大学洛杉矶分校和加州大学圣地亚哥分校的研究团队推出一种新型的零样本(zero-shot)人像视频动画生成技术X-Dyna,基于扩散模型(diffusion-b...
    新技术# X-Dyna# 人像视频动画
    1年前
    02680
    Textoon:基于文本描述生成Live2D格式2D卡通角色的创新方法

    Textoon:基于文本描述生成Live2D格式2D卡通角色的创新方法

    在数字角色创作领域,2D卡通风格因其独特的魅力而深受年轻观众的喜爱。尽管3D角色研究取得了显著进展,但交互式2D卡通角色的发展却显得相对滞后。为了解决这一问题,阿里巴巴通义实验室推出了Textoon...
    新技术# Live2D# Textoon
    1年前
    03550
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    YouMind

    YouMind

    YouMind 是一款重新构想的 AI 写作工具,帮助每个人轻松开启创作之旅。捕捉灵感、收集素材、撰写草稿,并将其转化为精炼的文章、播客、视频等丰富内容。
    OpenClaw(Clawdbot/Moltbot)

    OpenClaw(Clawdbot/Moltbot)

    Clawdbot 是一款可在您自己的设备上运行的个人 AI 助手。它在您已使用的渠道(WhatsApp、Telegram、Slack、Discord、Google Chat、Signal、iMessage、Microsoft Teams、WebChat)以及扩展渠道(如 BlueBubbles、Matrix、Zalo 和 Zalo Personal)上为您提供应答。它可以在 macOS/iOS/Android 上进行语音交谈,并能渲染一个您可控制的实时画布。网关仅是控制平面——核心产品是助手本身。
    A股智能分析系统

    A股智能分析系统

    A股智能分析系统是基于 AI 大模型的 A 股自选股智能分析系统,每日自动分析并推送「决策仪表盘」到企业微信/飞书/Telegram/邮箱
    OpenClaw

    OpenClaw

    OpenClaw 是一个个人 AI 助手,可在您自己的设备上运行。它通过您已经使用的渠道(WhatsApp、Telegram、Slack、Discord、Google Chat、Signal、iMessage、Microsoft Teams、WebChat)以及 BlueBubbles、Matrix、Zalo 和 Zalo Personal 等扩展渠道与您交流。它可以在 macOS/iOS/Android 上说话和聆听,并能渲染一个您控制的实时画布。网关只是控制平面——产品本身才是助手。
    OpenClaw 一键部署工具

    OpenClaw 一键部署工具

    OpenClaw 一键部署工具是一款专为 AI 爱好者和开发者打造的私人 AI 助手一键部署工具,支持多模型、多消息渠道接入,提供图形界面与命令行两种部署方式,无需复杂的手动配置,就能快速搭建属于自己的跨平台 AI 助手,兼具灵活性与实用性。
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    查看完整榜单