SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    新技术

    共 958 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    教程新技术硬件科普早报
    排序
    发布更新浏览点赞
    基于文本的视频编辑模型Emu Video Edit (EVE)

    基于文本的视频编辑模型Emu Video Edit (EVE)

    Meta推出基于文本的视频编辑模型Emu Video Edit (EVE),它能够在没有监督视频编辑数据的情况下,实现先进的视频编辑功能。 论文 EVE模型通过结合图像编辑适配器和视频生成适配器,并使...
    新技术# EVE# 视频编辑模型
    2年前
    05720
    文本编码器Glyph-ByT5:为提高视觉文本渲染的准确性而设计

    文本编码器Glyph-ByT5:为提高视觉文本渲染的准确性而设计

    来自微软亚洲研究院、清华大学、北京大学和澳大利亚国立大学的研究团队推出文本编码器Glyph-ByT5,它是为了提高视觉文本渲染的准确性而设计的。Glyph-ByT5通过微调一个字符感知的ByT5编码器...
    新技术# Glyph-ByT5# 文本编码器
    2年前
    06100
    StreamMultiDiffusion:实时交互式图像生成和编辑的工具

    StreamMultiDiffusion:实时交互式图像生成和编辑的工具

    来自韩国首尔国立大学的团队发布新应用StreamMultiDiffusion,这是一种用于实时交互式图像生成和编辑的工具,这是将之前已发布的技术 MultiDiffusion + StreamDiff...
    新技术# StreamMultiDiffusion# 实时生图
    2年前
    09480
    Follow-Your-Click:通过用户简单的点击和简短的动作提示来实现图像的局部动画化

    Follow-Your-Click:通过用户简单的点击和简短的动作提示来实现图像的局部动画化

    来自香港科大、腾讯浑源和清华大学的团队推出新颖框架Follow-Your-Click,它能够通过用户简单的点击和简短的动作提示来实现图像的局部动画化。 项目主页 GitHub 想象一下,你有一张静态图...
    新技术# Follow-Your-Click# 局部动画化
    2年前
    06720
    视觉风格提示(Visual Style Prompting):不需要对模型进行微调的情况下,通过参考图像来生成具有特定风格的图像

    视觉风格提示(Visual Style Prompting):不需要对模型进行微调的情况下,通过参考图像来生成具有特定风格的图像

    来自韩国延世大学和NAVER AI 实验室的研究团队推出“视觉风格提示(Visual Style Prompting)”,它能够在不需要对预训练模型进行微调的情况下,通过参考图像来生成具有特定风格的图...
    新技术# Visual Style Prompting# 视觉风格提示
    2年前
    06740
    谷歌推出创新框架VLOGGER:只需要提供一张静态照片和一段语音,就能生成口型匹配的视频

    谷歌推出创新框架VLOGGER:只需要提供一张静态照片和一段语音,就能生成口型匹配的视频

    谷歌推出创新框架VLOGGER,它能够根据一段音频和一张人物的单张照片生成这个人说话和动作的逼真视频。想象一下,你只需提供一张你的照片和你的语音记录,VLOGGER就能制作出一个视频,在视频中你可以看...
    新技术# VLOGGER# 谷歌
    2年前
    05730
    DragAnything:视频生成中任意对象的运动控制

    DragAnything:视频生成中任意对象的运动控制

    来自快手、浙江大学和新加坡国立大学的研究团队推出DragAnything,它是一种用于视频生成和控制的方法,它利用实体表示法来实现对视频生成中任意对象的运动控制。 项目主页 GitHub 论文 例如...
    新技术# DragAnything# 视频生成# 运动控制
    2年前
    06650
    FaceChain-SuDe:提高个性化图像生成的属性相关性

    FaceChain-SuDe:提高个性化图像生成的属性相关性

    来自北京大学、阿里巴巴、清华大学和鹏程实验室的研究团队推出FaceChain-SuDe,这是一种用于个性化文本到图像生成的方法,旨在提高个性化图像生成(subject-driven generatio...
    新技术# FaceChain-SuDe# 个性化图像生成
    2年前
    05830
    新型3D生成模型V3D:利用视频扩散模型的能力来创建高质量的三维对象和场景

    新型3D生成模型V3D:利用视频扩散模型的能力来创建高质量的三维对象和场景

    来自清华和生数科技的研究推出新型3D生成模型V3D,它利用视频扩散模型的能力来创建高质量的三维对象和场景。V3D的核心思想是将连续的多视角图像视为视频,从而利用预训练的视频扩散模型来生成围绕物体的36...
    新技术# 3D生成模型# V3D
    2年前
    05650
    谷歌发布“多步一致性模型”(Multistep Consistency Models)

    谷歌发布“多步一致性模型”(Multistep Consistency Models)

    谷歌发布新型生成模型“多步一致性模型”(Multistep Consistency Models),它在图像、视频和音频生成领域具有潜在的应用价值。这个模型是介于传统的“一致性模型”(Consiste...
    新技术# 多步一致性模型# 谷歌
    2年前
    05660
    VideoElevator:利用文生图模型来增强文生视频的质量和细节

    VideoElevator:利用文生图模型来增强文生视频的质量和细节

    来自哈尔滨大学和清华大学的研究团队推出VideoElevator,利用文生图模型来增强文生视频的质量和细节,这个过程是无需训练的,可以直接插入现有的模型中使用,还能利用文生图模型来实现风格迁移,非常方...
    新技术# VideoElevator# 文生图模型# 文生视频
    2年前
    06460
    大语言模型适配器ELLA:提升了文生图模型处理复杂描述的能力

    大语言模型适配器ELLA:提升了文生图模型处理复杂描述的能力

    腾讯推出大语言模型适配器(LLM Adapter)ELLA,无需 U-Net 或大语言模型训练,就可通过 ELLA ,为文生图模型增强文本对齐,解决大多数模型受限于 CLIP 本身对密集提示词的理解能...
    新技术# DPG-Bench# ELLA# TSC
    2年前
    01,0370
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    S.H.I.T

    S.H.I.T

    在主流学术界为顶刊版面、高影响因子和“非升即走”的考核指标疯狂内卷之时,一场名为“学术垃圾”的反叛运动正在角落里悄然兴起。一群“想开了”的硕博研究生和青年学者(青椒),不再试图迎合传统的学术评价体系,而是隆重推出了一系列名字惊世骇俗的“旗舰”期刊——《SHIT》、《Notrue》、《Silence》、《Crazy》。
    OpenMAIC

    OpenMAIC

    OpenMAIC是一个开源的 AI 互动课堂平台,能够将任何主题或文档转化为丰富的互动学习体验。基于多智能体协作引擎,它可以自动生成演示幻灯片、测验、交互式模拟实验和项目制学习活动——由 AI 教师和 AI 同学进行语音讲解、白板绘图,并与你展开实时讨论。内置 OpenClaw 集成,你还可以直接在飞书、Slack、Telegram 等聊天应用中生成课堂。
    悟空

    悟空

    阿里巴巴发布全球首个企业级AI原生工作平台——“悟空”,让每个团队、每家公司,都能拥有一支24h工作的“龙虾军团”。悟空是一款独立应用,即日起开启邀测,也将直接内置到超2000万企业组织的钉钉之中。
    Meshy

    Meshy

    Meshy 是一款非常适合初学者和专业用户的 3D 模型生成工具。无论是快速建模、3D 打印还是动画设计,它都能轻松应对。如果你对 3D 模型创建感兴趣,不妨试试 Meshy,让生成式 AI 为你的创意插上翅膀!
    Tripo

    Tripo

    Tripo AI 是一家领先的 AI 驱动 3D 建模解决方案提供商,允许用户使用文本、单张图像、多张图像、涂鸦或视频等输入,快速创建高质量的 3D 模型和环境。
    Joker of Academics(小丑学术期刊 )

    Joker of Academics(小丑学术期刊 )

    Joker 🤡 of Academics(小丑学术期刊 ) 是一本完全经过同行评审的开放获取期刊,致力于严肃研究非严肃的学术成果。我们发表敢于风趣的严谨研究、不知何故居然行得通的荒诞主义方法论,以及应用于可能并不需要它的领域的批判理论。
    查看完整榜单