SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    新技术

    共 958 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    教程新技术硬件科普早报
    排序
    发布更新浏览点赞
    AI视频生成模型Animated Stickers:让静态表情包动起来

    AI视频生成模型Animated Stickers:让静态表情包动起来

    来自Meta的研究人员推出了AI视频生成模型Animated Stickers,它可以让普通表情包图片“动”起来。这项技术的核心是利用先进的文本到图像(Text-to-Image)模型,通过添加时间层...
    新技术# AI视频生成模型# Animated Stickers# 表情包
    2年前
    07040
    条件感知神经网络CAN:用于在图像生成模型中添加控制

    条件感知神经网络CAN:用于在图像生成模型中添加控制

    来自麻省理工学院、清华大学和英伟达的研究人员推出一种条件感知神经网络(CAN),用于在图像生成模型中添加控制,它通过动态调整神经网络的权重来实现对生成图像的控制。 论文 GitHub 与之前的条件控制...
    新技术# CAN# 条件感知神经网络
    2年前
    07030
    视频编码器VideoPrism:能够处理多种视频理解任务,如分类、定位、检索、字幕生成和问答

    视频编码器VideoPrism:能够处理多种视频理解任务,如分类、定位、检索、字幕生成和问答

    来自谷歌的研究人员推出视频编码器VideoPrism,它是一个通用的视频理解模型,能够处理多种视频理解任务,如分类、定位、检索、字幕生成和问答(QA)。VideoPrism通过在一个单一的冻结模型上进...
    新技术# VideoPrism# 视频编码器# 谷歌
    9个月前
    07030
    高效且精确的注意力机制量化方法SageAttention:加速大语言处理、图像生成和视频生成模型

    高效且精确的注意力机制量化方法SageAttention:加速大语言处理、图像生成和视频生成模型

    清华大学的研究人员推出一种高效且精确的注意力机制量化方法SageAttention,此方法的OPS(每秒操作数)性能分别比FlashAttention2和xformers提高了约2.1倍和2.7倍。S...
    新技术# SageAttention# 注意力机制
    1年前
    07020
    图像编辑技术Editable Image Elements:允许用户对输入的图像进行空间编辑,同时保持图像内容的逼真度

    图像编辑技术Editable Image Elements:允许用户对输入的图像进行空间编辑,同时保持图像内容的逼真度

    来自加州大学圣地亚哥分校和Adob​​e 研究中心的研究人员推出新的图像编辑技术Editable Image Elements for Controllable Synthesis,它允许用户对输入的...
    新技术# Editable Image Elements# 图像编辑
    2年前
    07020
    谷歌推出新框架ImageInWords(IIW):创建准确且细节丰富的图像描述,以提高视觉-语言模型的训练效果

    谷歌推出新框架ImageInWords(IIW):创建准确且细节丰富的图像描述,以提高视觉-语言模型的训练效果

    Google Research、Google DeepMind和华盛顿大学的研究团队推出新框架ImageInWords(IIW),此框架旨在创建准确且细节丰富的图像描述,以提高视觉-语言模型(VLMs...
    新技术# IIW# ImageInWords# 数据集
    2年前
    07010
    连续3D词(Continuous 3D Words):通过文本提示来精细控制图像生成过程中的多个属性

    连续3D词(Continuous 3D Words):通过文本提示来精细控制图像生成过程中的多个属性

    来自牛津大学、Adobe Research的研究人员提出了一种“连续3D词(Continuous 3D Words)”的新方法,使得用户能够通过文本提示来精细控制图像生成过程中的多个属性,比如照明方向...
    新技术# AI绘画# Continuous 3D Words# 连续3D词
    2年前
    07000
    模型量化技术BitsFusion:减少SD模型参数大小,同时还能让这个模型生成的图片质量更好

    模型量化技术BitsFusion:减少SD模型参数大小,同时还能让这个模型生成的图片质量更好

    Snap和罗格斯大学的研究人员推出新型图像生成模型的权重量化技术BitsFusion。简单来说,就是研究者们开发了一种方法,可以把一个用来生成图片的复杂模型(叫做扩散模型)的参数量大大减少,同时还能让...
    新技术# BitsFusion# 模型参数# 模型量化
    2年前
    06990
    基于Transformer架构的新型图像生成模型DART:根据文本描述生成高质量的图像

    基于Transformer架构的新型图像生成模型DART:根据文本描述生成高质量的图像

    苹果和香港中文大学的研究人员推出新型图像生成模型DART,这个模型的目标是让计算机能够根据文本描述生成高质量的图像。DART是一个基于Transformer架构的模型,它在非马尔可夫框架内统一了自回归...
    新技术# DART# Transformer架构# 图像生成模型
    1年前
    06980
    腾讯优图推出RealTalk:用于生成逼真、实时的音频驱动人脸视频的框架

    腾讯优图推出RealTalk:用于生成逼真、实时的音频驱动人脸视频的框架

    腾讯优图实验室和南京大学的研究人员推出新技术RealTalk,它是一个用于生成逼真、实时的音频驱动人脸视频的框架。简单来说,RealTalk可以根据一个人的语音生成一个看起来非常真实的3D人脸动画,而...
    新技术# RealTalk# 南京大学# 腾讯优图
    2年前
    06970
    ViewDiff:从文本或图像生成多视图图像

    ViewDiff:从文本或图像生成多视图图像

    来自Meta和慕尼黑工业大学的研究人员推出ViewDiff,它能够根据文本描述或已有的图像输入,生成与3D对象一致的高质量图像。 项目主页 GitHub 想象一下,你只需要告诉计算机你想要的3D对象是...
    新技术# 3D模型# ViewDiff# 多视角
    2年前
    06970
    新框架VSP-LLM:通过观察视频中人的嘴型来理解和翻译说话内容

    新框架VSP-LLM:通过观察视频中人的嘴型来理解和翻译说话内容

    这篇论文介绍了一个名为VSP-LLM(Visual Speech Processing incorporated with LLMs)的新框架,它结合了视觉语音处理和大语言模型(LLMs),以提高视觉...
    新技术# VSP-LLM# 大语言模型# 视觉语音翻译
    2年前
    06970
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    S.H.I.T

    S.H.I.T

    在主流学术界为顶刊版面、高影响因子和“非升即走”的考核指标疯狂内卷之时,一场名为“学术垃圾”的反叛运动正在角落里悄然兴起。一群“想开了”的硕博研究生和青年学者(青椒),不再试图迎合传统的学术评价体系,而是隆重推出了一系列名字惊世骇俗的“旗舰”期刊——《SHIT》、《Notrue》、《Silence》、《Crazy》。
    ITELLOU

    ITELLOU

    ITELLYOU(也称为NEXT, ITELLYOU)是一个专注于提供微软原版软件资源的非官方网站,主要帮助用户获取未经修改的微软产品镜像,如Windows操作系统、Office办公软件和开发工具等。
    Joker of Academics(小丑学术期刊 )

    Joker of Academics(小丑学术期刊 )

    Joker 🤡 of Academics(小丑学术期刊 ) 是一本完全经过同行评审的开放获取期刊,致力于严肃研究非严肃的学术成果。我们发表敢于风趣的严谨研究、不知何故居然行得通的荒诞主义方法论,以及应用于可能并不需要它的领域的批判理论。
    360 安全龙虾

    新360 安全龙虾

    60安全龙虾目前已接入16家国内主流大模型,覆盖文本生成、编程开发、多模态创作等多种能力。同时内置100余个高频技能,可直接用于文档生成、数据分析、PPT制作、会议转写等常见办公场景。
    JVSClaw

    JVSClaw

    里云正式推出基于该框架打造的下一代 AI 助理平台——JVSClaw。目前,该产品已开启内测,主打“开箱即用”与“自进化能力”,让普通用户和开发者都能轻松“快乐养虾”。
    BabelDOC

    BabelDOC

    BabelDOC 是新一代智能 PDF 翻译工具,采用先进的排版保持技术,为您提供专业级的双语对照翻译体验。无论是前沿学术论文,还是商业分析报告,BabelDOC 都能帮您轻松跨越语言藩篱,同时完美呈现原文档的精致排版。
    查看完整榜单