SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    新技术

    共 959 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    教程新技术硬件科普早报
    排序
    发布更新浏览点赞
    神经网络架构MVDiffusion++:用于从单个或少量图像中重建3D物体

    神经网络架构MVDiffusion++:用于从单个或少量图像中重建3D物体

    来自西蒙弗雷泽大学和Meta Reality Labs的研究人员推出神经网络架构MVDiffusion++,它用于从单个或少量图像中重建3D物体。这个模型能够在没有相机姿态信息的情况下,生成密集且高分...
    新技术# 3D# MVDiffusion++# 神经网络架构
    2年前
    06520
    视频字幕生成模型Video ReCap:能为长达数小时的视频生成多层次的字幕

    视频字幕生成模型Video ReCap:能为长达数小时的视频生成多层次的字幕

    来自北卡罗来纳大学教堂山分校和 Meta AI的研究人员推出视频字幕生成模型Video ReCap,它能够为长达数小时的视频生成多层次的字幕。 这个模型的设计受到了人类行为层次结构的启发,人类行为通常...
    新技术# Video ReCap# 视频字幕生成模型
    2年前
    05290
    视频编码器VideoPrism:能够处理多种视频理解任务,如分类、定位、检索、字幕生成和问答

    视频编码器VideoPrism:能够处理多种视频理解任务,如分类、定位、检索、字幕生成和问答

    来自谷歌的研究人员推出视频编码器VideoPrism,它是一个通用的视频理解模型,能够处理多种视频理解任务,如分类、定位、检索、字幕生成和问答(QA)。VideoPrism通过在一个单一的冻结模型上进...
    新技术# VideoPrism# 视频编码器# 谷歌
    9个月前
    07040
    新型神经网络渲染技术Joint-TensoRF:使用2D图像作为监督,实现相机姿态和场景几何的精细调整

    新型神经网络渲染技术Joint-TensoRF:使用2D图像作为监督,实现相机姿态和场景几何的精细调整

    来自中国台湾阳明交通大学的研究人员推出新型神经网络渲染技术Joint-TensoRF,提高神经渲染中相机姿态和场景几何表示的联合优化性能,特别是在处理复杂场景时的鲁棒性,这对于许多3D视觉和图形应用领...
    新技术# Joint-TensoRF# 神经网络渲染
    2年前
    05810
    FlashTex:使用LightControlNet实现快速可重新照明的网格纹理生成

    FlashTex:使用LightControlNet实现快速可重新照明的网格纹理生成

    来自Roblox、卡内基梅隆大学、斯坦福大学的研究人员推出FlashTex技术,它能够快速地为3D模型生成可重新照明(relittable)的纹理。这项技术的核心在于,它可以根据用户提供的文字提示,自...
    新技术# 3D模型# FlashTex
    2年前
    05550
    虚拟服装试穿工具OOTDiffusion:革新你的虚拟试衣体验

    虚拟服装试穿工具OOTDiffusion:革新你的虚拟试衣体验

    OOTDiffusion是一款开源虚拟服装试穿工具,它利用潜在扩散模型(latent diffusion models)的强大能力实现了前所未有的高精度和可控性试穿体验。 GitHub:https...
    新技术# OOTDiffusion# 虚拟服装
    2年前
    08180
    Binary Opacity Grids:从多视角图像重建三角网格,生成高质量的视图合成

    Binary Opacity Grids:从多视角图像重建三角网格,生成高质量的视图合成

    来自的谷歌的研究人员推出名为“Binary Opacity Grids”的新方法,它用于从多视角图像重建三角网格,并能够捕捉到精细的几何细节,如叶子、树枝和草地等。这种方法在保持低计算成本的同时,能够...
    新技术# 3D# Binary Opacity Grids
    2年前
    07270
    新型图像生成模型FiT:基于Transformer架构,可以生成无限制分辨率和长宽比的图像

    新型图像生成模型FiT:基于Transformer架构,可以生成无限制分辨率和长宽比的图像

    FiT(Flexible Vision Transformer)是一款新型图像生成模型,基于Transformer架构,旨在生成具有无限制分辨率和长宽比的图像。 GitHub 论文 模型 传统的图像生...
    新技术# FiT# Transformer# 图像生成模型
    2年前
    08290
    文生图模型GLIGEN:用于将Stable Diffusion模型扩展为可定制模型

    文生图模型GLIGEN:用于将Stable Diffusion模型扩展为可定制模型

    威斯康星大学麦迪逊分校、哥伦比亚大学和微软的研究人员推出的GLIGEN模型,用于将Stable Diffusion模型扩展为可定制的模型。这个模型的核心目标是让计算机能够根据文本描述生成图像,并且能够...
    新技术# GLIGEN# Stable Diffusion# 文生图模型
    2年前
    09510
    AI视频编辑工具LAVE:利用大语言模型(LLMs)来辅助用户进行视频编辑

    AI视频编辑工具LAVE:利用大语言模型(LLMs)来辅助用户进行视频编辑

    来自加州大学圣地亚哥分校和Meta的研究人员推出AI视频编辑工具LAVE(LLM-Powered Agent Assistance and Language Augmentation for Vide...
    新技术# AI视频编辑# LAVE
    2年前
    08920
    视觉-语言适配器PaLM2-VAdapter:将传统的视觉编码器和大语言模型结合起来

    视觉-语言适配器PaLM2-VAdapter:将传统的视觉编码器和大语言模型结合起来

    PaLM2-VAdapter模型的主要目的是更有效地连接视觉编码器和大语言模型,以提高它们之间的协同工作效果。 论文 它能够有效地将传统的视觉编码器(vision encoders)和大语言模型(LL...
    新技术# PaLM2-VAdapter# 大语言模型# 视觉编码器
    2年前
    08950
    GaussianObject框架:仅用四张图片就重建出高质量的3D物体

    GaussianObject框架:仅用四张图片就重建出高质量的3D物体

    来自上海交大、华为、多伦多大学的研究人员推出GaussianObject框架,它能够仅用四张图片就重建出高质量的3D物体。这个框架利用了高斯溅射(Gaussian Splatting)技术,通过在稀疏...
    新技术# GaussianObject# 高斯溅射
    2年前
    01,1590
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    S.H.I.T

    S.H.I.T

    在主流学术界为顶刊版面、高影响因子和“非升即走”的考核指标疯狂内卷之时,一场名为“学术垃圾”的反叛运动正在角落里悄然兴起。一群“想开了”的硕博研究生和青年学者(青椒),不再试图迎合传统的学术评价体系,而是隆重推出了一系列名字惊世骇俗的“旗舰”期刊——《SHIT》、《Notrue》、《Silence》、《Crazy》。
    悟空

    悟空

    阿里巴巴发布全球首个企业级AI原生工作平台——“悟空”,让每个团队、每家公司,都能拥有一支24h工作的“龙虾军团”。悟空是一款独立应用,即日起开启邀测,也将直接内置到超2000万企业组织的钉钉之中。
    OpenMAIC

    OpenMAIC

    OpenMAIC是一个开源的 AI 互动课堂平台,能够将任何主题或文档转化为丰富的互动学习体验。基于多智能体协作引擎,它可以自动生成演示幻灯片、测验、交互式模拟实验和项目制学习活动——由 AI 教师和 AI 同学进行语音讲解、白板绘图,并与你展开实时讨论。内置 OpenClaw 集成,你还可以直接在飞书、Slack、Telegram 等聊天应用中生成课堂。
    Impeccable

    Impeccable

    由pbakaus推出的 Impeccable 技能升级包,正是为了解决这一痛点而生。它不仅仅是一个简单的提示词集合,而是一套包含 17 条专业指令、7 大领域参考文件 以及 精心策划的“反模式” 的设计系统。它的目标很明确:对抗大模型的通用偏见,助你实现真正“无可挑剔”的前端设计。
    Tripo

    Tripo

    Tripo AI 是一家领先的 AI 驱动 3D 建模解决方案提供商,允许用户使用文本、单张图像、多张图像、涂鸦或视频等输入,快速创建高质量的 3D 模型和环境。
    ITELLOU

    ITELLOU

    ITELLYOU(也称为NEXT, ITELLYOU)是一个专注于提供微软原版软件资源的非官方网站,主要帮助用户获取未经修改的微软产品镜像,如Windows操作系统、Office办公软件和开发工具等。
    查看完整榜单