SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    新技术

    共 958 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    教程新技术硬件科普早报
    排序
    发布更新浏览点赞
    基于物理的交互式3D对象动态生成方法PhysDreamer:利用视频生成技术实现与3D物体进行物理交互

    基于物理的交互式3D对象动态生成方法PhysDreamer:利用视频生成技术实现与3D物体进行物理交互

    来自麻省理工学院、斯坦福大学、 哥伦比亚大学和康奈尔大学的研究人员推出PhysDreamer系统,这是一个基于物理的交互式3D对象动态生成方法。PhysDreamer能够使静态的3D对象通过视频生成模...
    新技术# 3D对象# PhysDreamer
    2年前
    04820
    多模态大语言模型Groma:具备精细化和定位化的视觉感知能力

    多模态大语言模型Groma:具备精细化和定位化的视觉感知能力

    来自香港大学和字节跳动的研究人员推出多模态大语言模型Groma,它具备精细化和定位化的视觉感知能力。Groma不仅能够理解整个图像的内容,还能处理区域级别的任务,比如区域字幕(region capti...
    新技术# Groma# 多模态大语言模型
    2年前
    06560
    微软亚洲研究院推出新框架VASA-1:基于一张静态图片和一个语音音频片段,实时生成逼真的会说话的面孔

    微软亚洲研究院推出新框架VASA-1:基于一张静态图片和一个语音音频片段,实时生成逼真的会说话的面孔

    微软亚洲研究院推出新框架VASA-1,它可以根据单张静态图像和语音音频片段,生成具有吸引力的视觉情感技能(VAS)的虚拟角色栩栩如生的说话面孔。这个技术的核心在于它能够精确地捕捉到人脸的微妙动态和头部...
    新技术# VASA-1
    2年前
    04940
    AniClipart:根据文本提示将静态的剪贴画转换成动画

    AniClipart:根据文本提示将静态的剪贴画转换成动画

    香港城市大学和莫纳什大学的研究人员推出AniClipart,它能够根据文本提示将静态的剪贴画(clipart)转换成动画。剪贴画是一种预先制作的图形艺术形式,通常用于快速增强视觉内容。传统的剪贴画动画...
    新技术# AniClipart
    2年前
    05990
    动态排版Dynamic Typography:将文字通过动画效果生动呈现的技术

    动态排版Dynamic Typography:将文字通过动画效果生动呈现的技术

    来自香港科技大学和特拉维夫大学的研究人员推出Dynamic Typography(动态排版),它是一种将文字通过动画效果生动呈现的技术。简单来说,就是让文字动起来,通过变形和运动来表达文字的含义,从而...
    新技术# Dynamic Typography# 动态排版
    2年前
    06200
    EdgeFusion:能够在资源受限的移动设备上快速生成与文本描述相匹配的高质量图像

    EdgeFusion:能够在资源受限的移动设备上快速生成与文本描述相匹配的高质量图像

    来自韩国Nota AI和三星电子的研究人员推出EdgeFusion,它能够在资源受限的移动设备上快速生成与文本描述相匹配的高质量图像。这项技术的核心是优化了文生图模型Stable Diffusion...
    新技术# EdgeFusion# LCM# 文生图模型
    2年前
    06960
    3D重建模型MeshLRM:基于LRM的方法,能够从极少量的输入图像(仅需四张)快速重建出高质量的3D网格模型

    3D重建模型MeshLRM:基于LRM的方法,能够从极少量的输入图像(仅需四张)快速重建出高质量的3D网格模型

    来自加州大学圣地亚哥分校和Adob​​e的研究人员推出大型3D重建模型MeshLRM,这是一种新颖的基于LRM的方法,它能在不到一秒的时间内,能够从极少量的输入图像(仅需四张)快速重建出高质量的3D网...
    新技术# 3D重建模型# MeshLRM
    2年前
    05760
    新型文本到音频生成模型Tango 2:提高音频生成的质量和与文本的匹配度

    新型文本到音频生成模型Tango 2:提高音频生成的质量和与文本的匹配度

    新加坡科技设计大学和密歇根大学的研究人员推出新型文本到音频生成模型Tango 2,它通过直接偏好优化(Direct Preference Optimization, DPO)来提高音频生成的质量和与文...
    新技术# Tango 2# 文本到音频生成模型
    2年前
    06310
    基于指令的高质量图像编辑数据集HQ-Edit

    基于指令的高质量图像编辑数据集HQ-Edit

    加州大学圣克鲁斯分校的研究人员推出高质量数据集HQ-Edit,它专门用于基于指令的图像编辑任务。例如,你有一张图片,想要根据某些具体的指令来修改它,比如改变背景、调整物体的颜色或者添加一些新元素。HQ...
    新技术# HQ-Edit# 图像编辑数据集
    2年前
    09590
    Video2Game:自动将现实世界的视频转化为真实且具备交互性的游戏环境

    Video2Game:自动将现实世界的视频转化为真实且具备交互性的游戏环境

    来自伊利诺伊大学厄巴纳-香槟分校、上海交通大学和康奈尔大学的研究人员推出Video2Game,它可以将任何真实世界的视频转换成一个实时、互动、真实感强且与浏览器兼容的游戏环境。例如,你有一段拍摄街道的...
    新技术# Video2Game# 游戏
    2年前
    06730
    字节跳动推出数据集COCONut,专门针对图像分割任务

    字节跳动推出数据集COCONut,专门针对图像分割任务

    字节跳动推出数据集COCONut,它是对现有的COCO数据集的现代化升级,专门针对图像分割任务。图像分割是计算机视觉中的一个核心问题,它的目标是将图像中的每个像素正确地分类到不同的实例或类别中,此数据...
    新技术# COCONut# 图像分割# 字节跳动
    2年前
    06850
    Scaling (Down) CLIP:从数据、架构和训练策略三个维度对CLIP进行了详细探究

    Scaling (Down) CLIP:从数据、架构和训练策略三个维度对CLIP进行了详细探究

    来自加州大学圣克鲁斯分校和Google Deepmind的研究人员发布论文探讨如何有效地缩减对比语言-图像预训练(CLIP)模型的规模,以适应计算资源有限的情况。研究团队从数据、架构和训练策略三个维度...
    新技术# CLIP模型
    2年前
    05670
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    悟空

    悟空

    阿里巴巴发布全球首个企业级AI原生工作平台——“悟空”,让每个团队、每家公司,都能拥有一支24h工作的“龙虾军团”。悟空是一款独立应用,即日起开启邀测,也将直接内置到超2000万企业组织的钉钉之中。
    OpenMAIC

    OpenMAIC

    OpenMAIC是一个开源的 AI 互动课堂平台,能够将任何主题或文档转化为丰富的互动学习体验。基于多智能体协作引擎,它可以自动生成演示幻灯片、测验、交互式模拟实验和项目制学习活动——由 AI 教师和 AI 同学进行语音讲解、白板绘图,并与你展开实时讨论。内置 OpenClaw 集成,你还可以直接在飞书、Slack、Telegram 等聊天应用中生成课堂。
    S.H.I.T

    S.H.I.T

    在主流学术界为顶刊版面、高影响因子和“非升即走”的考核指标疯狂内卷之时,一场名为“学术垃圾”的反叛运动正在角落里悄然兴起。一群“想开了”的硕博研究生和青年学者(青椒),不再试图迎合传统的学术评价体系,而是隆重推出了一系列名字惊世骇俗的“旗舰”期刊——《SHIT》、《Notrue》、《Silence》、《Crazy》。
    Meshy

    Meshy

    Meshy 是一款非常适合初学者和专业用户的 3D 模型生成工具。无论是快速建模、3D 打印还是动画设计,它都能轻松应对。如果你对 3D 模型创建感兴趣,不妨试试 Meshy,让生成式 AI 为你的创意插上翅膀!
    Tripo

    Tripo

    Tripo AI 是一家领先的 AI 驱动 3D 建模解决方案提供商,允许用户使用文本、单张图像、多张图像、涂鸦或视频等输入,快速创建高质量的 3D 模型和环境。
    ITELLOU

    ITELLOU

    ITELLYOU(也称为NEXT, ITELLYOU)是一个专注于提供微软原版软件资源的非官方网站,主要帮助用户获取未经修改的微软产品镜像,如Windows操作系统、Office办公软件和开发工具等。
    查看完整榜单