SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 知识库
  • 排行榜
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 知识库
    • 排行榜

    新技术

    共 939 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    教程新技术硬件科普早报
    排序
    发布更新浏览点赞
    阿里巴巴Wanx 团队推出新型多模态生成模型ACE:可以根据文本指令来执行复杂的图像编辑和生成任务

    阿里巴巴Wanx 团队推出新型多模态生成模型ACE:可以根据文本指令来执行复杂的图像编辑和生成任务

    阿里巴巴Wanx 团队推出新型多模态生成模型ACE,这个模型的核心功能是处理和生成图像,但它与传统的图像处理工具不同,因为它可以根据文本指令来执行复杂的图像编辑和生成任务。例如,你是一名摄影师,你拍摄...
    新技术# ACE# 阿里巴巴
    1年前
    06540
    新型多模态DiT模型AV-DiT:生成既有视觉画面又有声音的高质量视频

    新型多模态DiT模型AV-DiT:生成既有视觉画面又有声音的高质量视频

    来自多伦多大学、德克萨斯大学达拉斯分校和Adobe研究中心的研究人员推出新型多模态扩散变换器AV-DiT(Audio-Visual Diffusion Transformer),它专门设计用于联合生成...
    新技术# AV-DiT# DiT模型
    2年前
    06540
    交互式帧插值工具Framer:根据用户的创造力生成两个图像之间平滑过渡的帧

    交互式帧插值工具Framer:根据用户的创造力生成两个图像之间平滑过渡的帧

    帧插值是生成两个图像之间平滑过渡帧的技术,广泛应用于视频处理、动画制作和内容创作等领域。传统的帧插值方法通常依赖于固定的算法,难以实现对局部运动的精细控制。浙江大学和蚂蚁集团的研究人员提出了Frame...
    新技术# Framer# 帧插值
    1年前
    06530
    EdgeFusion:能够在资源受限的移动设备上快速生成与文本描述相匹配的高质量图像

    EdgeFusion:能够在资源受限的移动设备上快速生成与文本描述相匹配的高质量图像

    来自韩国Nota AI和三星电子的研究人员推出EdgeFusion,它能够在资源受限的移动设备上快速生成与文本描述相匹配的高质量图像。这项技术的核心是优化了文生图模型Stable Diffusion...
    新技术# EdgeFusion# LCM# 文生图模型
    2年前
    06530
    AI视频生成新模型CONSISTI2V:通过增强视觉一致性来改善视频生成的质量

    AI视频生成新模型CONSISTI2V:通过增强视觉一致性来改善视频生成的质量

    来自滑铁卢大学、Vector Institute、Harmony.AI、多模式艺术投影研究社区的研究人员提出了一种基于扩散的图像到视频生成新方法CONSISTI2V,它旨在通过增强视觉一致性来改善视频...
    新技术# AI视频生成# CONSISTI2V
    2年前
    06530
    新型图像生成技术StrokeNUWA:利用大语言模型生成矢量图形

    新型图像生成技术StrokeNUWA:利用大语言模型生成矢量图形

    StrokeNUWA是一种新型图像生成技术,用于仅通过大语言模型(LLM)生成矢量图形,无需依赖专门的视觉模块。 论文 该方法的关键创新在于利用矢量图形固有的视觉语义,将矢量图形编码为"笔画"标记,这...
    新技术# LLM# StrokeNUWA# 大语言模型
    2年前
    06510
    基于优化框架的跨模态视频-音频生成方法Seeing and Hearing:能够同时生成视频和音频内容

    基于优化框架的跨模态视频-音频生成方法Seeing and Hearing:能够同时生成视频和音频内容

    香港科技大学和腾讯 PCG ARC 实验室推出基于优化框架的跨模态视频-音频生成方法Seeing and Hearing,它能够同时生成视频和音频内容。方法的主要创新点在于,通过预训练的多模态模型(如...
    新技术# Seeing and Hearing# 优化框架# 跨模态视频-音频生成方法
    2年前
    06490
    多模态大语言模型Groma:具备精细化和定位化的视觉感知能力

    多模态大语言模型Groma:具备精细化和定位化的视觉感知能力

    来自香港大学和字节跳动的研究人员推出多模态大语言模型Groma,它具备精细化和定位化的视觉感知能力。Groma不仅能够理解整个图像的内容,还能处理区域级别的任务,比如区域字幕(region capti...
    新技术# Groma# 多模态大语言模型
    2年前
    06480
    SpaTracker:通过在三维空间中跟踪像素点,能够在各种复杂场景中实现精确的运动估计

    SpaTracker:通过在三维空间中跟踪像素点,能够在各种复杂场景中实现精确的运动估计

    来自浙江大学、加州大学伯克利分校和蚂蚁集团的研究人员推出SpatialTracker,这是一种能够在三维空间中跟踪任意二维像素点的方法。它使用单目深度估计器将2D像素提升到3D,使用三平面表示法有效表...
    新技术# SpaTracker# 三维空间
    2年前
    06470
    专注于二次元角色的动画方法MikuDance:将二次元角色根据 Open Pose 姿势生成对应动画

    专注于二次元角色的动画方法MikuDance:将二次元角色根据 Open Pose 姿势生成对应动画

    武汉大学、阶跃星辰和字节跳动的研究人员推出MikuDance,它是一个基于扩散的动画制作流程,用于为风格化的角色艺术作品添加混合运动动力学,使其动起来。MikuDance的核心在于它能够处理复杂的角色...
    新技术# MikuDance# 二次元
    1年前
    06460
    Follow-Your-Click:通过用户简单的点击和简短的动作提示来实现图像的局部动画化

    Follow-Your-Click:通过用户简单的点击和简短的动作提示来实现图像的局部动画化

    来自香港科大、腾讯浑源和清华大学的团队推出新颖框架Follow-Your-Click,它能够通过用户简单的点击和简短的动作提示来实现图像的局部动画化。 项目主页 GitHub 想象一下,你有一张静态图...
    新技术# Follow-Your-Click# 局部动画化
    2年前
    06450
    多内容数据集ImagiNet:为了提高合成图像检测的泛化能力而设计

    多内容数据集ImagiNet:为了提高合成图像检测的泛化能力而设计

    保加利亚大特尔诺沃自然科学与数学高中、索非亚大学、保加利亚普罗夫迪夫数学高中和斯坦福大学的研究人员推出多内容数据集ImagiNet,它是为了提高合成图像检测的泛化能力而设计的。合成图像是由计算机生成的...
    新技术# ImagiNet# 数据集
    1年前
    06440
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2025 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    朱雀大模型检测

    朱雀大模型检测

    腾讯朱雀 AI 检测是于 2025 年 1 月 17 日推出的一款 AI 生成内容检测工具,主要用于帮助用户识别 AI 生成的文本和图像内容。每位用户每天最多可检测20次文本和20次图片。
    Tripo

    Tripo

    Tripo AI 是一家领先的 AI 驱动 3D 建模解决方案提供商,允许用户使用文本、单张图像、多张图像、涂鸦或视频等输入,快速创建高质量的 3D 模型和环境。
    人生 K 线

    新人生 K 线

    人生 K 线(Life Destiny K-Line)是一个结合传统八字命理与现代大语言模型(LLM)的轻量级可视化工具。它将一个人从 1 岁到 100 岁的运势走势,以类似股票 K 线图的形式呈现,试图用数据可视化的方式“翻译”命理推演结果。
    秒哒

    秒哒

    百度秒哒,由百度智能云倾力打造的国内首个“对话式”应用开发平台,正式全量上线。作为一款无代码工具,秒哒致力于让每个人都能通过自然语言描述需求,自动生成完整功能代码,轻松实现创意想法。
    YouMind

    YouMind

    YouMind 是一款重新构想的 AI 写作工具,帮助每个人轻松开启创作之旅。捕捉灵感、收集素材、撰写草稿,并将其转化为精炼的文章、播客、视频等丰富内容。
    查看完整榜单