SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 工具
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 知识库
  • 导航
  • 百科工具
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 工具
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 知识库
    • 导航
    • 百科工具

    百科

    共 2208 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    教程新技术硬件科普早报
    排序
    发布更新浏览点赞
    文生视频模型VSTAR:解决现有开源T2V模型难以生成内容动态变化和较长视频的问题

    文生视频模型VSTAR:解决现有开源T2V模型难以生成内容动态变化和较长视频的问题

    来自博世人工智能中心、曼海姆大学、马克斯·普朗克信息学研究所和图宾根大学的研究团队推出VSTAR,这是一种用于生成动态视频的文本到视频(T2V)合成技术。VSTAR的目标是解决现有开源T2V模型难以生...
    新技术# VSTAR# 文生视频模型
    2年前
    06970
    创新框架EMO:只需要提供一张静态照片和一段语音,就能生成口型匹配的视频

    创新框架EMO:只需要提供一张静态照片和一段语音,就能生成口型匹配的视频

    阿里巴巴推出创新框架EMO,它是一个能够根据音频生成表情丰富的肖像视频的系统。想象一下,你只需要提供一张静态的照片和一段语音,EMO就能创造出一个视频,视频中的人物头像会根据语音的内容和情感变化做出相...
    新技术# EMO# 口型匹配
    2年前
    06970
    视频驱动人脸识别动画系统LivePortrait:将静态的肖像照片生动地动画化,同时保持高效和精确的控制能力

    视频驱动人脸识别动画系统LivePortrait:将静态的肖像照片生动地动画化,同时保持高效和精确的控制能力

    快手科技、中国科学技术大学和复旦大学的研究人员推出视频驱动人脸识别动画系统LivePortrait,它能够将静态的肖像照片生动地动画化,同时保持高效和精确的控制能力。例如,你有一张其他人物照片,Liv...
    新技术# LivePortrait
    1年前
    06960
    阿里推出新型大型多模态模型ConvLLaVA:专门设计用于处理高分辨率的视觉数据

    阿里推出新型大型多模态模型ConvLLaVA:专门设计用于处理高分辨率的视觉数据

    清华大学和阿里巴巴的研究人员推出新型大型多模态模型ConvLLaVA,它专门设计用于处理高分辨率的视觉数据。多模态模型能够理解和处理多种类型的数据,比如文本、图像和视频,这使得它们在各种应用场景中都非...
    新技术# ConvLLaVA# 多模态模型# 阿里巴巴
    2年前
    06960
    文本到图像合成框架PIXART-δ:0.5秒内生成1024×1024像素的图像

    文本到图像合成框架PIXART-δ:0.5秒内生成1024×1024像素的图像

    来自华为诺亚方舟实验室、大连理工大学、香港大学、香港科技大学的研究人员推出了文本到图像合成框架PIXART-δ,这是去年发布的PIXART-α模型的一个升级版本。PIXART-α以其高效的训练过程和生...
    新技术# AI绘画# PIXART-α# PIXART-δ
    2年前
    06960
    单前向视频生成模型SF-V:通过一次前向传播快速生成高质量、运动连贯的视频

    单前向视频生成模型SF-V:通过一次前向传播快速生成高质量、运动连贯的视频

    Snap和罗格斯大学的研究人员推出新型单步视频生成模型SF-V,此模型的核心特点是能够通过一次前向传播(single forward pass)快速生成高质量、运动连贯的视频,这对于需要实时视频合成和...
    新技术# SF-V# 单前向视频生成模型
    2年前
    06940
    DreamReward:通过人类偏好反馈来提升从文本到3D内容生成的质量

    DreamReward:通过人类偏好反馈来提升从文本到3D内容生成的质量

    生数科技发布创新框架DreamReward,它专注于通过人类偏好反馈来提升从文本到3D内容生成(text-to-3D generation)的质量。它通过结合人类反馈和先进的机器学习技术,极大地提高了...
    新技术# 3D模型# DreamReward
    2年前
    06940
    Adobe推出新版Photoshop:引入全新 Firefly Image 3模型,“调整刷”与“字体浏览器”带来新体验

    Adobe推出新版Photoshop:引入全新 Firefly Image 3模型,“调整刷”与“字体浏览器”带来新体验

    在昨天的Adobe Max大会上,Adobe带来了重磅更新:Photoshop迎来全新升级,并集成了图像生成模型Firefly Image 3。这一组合不仅为设计师和创意工作者带来了前所未有的AI图像...
    早报# Adobe# Firefly Image 3# Photoshop
    2年前
    06930
    无需训练、基于轨迹的可控图像生成技术TraDiffusion:允许用户通过鼠标轨迹来轻松引导图像的生成,而无需进行额外的训练或微调

    无需训练、基于轨迹的可控图像生成技术TraDiffusion:允许用户通过鼠标轨迹来轻松引导图像的生成,而无需进行额外的训练或微调

    厦门大学和中国科学院大学深圳先进技术研究院的研究人员推出新型图像生成技术TraDiffusion,这项技术的核心在于它允许用户通过鼠标轨迹来轻松引导图像的生成,而无需进行额外的训练或微调。简单来说,就...
    新技术# TraDiffusion# 图像生成
    1年前
    06920
    T-Stitch:加速预训练扩散模型采样过程

    T-Stitch:加速预训练扩散模型采样过程

    来自莫纳什大学、英伟达、威斯康星大学麦迪逊分校、加州理工学院的研究人员推出T-Stitch,它是一种用于加速预训练扩散模型采样过程的方法。 项目主页 GitHub 扩散模型是一类在图像生成领域表现出色...
    新技术# T-Stitch# 扩散模型# 采样
    2年前
    06920
    谷歌推出新框架ImageInWords(IIW):创建准确且细节丰富的图像描述,以提高视觉-语言模型的训练效果

    谷歌推出新框架ImageInWords(IIW):创建准确且细节丰富的图像描述,以提高视觉-语言模型的训练效果

    Google Research、Google DeepMind和华盛顿大学的研究团队推出新框架ImageInWords(IIW),此框架旨在创建准确且细节丰富的图像描述,以提高视觉-语言模型(VLMs...
    新技术# IIW# ImageInWords# 数据集
    2年前
    06910
    多模态模型Transfusion:能够同时处理离散数据(如文本)和连续数据(如图像)

    多模态模型Transfusion:能够同时处理离散数据(如文本)和连续数据(如图像)

    Meta、Waymo和南加州大学的研究人员推出多模态模型Transfusion,它能够同时处理离散数据(如文本)和连续数据(如图像)。Transfusion的核心思想是将语言模型的下一个词预测(nex...
    新技术# Transfusion# 多模态模型
    1年前
    06900
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    友链申请免责声明广告合作关于我们

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2025 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    朱雀大模型检测

    朱雀大模型检测

    腾讯朱雀 AI 检测是于 2025 年 1 月 17 日推出的一款 AI 生成内容检测工具,主要用于帮助用户识别 AI 生成的文本和图像内容。每位用户每天最多可检测20次文本和20次图片。
    OpenAI音频模型

    OpenAI音频模型

    OpenAI正式推出了全新的音频模型,涵盖了文本转语音(Text-to-Speech, TTS)和语音转文本(Speech-to-Text, STT)两大核心功能,为语音交互领域带来了重大突破。
    Eigent AI

    Eigent AI

    Eigent 是全球首个 多智能体工作流 桌面应用程序,帮助您构建、管理和部署定制化的 AI 工作团队,将最复杂的工作流程转化为自动化任务。基于 CAMEL-AI 广受赞誉的开源项目,我们的系统引入了 多智能体工作流,通过并行执行、定制化和隐私保护 提升生产力。
    oLLM

    oLLM

    oLLM 是一个轻量级的 Python 库,用于大型上下文 LLM 推理,基于 Huggingface Transformers 和 PyTorch 构建。它使运行像 gpt-oss-20B、qwen3-next-80B 或 Llama-3.1-8B-Instruct 这样的模型在 100k 上下文下使用约 200 美元的消费级 GPU(8GB VRAM)成为可能。不使用量化——仅使用 fp16/bf16 精度。
    通义万象

    通义万象

    通义万象是阿里云旗下的图像及视频生成平台,凭借其强大的多模态生成能力,正在引领生成式 AI 的发展。除了传统的文生图能力,通义万象现已支持文生视频、图生视频等多种功能,并在插画设计、涂鸦作画、局部重绘、短片创作、配乐生成等场景化应用中表现出色。
    查看完整榜单