SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    新技术

    共 943 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    教程新技术硬件科普早报
    排序
    发布更新浏览点赞
    新型图像编辑框架SEELE:图像主体重新定位

    新型图像编辑框架SEELE:图像主体重新定位

    来自复旦大学的研究人员推出了一种新型图像编辑框架SEELE(SEgment-gEnerate-and-bLEnd),它专注于在图像中重新定位指定的对象(即“主体”),同时保持图像的整体质量。 项目主页...
    新技术# SEELE# 图像编辑
    2年前
    06130
    3D场景生成技术BlockFusion:基于扩散模型的方法来创建和扩展3D场景

    3D场景生成技术BlockFusion:基于扩散模型的方法来创建和扩展3D场景

    来自腾讯、东京大学、澳大利亚国立大学、上海交通大学的研究人员推出新型3D场景生成技术BlockFusion,它使用基于扩散模型的方法来创建和扩展3D场景。 论文 BlockFusion的核心思想是将3...
    新技术# 3D场景生成# BlockFusion
    2年前
    07500
    新型图像生成技术StrokeNUWA:利用大语言模型生成矢量图形

    新型图像生成技术StrokeNUWA:利用大语言模型生成矢量图形

    StrokeNUWA是一种新型图像生成技术,用于仅通过大语言模型(LLM)生成矢量图形,无需依赖专门的视觉模块。 论文 该方法的关键创新在于利用矢量图形固有的视觉语义,将矢量图形编码为"笔画"标记,这...
    新技术# LLM# StrokeNUWA# 大语言模型
    2年前
    06530
    通义千问视觉理解模型 Qwen-VL升级版:Qwen-VL-Plus、Qwen-VL-Max

    通义千问视觉理解模型 Qwen-VL升级版:Qwen-VL-Plus、Qwen-VL-Max

    阿里云宣布通义千问视觉理解模型 Qwen-VL 再次升级,继 Plus 版本之后推出 Max 版本,升级版模型拥有更强的视觉推理能力和中文理解能力,能够根据图片识人、答题、创作、写代码,并在多个权威测...
    新技术# Qwen-VL-Max# Qwen-VL-Plus# 视觉理解模型
    2年前
    08530
    AI视频生成新框架Motion-I2V:让用户通过简单的轨迹绘制或区域选择来控制生成的视频内容

    AI视频生成新框架Motion-I2V:让用户通过简单的轨迹绘制或区域选择来控制生成的视频内容

    来自NVIDIA AI、香港中文大学、商汤科技、清华大学、CPII、上海人工智能实验室、Avolution AI的研究人员推出图像到视频生成(I2V)新框架Motion-I2V,它是一个用于将静态图片...
    新技术# AI视频生成# Motion-I2V# 清华大学
    2年前
    07830
    无需训练的组合式文本到图像生成方法CompAgent

    无需训练的组合式文本到图像生成方法CompAgent

    来自清华大学、华为诺亚方舟实验室、香港大学的研究人员提出了一种无需训练的组合式文本到图像生成方法CompAgent,该方法利用大语言模型(LLM)智能体进行复杂文本提示的分析与规划,将文本分解为单个对...
    新技术# CompAgent# 华为诺亚方舟# 文生图
    2年前
    06850
    单样本文生图模型的微调方法:解决泛化性和真实性问题

    单样本文生图模型的微调方法:解决泛化性和真实性问题

    来自腾讯的研究人员提出了一种面向对象的单样本文生图模型的微调方法Object-Driven One-Shot Fine-tuning of Text-to-Image Diffusion with P...
    新技术# Lora# 微调# 文生图
    2年前
    07060
    新型视觉模型训练方法SynCLR:完全从生成模型中学习,不需要任何真实数据

    新型视觉模型训练方法SynCLR:完全从生成模型中学习,不需要任何真实数据

    来自谷歌和MIT的研究人员提出一种新型视觉模型训练方法SynCLR,它完全从生成模型中学习,而不需要任何真实数据。 GitHub 论文 SynCLR的核心思想是利用大语言模型(LLMs)生成大量的图像...
    新技术# SynCLR# 大模型# 大语言模型
    2年前
    06200
    Media2Face:集成多种媒体输入(音频、图像和文本)生成同步的面部动画和头部姿势

    Media2Face:集成多种媒体输入(音频、图像和文本)生成同步的面部动画和头部姿势

    来自上海科技大学、影眸科技、香港大学和叠境数字科技的研究人员提出一个基于扩散的生成模型Media2Face,它能够根据语音信号和多模态条件(如文本、图像)生成同步的面部动画和头部姿势。 项目主页 Me...
    新技术# Media2Face
    2年前
    05840
    文本到图像合成框架PIXART-δ:0.5秒内生成1024×1024像素的图像

    文本到图像合成框架PIXART-δ:0.5秒内生成1024×1024像素的图像

    来自华为诺亚方舟实验室、大连理工大学、香港大学、香港科技大学的研究人员推出了文本到图像合成框架PIXART-δ,这是去年发布的PIXART-α模型的一个升级版本。PIXART-α以其高效的训练过程和生...
    新技术# AI绘画# PIXART-α# PIXART-δ
    2年前
    07050
    基于SAM的新型视觉模型Open-Vocabulary SAM:交互式的图像分割和识别

    基于SAM的新型视觉模型Open-Vocabulary SAM:交互式的图像分割和识别

    来自南洋理工大学、上海AI实验室的研究人员推出了一款基于SAM的新型视觉模型Open-Vocabulary SAM,它结合了Segment Anything Model(SAM)和CLIP模型的优势...
    新技术# Open-Vocabulary SAM# SAM# 图像分割
    2年前
    08270
    双语文本到图像生成模型Taiyi-Diffusion-XL,支持中文提示词

    双语文本到图像生成模型Taiyi-Diffusion-XL,支持中文提示词

    IDEA 研究院是由沈向洋创立,他们在2021年11月22日宣布启动“封神榜”大模型开源体系。“封神榜”是由 IDEA-CCNL 的工程师、研究人员、实习生团队共同维护的一项长期开源计划。项目基于Ap...
    新技术# SDXL# Taiyi-Diffusion-XL# 中文提示词
    2年前
    08100
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    火宝短剧(Huobao Drama)

    新火宝短剧(Huobao Drama)

    火宝短剧是一个基于AI的短剧自动化生产平台,实现从剧本生成、角色设计、分镜制作到视频合成的全流程自动化。
    OpenStock

    OpenStock

    OpenStock 是昂贵市场平台的开源替代品。追踪实时价格、设置个性化提醒并探索详细的公司洞察——公开构建,为所有人服务,永久免费。
    Tripo

    Tripo

    Tripo AI 是一家领先的 AI 驱动 3D 建模解决方案提供商,允许用户使用文本、单张图像、多张图像、涂鸦或视频等输入,快速创建高质量的 3D 模型和环境。
    NotebookLM

    NotebookLM

    NotebookLM是谷歌推出的一款个性化AI协作工具,旨在帮助用户更高效地进行信息整理和笔记记录。利用强大的语言模型帮助用户更快地从各种文本、图像以及网页中提取主要信息。
    YouMind

    YouMind

    YouMind 是一款重新构想的 AI 写作工具,帮助每个人轻松开启创作之旅。捕捉灵感、收集素材、撰写草稿,并将其转化为精炼的文章、播客、视频等丰富内容。
    查看完整榜单