SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 工具
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 知识库
  • 导航
  • 百科工具
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 工具
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 知识库
    • 导航
    • 百科工具

    百科

    共 2226 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    教程新技术硬件科普早报
    排序
    发布更新浏览点赞
    图像复制检测模型ICDiff:解决扩散模型生成图像的版权和原创性问题

    图像复制检测模型ICDiff:解决扩散模型生成图像的版权和原创性问题

    悉尼科技大学、百度和浙江大学的研究人员推出图像复制检测模型ICDiff,这是第一个专门针对扩散模型的ICD(图像复制检测)。为此,研究人员构建了一个扩散-复制(D-Rep)数据集,并相应地提出了一种新...
    新技术# ICDiff# PDF-Embedding# 图像复制检测
    1年前
    05800
    长视频生成新方法PA-VDM:现有的模型可以自然地扩展为自回归视频扩散模型,而无需改变架构

    长视频生成新方法PA-VDM:现有的模型可以自然地扩展为自回归视频扩散模型,而无需改变架构

    石溪大学和Adob​​e 研究中心的研究人员推出长视频生成新方法PA-VDM,它能够生成高质量的长视频。在解释这个主题时,我们可以把它想象成一个能够将静态图片或简短视频变成长篇电影的魔法盒子。 项目主...
    新技术# PA-VDM# 长视频生成
    1年前
    05790
    Claude 现可直接生成和编辑文件:Excel、PPT、PDF 全支持

    Claude 现可直接生成和编辑文件:Excel、PPT、PDF 全支持

    Anthropic 正式推出 Claude 文件创建与编辑功能,标志着其从“对话助手”向“生产力协作者”的关键跃迁。 现在,你不再需要让 Claude 只输出文本建议,而是可以直接对它说: “根据这份...
    早报# Claude
    3个月前
    05770
    多模态问答系统Lumos:结合场景文本识别和多模态大语言模型

    多模态问答系统Lumos:结合场景文本识别和多模态大语言模型

    来自Meta Reality Labs的研究人员推出了多模态问答系统Lumos,这是一个结合了场景文本识别(Scene Text Recognition, STR)和多模态大语言模型(Multimod...
    新技术# Lumos# 场景文本识别# 多模态大语言模型
    2年前
    05770
    FlexiDreamer:从单张图片生成三维(3D)模型

    FlexiDreamer:从单张图片生成三维(3D)模型

    来自中国科学院大学、清华大学、西安电子科技大学和生数科技的研究人员推出FlexiDreamer,它能够从单张图片生成三维(3D)模型。 项目主页 GitHub 例如,你有一张你喜欢的动漫角色的照片,F...
    新技术# 3D生成模型# FlexiDreamer
    2年前
    05760
    阿里发布 Wan2.2-I2V-Flash:更快、更稳、更可控的图生视频模型

    阿里发布 Wan2.2-I2V-Flash:更快、更稳、更可控的图生视频模型

    阿里通义大模型团队宣布,Wan2.2-I2V-Flash 正式上线。这款轻量级图生视频(Image-to-Video)模型,在保持高画质与强控制力的同时,实现了生成速度与性价比的显著跃升。 它不是对前...
    早报# Wan2.2-I2V-Flash
    4个月前
    05740
    diffusion-e2e-ft:通过微调图像条件扩散模型来简化和提高单目深度估计的效率

    diffusion-e2e-ft:通过微调图像条件扩散模型来简化和提高单目深度估计的效率

    亚琛工业大学和埃因霍温理工大学的研究人员推出diffusion-e2e-ft,通过微调图像条件扩散模型来简化和提高单目深度估计的效率。单目深度估计是指仅使用一张图片来预测场景中每个像素的深度信息。这项...
    新技术# diffusion-e2e-ft# 单目深度估计
    1年前
    05740
    统一Transformer模型Show-o:同时处理多模态理解(如图像和文本)和生成任务

    统一Transformer模型Show-o:同时处理多模态理解(如图像和文本)和生成任务

    新加坡国立大学和字节跳动的研究人员推出一种统一的Transformer模型Show-o,,它统一了多模态的理解和生成。不同于完全自回归模型,Show-o结合了自回归和(离散)扩散建模,以自适应地处理各...
    新技术# Show-o# Transformer模型
    1年前
    05740
    IPAdapter-Instruct:在处理基于图像的条件化时,能够更精确地理解用户的意图

    IPAdapter-Instruct:在处理基于图像的条件化时,能够更精确地理解用户的意图

    Unity推出IPAdapter-Instruct,它是一种用于图像生成的新技术,特别是在处理基于图像的条件化时,能够更精确地理解用户的意图。简单来说,这个模型可以让用户通过添加指令性提示(Instr...
    新技术# IPAdapter-Instruct
    1年前
    05740
    英伟达推出LATTE3D:快速生成3D模型

    英伟达推出LATTE3D:快速生成3D模型

    英伟达推出新型大规模文本到3D合成系统LATTE3D,LATTE3D的关键在于构建可扩展的架构,并利用3D数据在优化过程中引入3D感知扩散先验、形状正则化和模型初始化,以确保对不同和复杂的训练提示具有...
    新技术# 3D模型# LATTE3D
    2年前
    05740
    新型视频扩散模型StreamV2V:实现实时的视频到视频转换

    新型视频扩散模型StreamV2V:实现实时的视频到视频转换

    德克萨斯大学奥斯汀分校和加州大学伯克利分校的研究人员推出新型视频扩散模型StreamV2V,它能够实现实时的视频到视频(Video-to-Video,简称V2V)翻译。这项技术允许用户通过提示(pro...
    新技术# StreamV2V# 视频扩散模型
    2年前
    05730
    CameraCtrl:为文生视频模型提供精确的摄像机控制能力

    CameraCtrl:为文生视频模型提供精确的摄像机控制能力

    来自香港中文大学、上海人工智能实验室和斯坦福大学的研究人员推出CameraCtrl,它能够为文本到视频(Text-to-Video, T2V)生成模型提供精确的摄像机控制能力。在视频创作中,摄像机的移...
    新技术# CameraCtrl# 文生视频模型
    2年前
    05730
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    友链申请免责声明广告合作关于我们

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2025 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    朱雀大模型检测

    朱雀大模型检测

    腾讯朱雀 AI 检测是于 2025 年 1 月 17 日推出的一款 AI 生成内容检测工具,主要用于帮助用户识别 AI 生成的文本和图像内容。每位用户每天最多可检测20次文本和20次图片。
    秒哒

    秒哒

    百度秒哒,由百度智能云倾力打造的国内首个“对话式”应用开发平台,正式全量上线。作为一款无代码工具,秒哒致力于让每个人都能通过自然语言描述需求,自动生成完整功能代码,轻松实现创意想法。
    OiiOii AI

    OiiOii AI

    OiiOii.ai 是一个基于多智能体架构的动画生成平台,其核心目标是将动画制作从线性协作流程,转变为端到端的自动化生成。用户只需上传一张图片或输入一段文字描述,系统即可自动完成剧本生成、分镜设计、角色建模、镜头调度、配乐合成与最终渲染,输出一段完整动画视频。
    ITELLOU

    ITELLOU

    ITELLYOU(也称为NEXT, ITELLYOU)是一个专注于提供微软原版软件资源的非官方网站,主要帮助用户获取未经修改的微软产品镜像,如Windows操作系统、Office办公软件和开发工具等。
    Tripo

    Tripo

    Tripo AI 是一家领先的 AI 驱动 3D 建模解决方案提供商,允许用户使用文本、单张图像、多张图像、涂鸦或视频等输入,快速创建高质量的 3D 模型和环境。
    查看完整榜单