SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 工具
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 知识库
  • 导航
  • 百科工具
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 工具
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 知识库
    • 导航
    • 百科工具

    百科

    共 2227 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    教程新技术硬件科普早报
    排序
    发布更新浏览点赞
    OPPO推出多步潜在一致性模型MLCM:用于加速生成图像

    OPPO推出多步潜在一致性模型MLCM:用于加速生成图像

    OPPO推出多步潜在一致性模型MLCM,它用于加速生成图像的潜在扩散模型(LDMs)。简而言之,MLCM能够快速生成高质量的图像,同时保持较低的计算成本。MLCM仅需2-8步采样即可生成高质量、令人愉...
    新技术# MLCM# OPPO# 多步潜在一致性模型
    2年前
    05650
    谷歌推出创新框架VLOGGER:只需要提供一张静态照片和一段语音,就能生成口型匹配的视频

    谷歌推出创新框架VLOGGER:只需要提供一张静态照片和一段语音,就能生成口型匹配的视频

    谷歌推出创新框架VLOGGER,它能够根据一段音频和一张人物的单张照片生成这个人说话和动作的逼真视频。想象一下,你只需提供一张你的照片和你的语音记录,VLOGGER就能制作出一个视频,在视频中你可以看...
    新技术# VLOGGER# 谷歌
    2年前
    05650
    用“Megakernel”打破LLM推理瓶颈:斯坦福Hazy Research实现Llama-1B史上最低延迟

    用“Megakernel”打破LLM推理瓶颈:斯坦福Hazy Research实现Llama-1B史上最低延迟

    在一些对响应速度极为敏感的应用场景中,例如对话式 AI 或人机协同的工作流系统,语言模型的推理延迟不仅影响效率,更直接影响用户体验。 以 Llama-3.2-1B 这类小型开源模型为例,在单序列生成任...
    新技术# Llama-1B# Megakernel
    7个月前
    05640
    3D重建模型MeshLRM:基于LRM的方法,能够从极少量的输入图像(仅需四张)快速重建出高质量的3D网格模型

    3D重建模型MeshLRM:基于LRM的方法,能够从极少量的输入图像(仅需四张)快速重建出高质量的3D网格模型

    来自加州大学圣地亚哥分校和Adob​​e的研究人员推出大型3D重建模型MeshLRM,这是一种新颖的基于LRM的方法,它能在不到一秒的时间内,能够从极少量的输入图像(仅需四张)快速重建出高质量的3D网...
    新技术# 3D重建模型# MeshLRM
    2年前
    05640
    人类偏好优化技术NCPPO:改善文生图模型,使其生成的图像更加符合人类的偏好

    人类偏好优化技术NCPPO:改善文生图模型,使其生成的图像更加符合人类的偏好

    俄罗斯国家研究型高等经济大学的研究人员推出新方法NCPPO,它用于改善文本到图像的扩散模型(Diffusion Models),使其生成的图像更加符合人类的偏好。扩散模型是一种生成模型,它们通过逐步去...
    新技术# NCPPO# 人类偏好# 文生图模型
    1年前
    05630
    多视角图像编辑技术QNeRF:多视角图像编辑的一致性和质量

    多视角图像编辑技术QNeRF:多视角图像编辑的一致性和质量

    特拉维夫大学、英伟达和卡内基梅隆大学的研究人员推出新型多视角图像编辑技术QNeRF(Query Neural Radiance Field),这项技术旨在解决在对同一场景从多个视角拍摄的图像集进行编辑...
    新技术# QNeRF# 多视角图像编辑
    2年前
    05630
    新型神经网络渲染技术Joint-TensoRF:使用2D图像作为监督,实现相机姿态和场景几何的精细调整

    新型神经网络渲染技术Joint-TensoRF:使用2D图像作为监督,实现相机姿态和场景几何的精细调整

    来自中国台湾阳明交通大学的研究人员推出新型神经网络渲染技术Joint-TensoRF,提高神经渲染中相机姿态和场景几何表示的联合优化性能,特别是在处理复杂场景时的鲁棒性,这对于许多3D视觉和图形应用领...
    新技术# Joint-TensoRF# 神经网络渲染
    2年前
    05630
    图像风格化技术B-LoRA:将单张图片中的风格和内容分离,从而实现高质量的图像风格化处理

    图像风格化技术B-LoRA:将单张图片中的风格和内容分离,从而实现高质量的图像风格化处理

    来自特拉维夫大学和赖希曼大学的研究团队推出B-LoRA(Block Low-Rank Adaptation),它能够将单张图片中的风格和内容分离,从而实现高质量的图像风格化处理。图像风格化是指在保持图...
    新技术# B-LoRA# 图像风格化
    1年前
    05620
    谷歌发布“多步一致性模型”(Multistep Consistency Models)

    谷歌发布“多步一致性模型”(Multistep Consistency Models)

    谷歌发布新型生成模型“多步一致性模型”(Multistep Consistency Models),它在图像、视频和音频生成领域具有潜在的应用价值。这个模型是介于传统的“一致性模型”(Consiste...
    新技术# 多步一致性模型# 谷歌
    2年前
    05620
    多模态框架FakeShield:通过多模态大语言模型评估图像的真实性,用于检测AI及PS图片

    多模态框架FakeShield:通过多模态大语言模型评估图像的真实性,用于检测AI及PS图片

    生成式AI的快速发展为内容创作带来了巨大便利,但同时也使得图像篡改变得更加容易且难以检测。当前的图像伪造检测和定位(IFDL)方法虽然通常有效,但仍面临两大挑战: 黑箱性质:检测原理未知,难以理解和解...
    新技术# FakeShield# 多模态框架
    1年前
    05610
    JINA AI推出新型多任务对比训练方法及其模型JINA CLIP:解决现有CLIP模型在文本检索任务中性能不佳的问题

    JINA AI推出新型多任务对比训练方法及其模型JINA CLIP:解决现有CLIP模型在文本检索任务中性能不佳的问题

    JINA AI推出新型多任务对比训练方法及其模型JINA CLIP,旨在解决现有CLIP(Contrastive Language-Image Pretraining,对比语言-图像预训练)模型在文本...
    新技术# JINA CLIP# 对比语言-图像预训练模型
    2年前
    05600
    FaceChain-SuDe:提高个性化图像生成的属性相关性

    FaceChain-SuDe:提高个性化图像生成的属性相关性

    来自北京大学、阿里巴巴、清华大学和鹏程实验室的研究团队推出FaceChain-SuDe,这是一种用于个性化文本到图像生成的方法,旨在提高个性化图像生成(subject-driven generatio...
    新技术# FaceChain-SuDe# 个性化图像生成
    2年前
    05600
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    友链申请免责声明广告合作关于我们

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2025 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    朱雀大模型检测

    朱雀大模型检测

    腾讯朱雀 AI 检测是于 2025 年 1 月 17 日推出的一款 AI 生成内容检测工具,主要用于帮助用户识别 AI 生成的文本和图像内容。每位用户每天最多可检测20次文本和20次图片。
    秒哒

    秒哒

    百度秒哒,由百度智能云倾力打造的国内首个“对话式”应用开发平台,正式全量上线。作为一款无代码工具,秒哒致力于让每个人都能通过自然语言描述需求,自动生成完整功能代码,轻松实现创意想法。
    OiiOii AI

    OiiOii AI

    OiiOii.ai 是一个基于多智能体架构的动画生成平台,其核心目标是将动画制作从线性协作流程,转变为端到端的自动化生成。用户只需上传一张图片或输入一段文字描述,系统即可自动完成剧本生成、分镜设计、角色建模、镜头调度、配乐合成与最终渲染,输出一段完整动画视频。
    Tripo

    Tripo

    Tripo AI 是一家领先的 AI 驱动 3D 建模解决方案提供商,允许用户使用文本、单张图像、多张图像、涂鸦或视频等输入,快速创建高质量的 3D 模型和环境。
    Higgsfield AI

    Higgsfield AI

    Higgsfield AI平台支持文生图和图生视频,近期对图生视频功能进行了全面升级,专为追求高质量、风格化内容创作并渴望真正电影级操控的创意人士打造——无论是MV导演、商业片制作人、AI创作者,还是社交媒体叙事者。
    查看完整榜单