SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    新技术

    共 972 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    教程新技术硬件科普早报
    排序
    发布更新浏览点赞
    2DGS:从多视角图像重建和渲染三维场景

    2DGS:从多视角图像重建和渲染三维场景

    来自上海科技大学和图宾根大学的研究团队推出2D Gaussian Splatting(2DGS),它是一种用于从多视角图像重建和渲染三维场景的方法。 项目主页 论文 2DGS的核心思想是将3D体积简化...
    新技术# 2DGS# 3D模型# 三维场景
    2年前
    01,6970
    新型视频人脸超分辨率技术KEEP:让模糊不清的人脸视频变得清晰

    新型视频人脸超分辨率技术KEEP:让模糊不清的人脸视频变得清晰

    南洋理工大学 S-Lab推出一种新型视频人脸超分辨率技术KEEP,也就是让模糊不清的人脸视频变得清晰。例如,你手里有一些老旧电影的片段,或者监控摄像头拍到的模糊人脸,这项技术能够让这些人脸在视频中变得...
    新技术# KEEP# 视频人脸超分辨率
    2年前
    01,5850
    新型图像生成模型Diffusion Mamba(DiM):通过结合Mamba序列模型的效率和扩散模型的表现力,来高效生成高分辨率的图像

    新型图像生成模型Diffusion Mamba(DiM):通过结合Mamba序列模型的效率和扩散模型的表现力,来高效生成高分辨率的图像

    来自香港大学、华为诺亚方舟实验室、清华大学和上海交通大学的研究人员推出新型图像生成模型Diffusion Mamba(简称DiM),它融合了基于状态空间模型(SSM)的高效序列模型——Mamba,与扩...
    新技术# Diffusion Mamba# DiM# 图像生成
    2年前
    01,3920
    新型SD加速模型PCM:解决在高分辨率、文本条件图像生成中的一些现有问题而设计

    新型SD加速模型PCM:解决在高分辨率、文本条件图像生成中的一些现有问题而设计

    香港中文大学、 Avolution AI 、Hedra、上海人工智能实验室、商汤和斯坦福大学的研究人员推出新的SD加速模型PCM(Phased Consistency Model,分阶段一致性模型...
    新技术# LCM# PCM# SD模型
    2年前
    01,3910
    字节跳动推出PuLID:用于个性化文本到图像的生成

    字节跳动推出PuLID:用于个性化文本到图像的生成

    字节跳动推出PuLID,它用于个性化文本到图像(Text-to-Image,简称T2I)的生成。PuLID的全称是“Pure and Lightning ID customization”,即纯粹和闪...
    新技术# PuLID# 个性化图像生成# 字节跳动
    2年前
    01,3880
    一种新颖的模型微调方法DoRA:比LoRA更精细、更全面的微调策略

    一种新颖的模型微调方法DoRA:比LoRA更精细、更全面的微调策略

    DoRA(Weight-Decomposed Low-Rank Adaptation)是一种用于微调(fine-tuning)大型预训练模型的新方法。DoRA的核心思想是将预训练模型的权重分解为两个部...
    新技术# DoRA# Lora# 模型微调
    2年前
    01,3310
    新型图像上采样模型Inf-DiT:高效地对任何分辨率的图像进行上采样,即提高图像的分辨率而不失细节

    新型图像上采样模型Inf-DiT:高效地对任何分辨率的图像进行上采样,即提高图像的分辨率而不失细节

    清华大学与智谱AI的研究人员推出新型图像上采样模型Inf-DiT,它能够高效地对任何分辨率的图像进行上采样,即提高图像的分辨率而不失细节。在图像处理领域,上采样是一个重要的技术,它可以用于放大图像而不...
    新技术# Inf-DiT# 图像上采样模型
    2年前
    01,2860
    视频扩画方法MOTIA:根据视频内容自动学习并生成新的内容,适用于多种视频处理和创作的场景

    视频扩画方法MOTIA:根据视频内容自动学习并生成新的内容,适用于多种视频处理和创作的场景

    来自香港中文大学、Avolution AI、上海人工智能实验室和商汤科技研究院的研究团队推出视频扩画方法MOTIA(Mastering Video Outpainting Through Input...
    新技术# MOTIA# 视频扩画
    2年前
    01,2800
    用于生成长视频的模型FreeLong:在不增加额外训练成本的情况下,让现有的短视频生成模型处理更长的视频内容

    用于生成长视频的模型FreeLong:在不增加额外训练成本的情况下,让现有的短视频生成模型处理更长的视频内容

    悉尼科技大学和浙江大学的研究人员推出一种用于生成长视频的模型FreeLong,它可以在不增加额外训练成本的情况下,让现有的短视频生成模型处理更长的视频内容,同时保持或提升视频的质量。FreeLong是...
    新技术# FreeLong# 视频生成模型
    2年前
    01,2530
    新型图像分割模型EVF-SAM:利用多模态提示(即图像和文本),结合视觉-语言模型来生成指代提示,并借助SAM模型完成分割任务

    新型图像分割模型EVF-SAM:利用多模态提示(即图像和文本),结合视觉-语言模型来生成指代提示,并借助SAM模型完成分割任务

    华中科技大学和vivo AI 实验室的研究人员推出新型图像分割模型EVF-SAM,EVF-SAM的核心特点是它能够理解文本提示,并根据这些提示对图像中的对象进行精确分割。这项技术对于那些需要根据用户描...
    新技术# EVF-SAM# 图像分割模型
    2年前
    01,1960
    GaussianObject框架:仅用四张图片就重建出高质量的3D物体

    GaussianObject框架:仅用四张图片就重建出高质量的3D物体

    来自上海交大、华为、多伦多大学的研究人员推出GaussianObject框架,它能够仅用四张图片就重建出高质量的3D物体。这个框架利用了高斯溅射(Gaussian Splatting)技术,通过在稀疏...
    新技术# GaussianObject# 高斯溅射
    2年前
    01,1740
    ConsistentID:生成个性化人像图像时保持高度的面部身份(ID)一致性

    ConsistentID:生成个性化人像图像时保持高度的面部身份(ID)一致性

    来自 中山大学深圳校区、中山大学珠海校区、联想研究院和阿联酋起源人工智能研究院推出ConsistentID,它能够在生成个性化人像图像时保持高度的面部身份(ID)一致性。ConsistentID的核心...
    新技术# ConsistentID# 个性化人像
    2年前
    01,1710
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    ITELLOU

    ITELLOU

    ITELLYOU(也称为NEXT, ITELLYOU)是一个专注于提供微软原版软件资源的非官方网站,主要帮助用户获取未经修改的微软产品镜像,如Windows操作系统、Office办公软件和开发工具等。
    S.H.I.T

    S.H.I.T

    在主流学术界为顶刊版面、高影响因子和“非升即走”的考核指标疯狂内卷之时,一场名为“学术垃圾”的反叛运动正在角落里悄然兴起。一群“想开了”的硕博研究生和青年学者(青椒),不再试图迎合传统的学术评价体系,而是隆重推出了一系列名字惊世骇俗的“旗舰”期刊——《SHIT》、《Notrue》、《Silence》、《Crazy》。
    MinerU

    MinerU

    MinerU是一款功能强大、操作简单的文档解析工具。它不仅支持多种格式和导入方式,还能精准提取复杂元素,适用于多种场景。无论是学术研究、数据分析还是日常办公,MinerU都能为你带来流畅、准确的解析体验。在科研、学习和工作中,处理复杂文档格式一直是一个让人头疼的问题。无论是科技文献中的公式、表格,还是多语言扫描版PDF,传统工具往往难以满足高效、精准的解析需求。而今天要介绍的 MinerU,正是一款专为解决这些问题而生的免费文档解析神器。它不仅能精准提取复杂元素,还支持多种格式一键转换,适用于从机器学习到大模型语料生产的多种场景。 全格式兼容,轻松导入 MinerU 的一大亮点是其强大的格式兼容性。无论你的文档是 PDF、Word、PPT 还是图片,MinerU 都能轻松应对。通过简单的拖拽、截图或批量上传,你就可以快速将文件导入工具中,无需繁琐的操作。 支持格式:PDF、Word、PPT、图片等主流文档类型。 操作便捷:拖拽、截图、批量上传,一键完成导入。 智能识别:自动检测扫描版PDF和乱码PDF,并启用OCR功能,支持84种语言的检测与识别。 复杂元素精准提取 对于科技文献、学术论文等包含复杂排版的文档,MinerU 表现尤为出色。它能够精准定位并提取图表、公式等复杂元素,确保内容完整且语义连贯。 精准定位:自动识别文档中的图表、公式、表格等复杂元素,并进行精准提取。 结构保留:输出结果保留原文档的标题、段落、列表等结构,确保逻辑清晰。 多模态解析:支持图像描述、表格标题、脚注等内容的提取,适配多种使用场景。 多场景极速输出 MinerU 不仅擅长解析文档,还提供了丰富的输出格式选择,满足不同场景的需求。无论是用于机器学习训练、大模型语料生产,还是构建 RAG(检索增强生成)系统,MinerU 都能提供高效的解决方案。 多种输出格式: Markdown:适合多模态与NLP任务。 JSON:按阅读顺序排序,便于后续处理。 LaTeX:自动识别并转换公式,极大提升科研效率。 HTML:自动转换表格,方便网页展示。 可视化支持:提供 layout 可视化、span 可视化等功能,便于高效确认输出效果与质检。 技术亮点与性能优化 MinerU 在技术层面同样表现出色,兼顾了易用性与性能优化: 跨平台支持:兼容 Windows、Linux 和 Mac 平台,满足不同用户的设备需求。 硬件加速:支持纯 CPU 环境运行,同时可选 GPU(CUDA)、NPU(CANN)、MPS 加速,显著提升处理速度。 高精度 OCR:针对扫描版PDF和乱码文档,MinerU 内置高精度OCR功能,支持84种语言的检测与识别。 主要功能一览 MinerU 的核心功能覆盖了文档解析的方方面面,帮助用户高效完成复杂的文档处理任务: 删除冗余元素:自动移除页眉、页脚、脚注、页码等内容,确保输出文本语义连贯。 阅读顺序优化:输出符合人类阅读习惯的文本,无论是单栏、多栏还是复杂排版都能轻松应对。 公式与表格转换: 自动识别并转换公式为 LaTeX 格式。 自动识别并转换表格为 HTML 格式。 多语言支持:OCR 功能支持84种语言,满足国际化需求。 灵活输出:支持多种格式输出(Markdown、JSON、LaTeX、HTML 等),适配多种应用场景。 适用场景广泛 MinerU 的设计初衷是为了服务于科研和技术发展,但它的应用范围远不止于此。以下是一些典型的应用场景: 机器学习与大模型训练:将大量文档转化为高质量的训练数据,助力模型语料生产。 RAG 系统构建:为检索增强生成系统提供结构化数据支持。 学术研究:快速解析科技文献,提取关键信息,提升科研效率。 企业办公:批量处理合同、报告等文档,节省人工整理时间。 为什么选择 MinerU? 相比其他文档解析工具,MinerU 的优势在于其全面性和精准性。它不仅能够处理各种复杂文档,还能根据用户需求输出多样化的结果。更重要的是,MinerU 完全免费,且持续优化以解决科技文献中的符号转化问题,为大模型时代的技术进步贡献力量。
    TapNow

    TapNow

    TapNow是一个面向创作者的专业级 AI 视觉内容平台,支持从脚本撰写、分镜头设计到高保真成片输出的完整流程,单人即可在 1–3 天内完成传统需 4–6 周的影视级项目。
    Tripo

    Tripo

    Tripo AI 是一家领先的 AI 驱动 3D 建模解决方案提供商,允许用户使用文本、单张图像、多张图像、涂鸦或视频等输入,快速创建高质量的 3D 模型和环境。
    waoo

    waoo

    waoowaoo AI 影视 Studio 是一款基于 AI 技术的短剧/漫画视频制作工具,支持从小说文本自动生成分镜、角色、场景,并制作成完整视频。
    查看完整榜单