SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    新技术

    共 972 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    教程新技术硬件科普早报
    排序
    发布更新浏览点赞
    当AI学会

    当AI学会"分工合作":谷歌DeepMind提出智能AI委托框架

    想象一个场景:你有一个非常复杂的任务,比如策划一场跨国会议、开发一款新软件,或者管理一家公司的供应链。这个任务太复杂了,一个人(或一个AI)无法独立完成,需要拆分成许多小任务,分配给不同的人或AI来完...
    新技术# DeepMind# 智能AI委托框架
    2个月前
    0330
    Vec2Pix:用 SVG 矢量图“操控”FLUX.1,实现像素级精准编辑与重绘

    Vec2Pix:用 SVG 矢量图“操控”FLUX.1,实现像素级精准编辑与重绘

    在当前的 AI 绘图领域,我们往往面临一个尴尬的困境:生成容易,修改难。想要移动图中的物体、改变某个局部的颜色,或者调整形状,通常只能依赖复杂的 Inpainting(重绘)、繁琐的 ControlN...
    新技术# FLUX.1-dev# Vec2Pix
    2个月前
    01360
    阿里开源Zvec:向量数据库界的SQLite,边缘设备也能跑高性能本地RAG

    阿里开源Zvec:向量数据库界的SQLite,边缘设备也能跑高性能本地RAG

    阿里巴巴通义实验室正式开源嵌入式向量数据库 Zvec,这款进程内向量数据库被定位为“向量数据库领域的 SQLite”——无需依赖任何外部服务或守护进程,直接以库的形式运行在应用程序内部,专为笔记本电脑...
    新技术# Zvec# 嵌入式向量数据库
    2个月前
    0170
    Dummy Forcing:无需训练的自回归视频扩散模型加速方案,实现24.3FPS实时生成+6.58倍长上下文扩展

    Dummy Forcing:无需训练的自回归视频扩散模型加速方案,实现24.3FPS实时生成+6.58倍长上下文扩展

    由清华大学、微软亚洲研究院、中国科学技术大学、约翰斯·霍普金斯大学和苏黎世联邦理工学院联合提出的Dummy Forcing,是一款针对自回归视频扩散模型的无训练(training-free)加速技术...
    新技术# Dummy Forcing# 模型加速
    2个月前
    0330
    Cache-DiT:PyTorch原生DiT推理引擎,一行代码提速,支持70+扩散模型

    Cache-DiT:PyTorch原生DiT推理引擎,一行代码提速,支持70+扩散模型

    Cache-DiT是一款基于PyTorch原生构建的灵活推理引擎,核心目标是为Diffusers库提供统一的缓存加速与并行化支持,无需重新训练模型,仅需一行代码就能显著提升DiT类扩散模型的推理速度...
    新技术# Cache-DiT# DiT推理引擎
    2个月前
    0480
    告别 GPU 算力浪费!DeepSeek 条件记忆技术:让大模型检索静态知识更高效

    告别 GPU 算力浪费!DeepSeek 条件记忆技术:让大模型检索静态知识更高效

    当企业级大语言模型(LLM)在回答“iPhone 15 的电池容量是多少?”或“标准 NDA 条款包含哪些内容?”这类问题时,它正在动用为复杂推理设计的昂贵 GPU 计算资源——仅仅为了检索一段静态信...
    新技术# DeepSeek# Engram# 条件记忆
    3个月前
    0510
    SDNQ 量化:跨平台模型压缩方案,显著降低显存占用并提升推理速度

    SDNQ 量化:跨平台模型压缩方案,显著降低显存占用并提升推理速度

    SDNQ(Stable Diffusion Next Quantization) 是 SD.Next 中集成的一套全平台量化系统,支持 19 种整数量化 与 69 种浮点量化 方案,可在 英伟达、AM...
    新技术# SDNQ# 模型压缩
    3个月前
    02420
    DeepSeek发布mHC技术论文:流形约束超连接让大模型训练更稳更省成本,已验证270亿参数量

    DeepSeek发布mHC技术论文:流形约束超连接让大模型训练更稳更省成本,已验证270亿参数量

    2026年初,中国AI初创公司DeepSeek发布了一篇重磅技术论文,由创始人梁文锋合著。论文提出对基础AI模型训练的核心架构进行重新设计,推出全新技术“流形约束超连接(mHC)”,旨在以更低成本训练...
    新技术# DeepSeek# mHC
    3个月前
    0410
    宾大与伯克利提出 Vibe Space,让 AI 理解视觉概念的“vibe”

    宾大与伯克利提出 Vibe Space,让 AI 理解视觉概念的“vibe”

    当 AI 被要求“融合一个小提琴演奏者和一个吉他演奏者”,它该生成什么?是乐器颜色的平均?演奏姿态的混合?还是创造出一种新型弦乐器演奏者——比如手持鲁特琴、姿势介于两者之间的形象? 传统方法往往停留在...
    新技术# Vibe Space
    4个月前
    0500
    PPTAgent:根据文档自动化地生成高质量的演示文稿

    PPTAgent:根据文档自动化地生成高质量的演示文稿

    中国科学院软件研究所中文信息处理实验室、中国科学院大学和上海捷信科技有限公司的研究人员推出新型框架PPTAgent,旨在自动化地生成高质量的演示文稿。与传统的文本到幻灯片的转换方法不同,PPTAgen...
    新技术# PPTAgent
    4个月前
    02390
    阿里云新系统 Aegaeon:用 213 个 GPU 实现 1,192 个的推理能力

    阿里云新系统 Aegaeon:用 213 个 GPU 实现 1,192 个的推理能力

    阿里云在 ACM SOSP 2025(操作系统原理研讨会)上发表了一篇经同行评审的论文,介绍其名为 Aegaeon 的新型 GPU 池化系统。该系统在阿里云 Model Studio 平台的多月生产测...
    新技术# Aegaeon# 阿里云
    6个月前
    01020
    华为开源 SINQ:新型量化技术让大模型在消费级显卡上高效运行

    华为开源 SINQ:新型量化技术让大模型在消费级显卡上高效运行

    随着大语言模型(LLM)参数规模持续增长,部署成本已成为制约其广泛应用的主要瓶颈之一。 华为苏黎世计算系统实验室近日推出一项名为 SINQ(Sinkhorn-Normalized Quantizati...
    新技术# SINQ# 华为# 量化技术
    6个月前
    01350
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    ITELLOU

    ITELLOU

    ITELLYOU(也称为NEXT, ITELLYOU)是一个专注于提供微软原版软件资源的非官方网站,主要帮助用户获取未经修改的微软产品镜像,如Windows操作系统、Office办公软件和开发工具等。
    S.H.I.T

    S.H.I.T

    在主流学术界为顶刊版面、高影响因子和“非升即走”的考核指标疯狂内卷之时,一场名为“学术垃圾”的反叛运动正在角落里悄然兴起。一群“想开了”的硕博研究生和青年学者(青椒),不再试图迎合传统的学术评价体系,而是隆重推出了一系列名字惊世骇俗的“旗舰”期刊——《SHIT》、《Notrue》、《Silence》、《Crazy》。
    Tripo

    Tripo

    Tripo AI 是一家领先的 AI 驱动 3D 建模解决方案提供商,允许用户使用文本、单张图像、多张图像、涂鸦或视频等输入,快速创建高质量的 3D 模型和环境。
    TapNow

    TapNow

    TapNow是一个面向创作者的专业级 AI 视觉内容平台,支持从脚本撰写、分镜头设计到高保真成片输出的完整流程,单人即可在 1–3 天内完成传统需 4–6 周的影视级项目。
    MinerU

    MinerU

    MinerU是一款功能强大、操作简单的文档解析工具。它不仅支持多种格式和导入方式,还能精准提取复杂元素,适用于多种场景。无论是学术研究、数据分析还是日常办公,MinerU都能为你带来流畅、准确的解析体验。在科研、学习和工作中,处理复杂文档格式一直是一个让人头疼的问题。无论是科技文献中的公式、表格,还是多语言扫描版PDF,传统工具往往难以满足高效、精准的解析需求。而今天要介绍的 MinerU,正是一款专为解决这些问题而生的免费文档解析神器。它不仅能精准提取复杂元素,还支持多种格式一键转换,适用于从机器学习到大模型语料生产的多种场景。 全格式兼容,轻松导入 MinerU 的一大亮点是其强大的格式兼容性。无论你的文档是 PDF、Word、PPT 还是图片,MinerU 都能轻松应对。通过简单的拖拽、截图或批量上传,你就可以快速将文件导入工具中,无需繁琐的操作。 支持格式:PDF、Word、PPT、图片等主流文档类型。 操作便捷:拖拽、截图、批量上传,一键完成导入。 智能识别:自动检测扫描版PDF和乱码PDF,并启用OCR功能,支持84种语言的检测与识别。 复杂元素精准提取 对于科技文献、学术论文等包含复杂排版的文档,MinerU 表现尤为出色。它能够精准定位并提取图表、公式等复杂元素,确保内容完整且语义连贯。 精准定位:自动识别文档中的图表、公式、表格等复杂元素,并进行精准提取。 结构保留:输出结果保留原文档的标题、段落、列表等结构,确保逻辑清晰。 多模态解析:支持图像描述、表格标题、脚注等内容的提取,适配多种使用场景。 多场景极速输出 MinerU 不仅擅长解析文档,还提供了丰富的输出格式选择,满足不同场景的需求。无论是用于机器学习训练、大模型语料生产,还是构建 RAG(检索增强生成)系统,MinerU 都能提供高效的解决方案。 多种输出格式: Markdown:适合多模态与NLP任务。 JSON:按阅读顺序排序,便于后续处理。 LaTeX:自动识别并转换公式,极大提升科研效率。 HTML:自动转换表格,方便网页展示。 可视化支持:提供 layout 可视化、span 可视化等功能,便于高效确认输出效果与质检。 技术亮点与性能优化 MinerU 在技术层面同样表现出色,兼顾了易用性与性能优化: 跨平台支持:兼容 Windows、Linux 和 Mac 平台,满足不同用户的设备需求。 硬件加速:支持纯 CPU 环境运行,同时可选 GPU(CUDA)、NPU(CANN)、MPS 加速,显著提升处理速度。 高精度 OCR:针对扫描版PDF和乱码文档,MinerU 内置高精度OCR功能,支持84种语言的检测与识别。 主要功能一览 MinerU 的核心功能覆盖了文档解析的方方面面,帮助用户高效完成复杂的文档处理任务: 删除冗余元素:自动移除页眉、页脚、脚注、页码等内容,确保输出文本语义连贯。 阅读顺序优化:输出符合人类阅读习惯的文本,无论是单栏、多栏还是复杂排版都能轻松应对。 公式与表格转换: 自动识别并转换公式为 LaTeX 格式。 自动识别并转换表格为 HTML 格式。 多语言支持:OCR 功能支持84种语言,满足国际化需求。 灵活输出:支持多种格式输出(Markdown、JSON、LaTeX、HTML 等),适配多种应用场景。 适用场景广泛 MinerU 的设计初衷是为了服务于科研和技术发展,但它的应用范围远不止于此。以下是一些典型的应用场景: 机器学习与大模型训练:将大量文档转化为高质量的训练数据,助力模型语料生产。 RAG 系统构建:为检索增强生成系统提供结构化数据支持。 学术研究:快速解析科技文献,提取关键信息,提升科研效率。 企业办公:批量处理合同、报告等文档,节省人工整理时间。 为什么选择 MinerU? 相比其他文档解析工具,MinerU 的优势在于其全面性和精准性。它不仅能够处理各种复杂文档,还能根据用户需求输出多样化的结果。更重要的是,MinerU 完全免费,且持续优化以解决科技文献中的符号转化问题,为大模型时代的技术进步贡献力量。
    waoo

    waoo

    waoowaoo AI 影视 Studio 是一款基于 AI 技术的短剧/漫画视频制作工具,支持从小说文本自动生成分镜、角色、场景,并制作成完整视频。
    查看完整榜单