SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    新技术

    共 972 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    教程新技术硬件科普早报
    排序
    发布更新浏览点赞
    OmniJigsaw:通过“模态拼图”解锁全模态 AI 的深度推理能力

    新OmniJigsaw:通过“模态拼图”解锁全模态 AI 的深度推理能力

    OmniJigsaw 是由 浙江大学 和 小米 联合提出的一种创新的全模态(Audio-Video)自监督学习框架。它旨在解决当前多模态大模型在视频和音频协同理解上的不足,通过一种名为“时间重排序”的...
    新技术# OmniJigsaw
    11小时前
    030
    DiffHDR:用视频扩散模型“复活”丢失的光影,实现可控 LDR 到 HDR 转换

    新DiffHDR:用视频扩散模型“复活”丢失的光影,实现可控 LDR 到 HDR 转换

    大多数数字视频受限于存储格式,以 8 位低动态范围(LDR) 保存。这意味着原始场景中丰富的高光细节(如云层纹理、灯光光晕)和阴影层次(如暗部织物、夜景角落)因饱和与量化而永久丢失。这不仅限制了在 H...
    新技术# DiffHDR
    2天前
    060
    RotorQuant:LLM KV 缓存压缩的“几何革命”,速度提升 5 倍,参数减少 44 倍

    新RotorQuant:LLM KV 缓存压缩的“几何革命”,速度提升 5 倍,参数减少 44 倍

    RotorQuant 是一项突破性的 KV 缓存量化技术,旨在解决大型语言模型(LLM)在长上下文推理中的显存瓶颈。通过引入块对角旋转(Block-Diagonal Rotation)替代传统的蝴蝶网...
    新技术# RotorQuant
    2天前
    080
    Cursor推出MoE推理加速方法Warp Decode:翻转并行轴,MoE 推理提速 1.84 倍的硬件级优化

    Cursor推出MoE推理加速方法Warp Decode:翻转并行轴,MoE 推理提速 1.84 倍的硬件级优化

    在英伟达 Blackwell GPU 上,针对小批量(Small Batch)自回归解码场景,一种名为 Warp Decode 的新内核设计彻底改变了混合专家(MoE)模型的推理方式。通过翻转并行性轴...
    新技术# Cursor# Warp Decode# 推理加速
    4天前
    0120
    TriAttention:基于三角 KV 压缩的高效长推理,让 32B 模型在 24GB 显存上流畅运行

    TriAttention:基于三角 KV 压缩的高效长推理,让 32B 模型在 24GB 显存上流畅运行

    麻省理工学院、英伟达和浙江大学的研究人员联合推出了一项突破性技术——TriAttention。这是一种基于三角级数(Triangular Series)的 KV 缓存压缩方法,解决大型语言模型(LLM...
    新技术# TriAttention
    4天前
    0340
    别卷记忆模块了!南洋理工新发现:只看最近4帧,直接碾压13个SOTA模型

    别卷记忆模块了!南洋理工新发现:只看最近4帧,直接碾压13个SOTA模型

    在AI领域,我们常常陷入一种迷思:“模型越复杂、记忆越长,效果就越好。” 尤其是在流式视频理解(Streaming Video Understanding)这一前沿赛道,各大研究团队都在拼命堆砌复杂的...
    新技术# SimpleStream
    5天前
    0120
    IndexCache:解锁长上下文 AI 的“速度密码”,推理提速高达 1.82 倍

    IndexCache:解锁长上下文 AI 的“速度密码”,推理提速高达 1.82 倍

    在处理 20 万 token 甚至更长的上下文时,大型语言模型(LLM)往往面临“又贵又慢”的困境。随着上下文长度增加,计算成本呈平方级飙升,成为阻碍长文档分析、复杂智能体工作流落地的最大瓶颈。 论文...
    新技术# IndexCache
    7天前
    0130
    Hugging Face发布TRL v1.0 :统一大模型后训练工作流,从 SFT 到 DPO/GRPO 一站式解决

    Hugging Face发布TRL v1.0 :统一大模型后训练工作流,从 SFT 到 DPO/GRPO 一站式解决

    Hugging Face 正式发布了 TRL (Transformer Reinforcement Learning) v1.0。这标志着该库从一个主要用于学术研究的实验性仓库,正式转型为稳定、生产就...
    新技术# Hugging Face# TRL v1.0
    2周前
    0290
    TurboQuant:谷歌新算法实现零精度损失压缩,KV Cache 内存缩减 6 倍

    TurboQuant:谷歌新算法实现零精度损失压缩,KV Cache 内存缩减 6 倍

    在大型语言模型(LLM)向更长上下文、更复杂任务演进的过程中,显存瓶颈已成为制约效率的关键障碍。尤其是键值缓存(KV Cache),随着序列长度增加呈线性增长,不仅占用大量显存,还限制了推理速度和并发...
    新技术# KV Cache# TurboQuant# 谷歌
    3周前
    0580
    PaCo-RL:西安交大首创“一致性裁判”强化学习框架,让AI生成四张图也能保持角色与风格完美统

    PaCo-RL:西安交大首创“一致性裁判”强化学习框架,让AI生成四张图也能保持角色与风格完美统

    你是否曾有过这样的经历:想让AI画一组连环画,比如“一只狐狸在森林、舞台、海边、卧室弹吉他”,结果AI生成的四张图里,狐狸变成了四种不同的动物,吉他变了样,画风也从油画突变成了水彩? 这就是AI绘画领...
    新技术# PaCo-RL
    3周前
    0870
    清华与蚂蚁发布 OpenClaw 五层安全框架:揭示技能投毒与内存污染风险,构建全生命周期纵深防御

    清华与蚂蚁发布 OpenClaw 五层安全框架:揭示技能投毒与内存污染风险,构建全生命周期纵深防御

    随着 OpenClaw 等自主 LLM 智能体从“被动问答”进化为能执行高权限系统任务的“主动实体”,其面临的安全挑战也发生了质变。 论文地址:https://arxiv.org/pdf/2603.1...
    新技术# OpenClaw
    3周前
    0180
    月之暗面发布 Attention Residuals:用深度注意力替代固定残差,Kimi Linear 多项基准性能显著提升

    月之暗面发布 Attention Residuals:用深度注意力替代固定残差,Kimi Linear 多项基准性能显著提升

    在现代 Transformer 架构中,残差连接(Residual Connection)一直是维持深层网络训练稳定的基石。然而,月之暗面(Moonshot AI)的研究人员指出,这种沿用多年的标准机...
    新技术# Attention Residuals# Kimi# 月之暗面
    3周前
    0170
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    ITELLOU

    ITELLOU

    ITELLYOU(也称为NEXT, ITELLYOU)是一个专注于提供微软原版软件资源的非官方网站,主要帮助用户获取未经修改的微软产品镜像,如Windows操作系统、Office办公软件和开发工具等。
    S.H.I.T

    S.H.I.T

    在主流学术界为顶刊版面、高影响因子和“非升即走”的考核指标疯狂内卷之时,一场名为“学术垃圾”的反叛运动正在角落里悄然兴起。一群“想开了”的硕博研究生和青年学者(青椒),不再试图迎合传统的学术评价体系,而是隆重推出了一系列名字惊世骇俗的“旗舰”期刊——《SHIT》、《Notrue》、《Silence》、《Crazy》。
    MinerU

    MinerU

    MinerU是一款功能强大、操作简单的文档解析工具。它不仅支持多种格式和导入方式,还能精准提取复杂元素,适用于多种场景。无论是学术研究、数据分析还是日常办公,MinerU都能为你带来流畅、准确的解析体验。在科研、学习和工作中,处理复杂文档格式一直是一个让人头疼的问题。无论是科技文献中的公式、表格,还是多语言扫描版PDF,传统工具往往难以满足高效、精准的解析需求。而今天要介绍的 MinerU,正是一款专为解决这些问题而生的免费文档解析神器。它不仅能精准提取复杂元素,还支持多种格式一键转换,适用于从机器学习到大模型语料生产的多种场景。 全格式兼容,轻松导入 MinerU 的一大亮点是其强大的格式兼容性。无论你的文档是 PDF、Word、PPT 还是图片,MinerU 都能轻松应对。通过简单的拖拽、截图或批量上传,你就可以快速将文件导入工具中,无需繁琐的操作。 支持格式:PDF、Word、PPT、图片等主流文档类型。 操作便捷:拖拽、截图、批量上传,一键完成导入。 智能识别:自动检测扫描版PDF和乱码PDF,并启用OCR功能,支持84种语言的检测与识别。 复杂元素精准提取 对于科技文献、学术论文等包含复杂排版的文档,MinerU 表现尤为出色。它能够精准定位并提取图表、公式等复杂元素,确保内容完整且语义连贯。 精准定位:自动识别文档中的图表、公式、表格等复杂元素,并进行精准提取。 结构保留:输出结果保留原文档的标题、段落、列表等结构,确保逻辑清晰。 多模态解析:支持图像描述、表格标题、脚注等内容的提取,适配多种使用场景。 多场景极速输出 MinerU 不仅擅长解析文档,还提供了丰富的输出格式选择,满足不同场景的需求。无论是用于机器学习训练、大模型语料生产,还是构建 RAG(检索增强生成)系统,MinerU 都能提供高效的解决方案。 多种输出格式: Markdown:适合多模态与NLP任务。 JSON:按阅读顺序排序,便于后续处理。 LaTeX:自动识别并转换公式,极大提升科研效率。 HTML:自动转换表格,方便网页展示。 可视化支持:提供 layout 可视化、span 可视化等功能,便于高效确认输出效果与质检。 技术亮点与性能优化 MinerU 在技术层面同样表现出色,兼顾了易用性与性能优化: 跨平台支持:兼容 Windows、Linux 和 Mac 平台,满足不同用户的设备需求。 硬件加速:支持纯 CPU 环境运行,同时可选 GPU(CUDA)、NPU(CANN)、MPS 加速,显著提升处理速度。 高精度 OCR:针对扫描版PDF和乱码文档,MinerU 内置高精度OCR功能,支持84种语言的检测与识别。 主要功能一览 MinerU 的核心功能覆盖了文档解析的方方面面,帮助用户高效完成复杂的文档处理任务: 删除冗余元素:自动移除页眉、页脚、脚注、页码等内容,确保输出文本语义连贯。 阅读顺序优化:输出符合人类阅读习惯的文本,无论是单栏、多栏还是复杂排版都能轻松应对。 公式与表格转换: 自动识别并转换公式为 LaTeX 格式。 自动识别并转换表格为 HTML 格式。 多语言支持:OCR 功能支持84种语言,满足国际化需求。 灵活输出:支持多种格式输出(Markdown、JSON、LaTeX、HTML 等),适配多种应用场景。 适用场景广泛 MinerU 的设计初衷是为了服务于科研和技术发展,但它的应用范围远不止于此。以下是一些典型的应用场景: 机器学习与大模型训练:将大量文档转化为高质量的训练数据,助力模型语料生产。 RAG 系统构建:为检索增强生成系统提供结构化数据支持。 学术研究:快速解析科技文献,提取关键信息,提升科研效率。 企业办公:批量处理合同、报告等文档,节省人工整理时间。 为什么选择 MinerU? 相比其他文档解析工具,MinerU 的优势在于其全面性和精准性。它不仅能够处理各种复杂文档,还能根据用户需求输出多样化的结果。更重要的是,MinerU 完全免费,且持续优化以解决科技文献中的符号转化问题,为大模型时代的技术进步贡献力量。
    TapNow

    TapNow

    TapNow是一个面向创作者的专业级 AI 视觉内容平台,支持从脚本撰写、分镜头设计到高保真成片输出的完整流程,单人即可在 1–3 天内完成传统需 4–6 周的影视级项目。
    Tripo

    Tripo

    Tripo AI 是一家领先的 AI 驱动 3D 建模解决方案提供商,允许用户使用文本、单张图像、多张图像、涂鸦或视频等输入,快速创建高质量的 3D 模型和环境。
    waoo

    waoo

    waoowaoo AI 影视 Studio 是一款基于 AI 技术的短剧/漫画视频制作工具,支持从小说文本自动生成分镜、角色、场景,并制作成完整视频。
    查看完整榜单