
TLDW
TLDW能把超长的YouTube视频一键变成结构化的学习工作空间。只需粘贴视频链接,应用就会自动生成亮点剪辑、带时间戳的AI问答,以及专属笔记区,让你几分钟就能吸收完一小时的视频内容。
Defuddle 能从网页中提取主要内容。它通过移除评论、侧边栏、页眉、页脚和其他非必要元素来清理网页,只保留主要内容。
在信息过载的今天,从杂乱的网页中提取纯净的核心内容是一项高频需求。无论是为了阅读、归档还是作为 AI 的输入素材,我们都需要一个能精准剥离广告、侧边栏和导航栏的工具。Defuddle 是一款专为提取网页主要内容而设计的开源工具,它能将任意 URL 或 HTML 转化为干净的 Markdown 或 HTML,尤其适合需要高质量文本数据的场景。

Defuddle 最初是为浏览器扩展 Obsidian Web Clipper 打造的引擎,但因其出色的表现,现已独立成为一个通用的解决方案。它常被视为 Mozilla Readability 的强力替代品,但在处理复杂页面结构时表现得更加智能和宽容。
与传统的提取工具相比,Defuddle 在以下几个关键维度上进行了优化:
schema.org 数据,提取作者、发布日期、摘要、封面图等关键元信息。Defuddle 提供了极其灵活的使用方式,覆盖浏览器、Node.js 后端及命令行终端。
直接在浏览器环境中运行,无需额外依赖。
import Defuddle from 'defuddle';
const defuddle = new Defuddle(document);
const result = defuddle.parse();
console.log(result.title); // 文章标题
console.log(result.content); // 干净的 HTML 内容
console.log(result.author); // 作者
支持多种 DOM 实现(如 linkedom, jsdom, happy-dom),并可一键转换为 Markdown。
import { parseHTML } from 'linkedom';
import { Defuddle } from 'defuddle/node';
const { document } = parseHTML(htmlString);
const result = await Defuddle(document, 'https://example.com/article', {
markdown: true // 直接输出 Markdown
});
console.log(result.content);
无需编写代码,直接在终端快速提取内容,支持管道操作和文件输出。
# 提取 URL 内容并转为 Markdown
npx defuddle parse https://example.com/article --markdown
# 提取本地 HTML 文件并输出为 JSON(含元数据)
npx defuddle parse page.html --json
# 仅提取标题
npx defuddle parse page.html --property title
# 保存结果到文件
npx defuddle parse page.html --output result.md
Defuddle 不仅仅是“删除”噪音,它还会对保留的内容进行“清洗”和“标准化”,使其更适合后续处理:
data-lang),确保代码块在 Markdown 中正确渲染。> [!info])。用户可以通过丰富的参数微调提取行为,例如:
removeHiddenElements: 移除 CSS 隐藏元素。removeSmallImages: 过滤掉图标和追踪像素等小图。includeReplies: 控制是否提取评论区回复(支持针对特定站点优化)。language: 指定首选语言,优化多语言页面的提取效果。






