MediaCrawler

4周前发布 17 00

MediaCrawler - 自媒体平台爬虫是一个功能强大的多平台自媒体数据采集工具，支持小红书、抖音、快手、B站、微博、贴吧、知乎等主流平台的公开信息抓取。

所在地：

中国

收录时间：

2026-03-13

打开网站手机查看

MediaCrawler

打开网站

在数据驱动运营的今天，如何高效、稳定地获取小红书、抖音、B 站等主流平台的公开数据，是许多开发者和运营人员面临的难题。传统的爬虫方案往往深陷于复杂的 JS 逆向工程和加密参数破解中，门槛高且维护成本巨大。

MediaCrawler 是一款功能强大的多平台自媒体数据采集工具，它另辟蹊径，利用 Playwright 浏览器自动化框架 结合 登录态缓存 技术，完美避开了繁琐的逆向过程。无需破解加密算法，只需扫码登录，即可轻松抓取关键词搜索、指定帖子、二级评论及创作者主页等核心数据。

核心亮点：为何选择 MediaCrawler？

1. 告别 JS 逆向，技术门槛大幅降低

传统痛点：主流平台（如小红书、抖音）的参数签名（如 x-s, x-gorgon 等）加密极其复杂，逆向难度极大且随时可能失效。
MediaCrawler 方案：利用 Playwright 启动真实浏览器，用户扫码登录后，工具自动保存 Cookie/LocalStorage 等登录态。后续请求直接复用该上下文环境，通过简单的 JS 表达式即可获取所需参数。“用魔法打败魔法”，让爬虫开发回归业务逻辑本身。

2. 全平台覆盖，功能一应俱全

支持国内几乎所有主流自媒体平台的公开信息抓取：

📕 小红书 (Xiaohongshu)
🎵 抖音 (Douyin)
🤏 快手 (Kuaishou)
📺 B 站 (Bilibili)
🧣 微博 (Weibo)
📖 贴吧 (Tieba)
❓ 知乎 (Zhihu)

核心功能矩阵：

功能	描述	支持状态
关键词搜索	根据热搜词批量抓取相关笔记/视频	✅ 全支持
指定帖子 ID	精准抓取特定内容的详情与评论	✅ 全支持
二级评论爬取	深入挖掘评论区互动数据	✅ 全支持
创作者主页	批量采集大 V 或竞对的所有作品	✅ 全支持
登录态缓存	一次扫码，长期有效，避免频繁登录	✅ 全支持
IP 代理池	内置代理支持，防封禁更安全	✅ 全支持
词云生成	自动分析评论情感，生成可视化词云	✅ 全支持

3. Pro 版本重磅发布：企业级架构升级

对于有更高需求的团队，MediaCrawlerPro 提供了全方位的进阶能力：

🤖 AI Agent 集成：新增自媒体内容拆解 Agent，支持 OpenClaw/Claude Code/Cursor 一键安装，让 AI 自动执行爬取任务。
⚡ 断点续爬：任务意外中断？不用担心，从中断处继续，节省资源。
🌐 去 Playwright 依赖：Pro 版优化了底层架构，移除部分重型依赖，部署更轻量，完美支持 Linux 服务器 环境。
🏗️ 架构重构：代码高度解耦，签名逻辑独立，更适合二次开发和企业级大型项目构建。
🖥️ 桌面端工具：附赠自媒体视频下载器桌面端，适合全栈学习者参考。

快速开始：5 分钟上手

MediaCrawler 推荐使用现代化的 Python 包管理工具 uv，速度极快且依赖解析精准。

第一步：环境准备

安装 uv：官方指南
安装 Node.js：版本需 >= 16.0.0 (下载地址)

第二步：安装依赖

# 克隆项目
git clone https://github.com/NanmiCoder/MediaCrawler.git
cd MediaCrawler

# 同步 Python 环境（自动处理版本和依赖）
uv sync

# 安装浏览器驱动 (Playwright)
uv run playwright install

第三步：运行爬虫

以抓取小红书为例：

配置参数：编辑 config/base_config.py，设置关键词、爬取数量等（文件内有详细中文注释）。

执行命令：

# 模式 A：关键词搜索爬取
uv run main.py --platform xhs --lt qrcode --type search

# 模式 B：指定帖子 ID 爬取
uv run main.py --platform xhs --lt qrcode --type detail

扫码登录：运行后终端会显示二维码，使用对应 APP 扫码即可。登录态会自动缓存，下次运行无需再次扫码。

🎨 可视化操作：WebUI

如果不喜欢命令行，MediaCrawler 还提供了友好的 Web 界面：

# 启动 API 服务
uv run uvicorn api.main:app --port 8080 --reload

访问 http://localhost:8080，即可在浏览器中可视化配置任务、实时监控日志、预览和导出数据。

应用场景

竞品分析：监控竞争对手的爆款内容、更新频率及用户反馈。
舆情监控：抓取品牌相关讨论，分析用户情感倾向，及时应对危机。
素材收集：批量下载高清无水印视频/图片，建立自有素材库。
数据挖掘：积累海量评论数据，训练垂直领域的 NLP 模型或推荐算法。
学术研究：获取社交媒体传播规律、用户行为模式等研究数据。

注意事项

合规使用：本工具仅用于学习和研究目的，请严格遵守各平台的《robots 协议》及相关法律法规，切勿用于非法用途或高频恶意爬取。
账号安全：建议使用小号进行扫码登录，避免主账号因异常操作被风控。
IP 限制：大规模爬取时，请务必配置有效的 IP 代理池，防止 IP 被封禁。

数据统计

暂无评论

暂无评论...

MediaCrawler

核心亮点：为何选择 MediaCrawler？

1. 告别 JS 逆向，技术门槛大幅降低

2. 全平台覆盖，功能一应俱全

3. Pro 版本重磅发布：企业级架构升级

快速开始：5 分钟上手

第一步：环境准备

第二步：安装依赖

第三步：运行爬虫

🎨 可视化操作：WebUI

应用场景

注意事项

数据统计

相关导航

新Acrobat Student Spaces

Napkin

Agent Client Protocol（ACP）

Head AI

Ada

OpenCLI

markdown.new

Code Wiki

暂无评论

网址

S.H.I.T

Joker of Academics（小丑学术期刊）

新Flova

ITELLOU

BuildCores

waoo

S.H.I.T

Joker of Academics（小丑学术期刊）

新Flova

ITELLOU

BuildCores

waoo

MediaCrawler

核心亮点：为何选择 MediaCrawler？

1. 告别 JS 逆向，技术门槛大幅降低

2. 全平台覆盖，功能一应俱全

3. Pro 版本重磅发布：企业级架构升级

快速开始：5 分钟上手

第一步：环境准备

第二步：安装依赖

第三步：运行爬虫

🎨 可视化操作：WebUI

应用场景

注意事项

数据统计

相关导航

新Acrobat Student Spaces

Napkin

Agent Client Protocol（ACP）

Head AI

Ada

OpenCLI

markdown.new

Code Wiki

暂无评论

网址

S.H.I.T

Joker of Academics（小丑学术期刊 ）

新Flova

ITELLOU

BuildCores

waoo

标签云

网址

S.H.I.T

Joker of Academics（小丑学术期刊 ）

新Flova

ITELLOU

BuildCores

waoo

Joker of Academics（小丑学术期刊）

Joker of Academics（小丑学术期刊）