MediaCrawler

4天前发布 2 00

MediaCrawler - 自媒体平台爬虫是一个功能强大的多平台自媒体数据采集工具,支持小红书、抖音、快手、B站、微博、贴吧、知乎等主流平台的公开信息抓取。

所在地:
中国
收录时间:
2026-03-13
MediaCrawlerMediaCrawler

在数据驱动运营的今天,如何高效、稳定地获取小红书、抖音、B 站等主流平台的公开数据,是许多开发者和运营人员面临的难题。传统的爬虫方案往往深陷于复杂的 JS 逆向工程和加密参数破解中,门槛高且维护成本巨大。

MediaCrawler 是一款功能强大的多平台自媒体数据采集工具,它另辟蹊径,利用 Playwright 浏览器自动化框架 结合 登录态缓存 技术,完美避开了繁琐的逆向过程。无需破解加密算法,只需扫码登录,即可轻松抓取关键词搜索、指定帖子、二级评论及创作者主页等核心数据。

MediaCrawler

 核心亮点:为何选择 MediaCrawler?

1. 告别 JS 逆向,技术门槛大幅降低

  • 传统痛点:主流平台(如小红书、抖音)的参数签名(如 x-sx-gorgon 等)加密极其复杂,逆向难度极大且随时可能失效。
  • MediaCrawler 方案:利用 Playwright 启动真实浏览器,用户扫码登录后,工具自动保存 Cookie/LocalStorage 等登录态。后续请求直接复用该上下文环境,通过简单的 JS 表达式即可获取所需参数。“用魔法打败魔法”,让爬虫开发回归业务逻辑本身。

2. 全平台覆盖,功能一应俱全

支持国内几乎所有主流自媒体平台的公开信息抓取:

  • 📕 小红书 (Xiaohongshu)
  • 🎵 抖音 (Douyin)
  • 🤏 快手 (Kuaishou)
  • 📺 B 站 (Bilibili)
  • 🧣 微博 (Weibo)
  • 📖 贴吧 (Tieba)
  • ❓ 知乎 (Zhihu)

核心功能矩阵

功能描述支持状态
关键词搜索根据热搜词批量抓取相关笔记/视频✅ 全支持
指定帖子 ID精准抓取特定内容的详情与评论✅ 全支持
二级评论爬取深入挖掘评论区互动数据✅ 全支持
创作者主页批量采集大 V 或竞对的所有作品✅ 全支持
登录态缓存一次扫码,长期有效,避免频繁登录✅ 全支持
IP 代理池内置代理支持,防封禁更安全✅ 全支持
词云生成自动分析评论情感,生成可视化词云✅ 全支持

3. Pro 版本重磅发布:企业级架构升级

对于有更高需求的团队,MediaCrawlerPro 提供了全方位的进阶能力:

  • 🤖 AI Agent 集成:新增自媒体内容拆解 Agent,支持 OpenClaw/Claude Code/Cursor 一键安装,让 AI 自动执行爬取任务。
  • ⚡ 断点续爬:任务意外中断?不用担心,从中断处继续,节省资源。
  • 🌐 去 Playwright 依赖:Pro 版优化了底层架构,移除部分重型依赖,部署更轻量,完美支持 Linux 服务器 环境。
  • 🏗️ 架构重构:代码高度解耦,签名逻辑独立,更适合二次开发和企业级大型项目构建。
  • 🖥️ 桌面端工具:附赠自媒体视频下载器桌面端,适合全栈学习者参考。

快速开始:5 分钟上手

MediaCrawler 推荐使用现代化的 Python 包管理工具 uv,速度极快且依赖解析精准。

第一步:环境准备

  1. 安装 uv官方指南
  2. 安装 Node.js:版本需 >= 16.0.0 (下载地址)

第二步:安装依赖

# 克隆项目
git clone https://github.com/NanmiCoder/MediaCrawler.git
cd MediaCrawler

# 同步 Python 环境(自动处理版本和依赖)
uv sync

# 安装浏览器驱动 (Playwright)
uv run playwright install

第三步:运行爬虫

以抓取小红书为例:

  1. 配置参数:编辑 config/base_config.py,设置关键词、爬取数量等(文件内有详细中文注释)。
  2. 执行命令
    # 模式 A:关键词搜索爬取
    uv run main.py --platform xhs --lt qrcode --type search
    
    # 模式 B:指定帖子 ID 爬取
    uv run main.py --platform xhs --lt qrcode --type detail
    
  3. 扫码登录:运行后终端会显示二维码,使用对应 APP 扫码即可。登录态会自动缓存,下次运行无需再次扫码。

🎨 可视化操作:WebUI

如果不喜欢命令行,MediaCrawler 还提供了友好的 Web 界面:

# 启动 API 服务
uv run uvicorn api.main:app --port 8080 --reload

访问 http://localhost:8080,即可在浏览器中可视化配置任务、实时监控日志、预览和导出数据。

 应用场景

  • 竞品分析:监控竞争对手的爆款内容、更新频率及用户反馈。
  • 舆情监控:抓取品牌相关讨论,分析用户情感倾向,及时应对危机。
  • 素材收集:批量下载高清无水印视频/图片,建立自有素材库。
  • 数据挖掘:积累海量评论数据,训练垂直领域的 NLP 模型或推荐算法。
  • 学术研究:获取社交媒体传播规律、用户行为模式等研究数据。

注意事项

  • 合规使用:本工具仅用于学习和研究目的,请严格遵守各平台的《robots 协议》及相关法律法规,切勿用于非法用途或高频恶意爬取。
  • 账号安全:建议使用小号进行扫码登录,避免主账号因异常操作被风控。
  • IP 限制:大规模爬取时,请务必配置有效的 IP 代理池,防止 IP 被封禁。

数据统计

相关导航

暂无评论

none
暂无评论...