LittleCrawler(小爬虫)

3周前发布 56 00

LittleCrawler(小爬虫)是一个基于 Python 3.11+ 和 async/await 异步编程模型 的开源爬虫框架,专注于高效、稳定地抓取主流中文社交平台的公开内容。

所在地:
中国
收录时间:
2026-01-13
LittleCrawler(小爬虫)LittleCrawler(小爬虫)

如果你需要批量获取小红书笔记、知乎文章或闲鱼商品的公开信息,但又不想重复造轮子,LittleCrawler小爬虫)可能正是你需要的工具。

LittleCrawler(小爬虫)

这是一个基于 Python 3.11+ 和 async/await 异步编程模型 的开源爬虫框架,专注于高效、稳定地抓取主流中文社交平台的公开内容。目前支持:

平台代号可抓取内容
小红书xhs笔记列表、笔记详情、作者信息
闲鱼xy商品信息、关联笔记、卖家资料
知乎zhihu文章列表、文章详情、作者主页

注:项目仅抓取公开可访问的数据,不涉及账号登录、私信或反爬绕过等敏感操作。

为什么选择异步架构?

传统爬虫逐个请求,效率受限于网络 I/O。而 LittleCrawler 基于 asyncio + httpx + Playwright,利用异步并发能力,在单机上即可实现高吞吐抓取——尤其适合需要批量采集多个页面的场景。

LittleCrawler(小爬虫)

同时,它使用 Playwright 控制 Chromium,能正确渲染动态加载内容(如小红书的瀑布流),避免因前端框架导致的数据缺失。

快速上手

环境准备

  • Python ≥ 3.11
  • 推荐使用 uv(更快的依赖管理器),也可用 pip
  • 安装 Chromium 浏览器驱动
# 克隆项目
git clone https://github.com/pbeenig/LittleCrawler.git
cd LittleCrawler

# 安装依赖
uv sync
# 或
pip install -r requirements.txt

# 安装浏览器
playwright install chromium

运行爬虫

默认使用 config/base_config.py 中的配置:

python main.py

也可指定平台和任务类型:

# 抓取小红书搜索结果
python main.py --platform xhs --type search

# 初始化 SQLite 数据库
python main.py --init-db sqlite

所有抓取结果会自动存入本地数据库,便于后续分析或导出。

内置 Web 后台(可选)

项目提供了一个轻量级 Web 管理界面,方便查看任务状态与数据。

方式一:启动完整服务(含前端)

# 1. 编译前端
cd ./web && npm run build

# 2. 启动后端 API + 静态文件服务
uv run uvicorn api.main:app --port 8080 --reload

访问 http://127.0.0.1:8080 即可使用。

方式二:开发模式(前后端分离)

# 启动纯 API 服务
API_ONLY=1 uv run uvicorn api.main:app --port 8080 --reload

# 在另一个终端启动前端开发服务器
cd ./web && npm run dev

前端默认代理到 8080 端口,支持热重载,适合二次开发。

适用场景

  • 社交媒体内容监测(如竞品笔记分析)
  • 公开商品数据聚合(闲鱼二手市场趋势)
  • 知乎优质内容归档或语料收集
  • 学术研究中的中文UGC数据采集

⚠️ 注意:请遵守各平台《robots.txt》及服务条款,合理控制请求频率,避免对目标服务器造成压力。

数据统计

相关导航

暂无评论

none
暂无评论...