LittleCrawler（小爬虫）

2个月前发布 94 00

LittleCrawler（小爬虫）是一个基于 Python 3.11+ 和 async/await 异步编程模型的开源爬虫框架，专注于高效、稳定地抓取主流中文社交平台的公开内容。

所在地：

中国

收录时间：

2026-01-13

打开网站手机查看

实用工具 # LittleCrawler # 小爬虫

LittleCrawler（小爬虫）

打开网站

如果你需要批量获取小红书笔记、知乎文章或闲鱼商品的公开信息，但又不想重复造轮子，LittleCrawler（小爬虫）可能正是你需要的工具。

这是一个基于 Python 3.11+ 和 async/await 异步编程模型 的开源爬虫框架，专注于高效、稳定地抓取主流中文社交平台的公开内容。目前支持：

平台	代号	可抓取内容
小红书	`xhs`	笔记列表、笔记详情、作者信息
闲鱼	`xy`	商品信息、关联笔记、卖家资料
知乎	`zhihu`	文章列表、文章详情、作者主页

注：项目仅抓取公开可访问的数据，不涉及账号登录、私信或反爬绕过等敏感操作。

为什么选择异步架构？

传统爬虫逐个请求，效率受限于网络 I/O。而 LittleCrawler 基于 asyncio + httpx + Playwright，利用异步并发能力，在单机上即可实现高吞吐抓取——尤其适合需要批量采集多个页面的场景。

同时，它使用 Playwright 控制 Chromium，能正确渲染动态加载内容（如小红书的瀑布流），避免因前端框架导致的数据缺失。

快速上手

环境准备

Python ≥ 3.11
推荐使用 uv（更快的依赖管理器），也可用 pip
安装 Chromium 浏览器驱动

# 克隆项目
git clone https://github.com/pbeenig/LittleCrawler.git
cd LittleCrawler

# 安装依赖
uv sync
# 或
pip install -r requirements.txt

# 安装浏览器
playwright install chromium

运行爬虫

默认使用 config/base_config.py 中的配置：

python main.py

也可指定平台和任务类型：

# 抓取小红书搜索结果
python main.py --platform xhs --type search

# 初始化 SQLite 数据库
python main.py --init-db sqlite

所有抓取结果会自动存入本地数据库，便于后续分析或导出。

内置 Web 后台（可选）

项目提供了一个轻量级 Web 管理界面，方便查看任务状态与数据。

方式一：启动完整服务（含前端）

# 1. 编译前端
cd ./web && npm run build

# 2. 启动后端 API + 静态文件服务
uv run uvicorn api.main:app --port 8080 --reload

访问 http://127.0.0.1:8080 即可使用。

方式二：开发模式（前后端分离）

# 启动纯 API 服务
API_ONLY=1 uv run uvicorn api.main:app --port 8080 --reload

# 在另一个终端启动前端开发服务器
cd ./web && npm run dev

前端默认代理到 8080 端口，支持热重载，适合二次开发。

适用场景

社交媒体内容监测（如竞品笔记分析）
公开商品数据聚合（闲鱼二手市场趋势）
知乎优质内容归档或语料收集
学术研究中的中文UGC数据采集

⚠️ 注意：请遵守各平台《robots.txt》及服务条款，合理控制请求频率，避免对目标服务器造成压力。

数据统计

暂无评论

暂无评论...

LittleCrawler（小爬虫）

为什么选择异步架构？

快速上手

环境准备

运行爬虫

内置 Web 后台（可选）

方式一：启动完整服务（含前端）

方式二：开发模式（前后端分离）

适用场景

数据统计

相关导航

新WebToApp

人生 K 线

Fire Enrich

OpenCTI

红墨 - 小红书AI图文生成器

Next AI Draw.io

Flux AI Discord Bot

Unfaker

暂无评论

网址

S.H.I.T

新QClaw

CoPaw

新WorkBuddy

waoo

新AutoClaw

S.H.I.T

新QClaw

CoPaw

新WorkBuddy

waoo

新AutoClaw

LittleCrawler（小爬虫）

为什么选择异步架构？

快速上手

环境准备

运行爬虫

内置 Web 后台（可选）

方式一：启动完整服务（含前端）

方式二：开发模式（前后端分离）

适用场景

数据统计

相关导航

新WebToApp

人生 K 线

Fire Enrich

OpenCTI

红墨 - 小红书AI图文生成器

Next AI Draw.io

Flux AI Discord Bot

Unfaker

暂无评论

网址

S.H.I.T

新QClaw

CoPaw

新WorkBuddy

waoo

新AutoClaw

标签云

网址

S.H.I.T

新QClaw

CoPaw

新WorkBuddy

waoo

新AutoClaw