苏森AI

  • 首页
  • AI资讯
  • AI应用
  • AI工作流
  • AI智能体
  • AI提示词
苏森AI
从这里开启你的AI学习旅程!
  1. 首页
  2. AI应用
  3. 正文

33KStars!开源爬虫工具MediaCrawler:全平台数据采集神器

2025-08-25 101点热度 0人点赞 0条评论

📣 一、简介

MediaCrawler 是一款开源且功能强大的多平台内容爬虫神器,由 NanmiCoder(Relakkes)开源,主打“全平台数据一键采集”。从小红书、抖音、快手,到 B站、微博、百度贴吧、知乎,主流平台全覆盖 (GitHub)。
其核心是基于 Playwright 浏览器自动化,保留登录态,通过 JS 表达式获取签名参数,无需复杂逆向,就能稳定拿到数据 (GitHub)。


✨ 二、亮点

  • • 多平台覆盖:支持关键词搜索、帖子详情、创作者主页、评论(含二级评论)、评论词云、点赞与转发信息等 (GitHub)。
  • • 统一格式输出:导出 JSON、CSV、Excel,数据整齐一致,方便下游分析。
  • • 稳定机制:自动登录态缓存、IP 代理池支持(Pro 版提供更强 IP/多账号机制) (GitHub)。
  • • 易扩展开发:模块化结构,自定义平台模块开发简单,上手快。
  • • 社区活跃:GitHub 上数万 Star,issue 讨论频繁,问题响应迅速 (CSDN博客, CSDN博客)。
平台
关键词搜索
指定帖子ID爬取
二级评论
指定创作者主页
登录态缓存
IP代理池
生成评论词云图
小红书
✅
✅
✅
✅
✅
✅
✅
抖音
✅
✅
✅
✅
✅
✅
✅
快手
✅
✅
✅
✅
✅
✅
✅
B 站
✅
✅
✅
✅
✅
✅
✅
微博
✅
✅
✅
✅
✅
✅
✅
贴吧
✅
✅
✅
✅
✅
✅
✅
知乎
✅
✅
✅
✅
✅
✅
✅

🧰 三、技术栈

  • • Python 作为主力语言
  • • Playwright 实现浏览器自动化,保留登录上下文,避免 JS 签名逆向 (GitHub)
  • • Node.js 驱动部分平台签名及环境支持(版本 ≥16)
  • • uv 管理 Python 环境(推荐)
  • • SQLite/MySQL/CSV/Excel 用于本地数据存储或导出

💻 四、部署 & 运行方式

Tips:使用ai编辑器帮你运行效率更加

  1. 1. 环境准备
    • • 安装 uv 管理环境,并根据文档验证:

      curl -LsSf https://astral.sh/uv/install.sh | sh
      uv --version
    • • 安装 Node.js(≥16)
  2. 2. 代码 & 依赖安装

    git clone https://github.com/NanmiCoder/MediaCrawler.git
    cd MediaCrawler
    uv sync
  3. 3. 浏览器环境安装

    uv run playwright install
  4. 4. (可选)虚拟环境
    若不使用 uv:

    python -m venv venv
    source venv/bin/activate
    pip install -r requirements.txt
    playwright install

▶️ 五、使用方式

📌 基本命令:

uv run main.py --platform xhs --lt qrcode --type search

或:

python main.py --platform xhs --lt qrcode --type search

参数说明:

  • • --platform:目标平台(如 xhs、小红书;dy、抖音 等)
  • • --lt:登录方式(qrcode 二维码登录,phone 手机,cookie)
  • • --type:爬取类型(search 关键词、detail 帖子详情、creator 创作者主页)

运行时程序会弹出二维码,扫码登录后自动爬取。
若需开启评论爬取,可编辑 config/base_config.py,将 ENABLE_GET_COMMENTS = True 并配置 IP 代理池。

image-20250719184629343
数据采集截图

⚙️ 高级功能突破:

  • • 支持多平台联合爬取,只需配置 platforms = ['xiaohongshu','douyin'] 和关键词即可
  • • 数据输出支持 CSV、JSON、Excel,可依据环境轻松切换
  • • 代码结构模块化,支持用户轻松添加其他平台支持

✅ 六、注意事项

  • • 本项目仅限 学习研究、内容分析,严禁商业用途或大规模爬取,避免法律风险 (GitHub, GitHub)
  • • 平台频繁升级反爬机制,需要搭建代理池、控制请求频率、防止 IP 被封
  • • 尊重平台版权与隐私,合理使用采集内容

🧩 七、总结

MediaCrawler 是一款“小白友好、功能全能”的爬虫工具,适合运营、竞品分析、内容研究等多种场景使用。无需深入逆向,只需扫码登录,即可一键获取全平台公开数据。
如果你想快速搭建内容采集体系,或了解跨平台爬虫实战,MediaCrawler 是值得收藏的开源工具!


⭐ 开源不易,有用记得给个 Star 支持下:https://github.com/NanmiCoder/MediaCrawler


本篇文章来源于微信公众号: 肥极喵

标签: MediaCrawler 开源 数据采集 爬虫 采集
最后更新:2025-08-25

苏森

这个人很懒,什么都没留下

点赞
< 上一篇
下一篇 >

文章评论

razz evil exclaim smile redface biggrin eek confused idea lol mad twisted rolleyes wink cool arrow neutral cry mrgreen drooling persevering
取消回复
最新 热点 随机
最新 热点 随机
我替你们试过了,这才是Nano Banana在国内最爽的玩法 即梦AI图片、视频无水印保存教程:跟即梦水印说再见吧!亲测有效,上手超简单。 生成图片有水印怎么办?豆包最新无水印图片保存技巧(手机/网页端) 90%的人都不知道,这套提示词公式,让我AI生成的画面准确率提升5倍 1小时用AI工具搞定一支《浪浪山》风格茶饮广告片 别人花一周爬数据,我用Crawlee只花了十分钟! 保姆级n8n教程来了:手把手教你打造一个AI生成内容并自动发布公众号的工作流 一线中小学教师的10个豆包AI教学指令公式+实操示例
Coze实战 | 复刻Q同学爆款治愈励志类短视频,6600万点赞!附核心工作流思路拆解 基于扣子 (Coze):AI 智能体搭建【作业批改复习助手】工作流 全网爆火模型Nano Banana正式上线!这8个神仙玩法你知道吗? 完全免费的Nano Banana,做手办,故事动画,绝了! 重磅发布 | 挑战用Coze做“如果书籍会说话”读书视频,20天涨粉10万,书单赛道新型玩法,附核心工作流搭建思路拆解 用AI做歌词爆改,AI翻唱音乐+有图有梗,免费制作打工牛马的心酸歌曲(手机版详细教程) 1小时用AI工具搞定一支《浪浪山》风格茶饮广告片 Coze工作流:一键生成书单视频,小白可快速上手!
标签聚合
ChatGPT 飞书 Agent 豆包 Gemini 小红书 Dify DeepSeek 工作流 coze 提示词 扣子 智能体 n8n Prompt nano-banana

COPYRIGHT © 2025 苏森AI SOOSON.COM. ALL RIGHTS RESERVED.

粤ICP备2022146925号 站点地图