苏森AI

  • 首页
  • AI资讯
  • AI应用
  • AI工作流
  • AI智能体
  • AI提示词
苏森AI
从这里开启你的AI学习旅程!
  1. 首页
  2. AI应用
  3. 正文

33KStars!开源爬虫工具MediaCrawler:全平台数据采集神器

2025-08-25 207点热度 0人点赞 0条评论

📣 一、简介

MediaCrawler 是一款开源且功能强大的多平台内容爬虫神器,由 NanmiCoder(Relakkes)开源,主打“全平台数据一键采集”。从小红书、抖音、快手,到 B站、微博、百度贴吧、知乎,主流平台全覆盖 (GitHub)。
其核心是基于 Playwright 浏览器自动化,保留登录态,通过 JS 表达式获取签名参数,无需复杂逆向,就能稳定拿到数据 (GitHub)。


✨ 二、亮点

  • • 多平台覆盖:支持关键词搜索、帖子详情、创作者主页、评论(含二级评论)、评论词云、点赞与转发信息等 (GitHub)。
  • • 统一格式输出:导出 JSON、CSV、Excel,数据整齐一致,方便下游分析。
  • • 稳定机制:自动登录态缓存、IP 代理池支持(Pro 版提供更强 IP/多账号机制) (GitHub)。
  • • 易扩展开发:模块化结构,自定义平台模块开发简单,上手快。
  • • 社区活跃:GitHub 上数万 Star,issue 讨论频繁,问题响应迅速 (CSDN博客, CSDN博客)。
平台
关键词搜索
指定帖子ID爬取
二级评论
指定创作者主页
登录态缓存
IP代理池
生成评论词云图
小红书
✅
✅
✅
✅
✅
✅
✅
抖音
✅
✅
✅
✅
✅
✅
✅
快手
✅
✅
✅
✅
✅
✅
✅
B 站
✅
✅
✅
✅
✅
✅
✅
微博
✅
✅
✅
✅
✅
✅
✅
贴吧
✅
✅
✅
✅
✅
✅
✅
知乎
✅
✅
✅
✅
✅
✅
✅

🧰 三、技术栈

  • • Python 作为主力语言
  • • Playwright 实现浏览器自动化,保留登录上下文,避免 JS 签名逆向 (GitHub)
  • • Node.js 驱动部分平台签名及环境支持(版本 ≥16)
  • • uv 管理 Python 环境(推荐)
  • • SQLite/MySQL/CSV/Excel 用于本地数据存储或导出

💻 四、部署 & 运行方式

Tips:使用ai编辑器帮你运行效率更加

  1. 1. 环境准备
    • • 安装 uv 管理环境,并根据文档验证:

      curl -LsSf https://astral.sh/uv/install.sh | sh
      uv --version
    • • 安装 Node.js(≥16)
  2. 2. 代码 & 依赖安装

    git clone https://github.com/NanmiCoder/MediaCrawler.git
    cd MediaCrawler
    uv sync
  3. 3. 浏览器环境安装

    uv run playwright install
  4. 4. (可选)虚拟环境
    若不使用 uv:

    python -m venv venv
    source venv/bin/activate
    pip install -r requirements.txt
    playwright install

▶️ 五、使用方式

📌 基本命令:

uv run main.py --platform xhs --lt qrcode --type search

或:

python main.py --platform xhs --lt qrcode --type search

参数说明:

  • • --platform:目标平台(如 xhs、小红书;dy、抖音 等)
  • • --lt:登录方式(qrcode 二维码登录,phone 手机,cookie)
  • • --type:爬取类型(search 关键词、detail 帖子详情、creator 创作者主页)

运行时程序会弹出二维码,扫码登录后自动爬取。
若需开启评论爬取,可编辑 config/base_config.py,将 ENABLE_GET_COMMENTS = True 并配置 IP 代理池。

image-20250719184629343
数据采集截图

⚙️ 高级功能突破:

  • • 支持多平台联合爬取,只需配置 platforms = ['xiaohongshu','douyin'] 和关键词即可
  • • 数据输出支持 CSV、JSON、Excel,可依据环境轻松切换
  • • 代码结构模块化,支持用户轻松添加其他平台支持

✅ 六、注意事项

  • • 本项目仅限 学习研究、内容分析,严禁商业用途或大规模爬取,避免法律风险 (GitHub, GitHub)
  • • 平台频繁升级反爬机制,需要搭建代理池、控制请求频率、防止 IP 被封
  • • 尊重平台版权与隐私,合理使用采集内容

🧩 七、总结

MediaCrawler 是一款“小白友好、功能全能”的爬虫工具,适合运营、竞品分析、内容研究等多种场景使用。无需深入逆向,只需扫码登录,即可一键获取全平台公开数据。
如果你想快速搭建内容采集体系,或了解跨平台爬虫实战,MediaCrawler 是值得收藏的开源工具!


⭐ 开源不易,有用记得给个 Star 支持下:https://github.com/NanmiCoder/MediaCrawler


本篇文章来源于微信公众号: 肥极喵

标签: MediaCrawler 开源 数据采集 爬虫 采集
最后更新:2025-08-25

苏森

这个人很懒,什么都没留下

点赞
< 上一篇
下一篇 >

文章评论

razz evil exclaim smile redface biggrin eek confused idea lol mad twisted rolleyes wink cool arrow neutral cry mrgreen drooling persevering
取消回复
最新 热点 随机
最新 热点 随机
我替你们试过了,这才是Nano Banana在国内最爽的玩法 即梦AI图片、视频无水印保存教程:跟即梦水印说再见吧!亲测有效,上手超简单。 生成图片有水印怎么办?豆包最新无水印图片保存技巧(手机/网页端) 90%的人都不知道,这套提示词公式,让我AI生成的画面准确率提升5倍 1小时用AI工具搞定一支《浪浪山》风格茶饮广告片 别人花一周爬数据,我用Crawlee只花了十分钟! 保姆级n8n教程来了:手把手教你打造一个AI生成内容并自动发布公众号的工作流 一线中小学教师的10个豆包AI教学指令公式+实操示例
告别996写论文!我的dify工作流系统让学术写作效率提升90%+ Nano-banana 完整使用指南:教程、案例、白嫖网站,看这一篇就够了! 不用卷剪辑了!用这个视频Agent输入想法,自动出爆款短视频 如何用AI制作全息城市投影,手把手教会你(附提示词) 爆款的微缩小人国视频,谁还不会用coze工作流智能体制作? 退订Cursor、trae后,我用上了GPT-5 用Coze复刻 “电子钦天监” 日历解读视频,附核心工作流思路拆解 AI数字人搭建(小白也能学会)
标签聚合
Prompt ChatGPT 扣子 飞书 工作流 豆包 DeepSeek Agent 提示词 Gemini Dify n8n nano-banana 小红书 智能体 coze

COPYRIGHT © 2025 苏森AI SOOSON.COM. ALL RIGHTS RESERVED.

粤ICP备2022146925号 站点地图