苏森AI

  • 首页
  • AI资讯
  • AI应用
  • AI工作流
  • AI智能体
  • AI提示词
苏森AI
从这里开启你的AI学习旅程!
  1. 首页
  2. AI应用
  3. 正文

33KStars!开源爬虫工具MediaCrawler:全平台数据采集神器

2025-08-25 26点热度 0人点赞 0条评论

📣 一、简介

MediaCrawler 是一款开源且功能强大的多平台内容爬虫神器,由 NanmiCoder(Relakkes)开源,主打“全平台数据一键采集”。从小红书、抖音、快手,到 B站、微博、百度贴吧、知乎,主流平台全覆盖 (GitHub)。
其核心是基于 Playwright 浏览器自动化,保留登录态,通过 JS 表达式获取签名参数,无需复杂逆向,就能稳定拿到数据 (GitHub)。


✨ 二、亮点

  • • 多平台覆盖:支持关键词搜索、帖子详情、创作者主页、评论(含二级评论)、评论词云、点赞与转发信息等 (GitHub)。
  • • 统一格式输出:导出 JSON、CSV、Excel,数据整齐一致,方便下游分析。
  • • 稳定机制:自动登录态缓存、IP 代理池支持(Pro 版提供更强 IP/多账号机制) (GitHub)。
  • • 易扩展开发:模块化结构,自定义平台模块开发简单,上手快。
  • • 社区活跃:GitHub 上数万 Star,issue 讨论频繁,问题响应迅速 (CSDN博客, CSDN博客)。
平台
关键词搜索
指定帖子ID爬取
二级评论
指定创作者主页
登录态缓存
IP代理池
生成评论词云图
小红书
✅
✅
✅
✅
✅
✅
✅
抖音
✅
✅
✅
✅
✅
✅
✅
快手
✅
✅
✅
✅
✅
✅
✅
B 站
✅
✅
✅
✅
✅
✅
✅
微博
✅
✅
✅
✅
✅
✅
✅
贴吧
✅
✅
✅
✅
✅
✅
✅
知乎
✅
✅
✅
✅
✅
✅
✅

🧰 三、技术栈

  • • Python 作为主力语言
  • • Playwright 实现浏览器自动化,保留登录上下文,避免 JS 签名逆向 (GitHub)
  • • Node.js 驱动部分平台签名及环境支持(版本 ≥16)
  • • uv 管理 Python 环境(推荐)
  • • SQLite/MySQL/CSV/Excel 用于本地数据存储或导出

💻 四、部署 & 运行方式

Tips:使用ai编辑器帮你运行效率更加

  1. 1. 环境准备
    • • 安装 uv 管理环境,并根据文档验证:

      curl -LsSf https://astral.sh/uv/install.sh | sh
      uv --version
    • • 安装 Node.js(≥16)
  2. 2. 代码 & 依赖安装

    git clone https://github.com/NanmiCoder/MediaCrawler.git
    cd MediaCrawler
    uv sync
  3. 3. 浏览器环境安装

    uv run playwright install
  4. 4. (可选)虚拟环境
    若不使用 uv:

    python -m venv venv
    source venv/bin/activate
    pip install -r requirements.txt
    playwright install

▶️ 五、使用方式

📌 基本命令:

uv run main.py --platform xhs --lt qrcode --type search

或:

python main.py --platform xhs --lt qrcode --type search

参数说明:

  • • --platform:目标平台(如 xhs、小红书;dy、抖音 等)
  • • --lt:登录方式(qrcode 二维码登录,phone 手机,cookie)
  • • --type:爬取类型(search 关键词、detail 帖子详情、creator 创作者主页)

运行时程序会弹出二维码,扫码登录后自动爬取。
若需开启评论爬取,可编辑 config/base_config.py,将 ENABLE_GET_COMMENTS = True 并配置 IP 代理池。

image-20250719184629343
数据采集截图

⚙️ 高级功能突破:

  • • 支持多平台联合爬取,只需配置 platforms = ['xiaohongshu','douyin'] 和关键词即可
  • • 数据输出支持 CSV、JSON、Excel,可依据环境轻松切换
  • • 代码结构模块化,支持用户轻松添加其他平台支持

✅ 六、注意事项

  • • 本项目仅限 学习研究、内容分析,严禁商业用途或大规模爬取,避免法律风险 (GitHub, GitHub)
  • • 平台频繁升级反爬机制,需要搭建代理池、控制请求频率、防止 IP 被封
  • • 尊重平台版权与隐私,合理使用采集内容

🧩 七、总结

MediaCrawler 是一款“小白友好、功能全能”的爬虫工具,适合运营、竞品分析、内容研究等多种场景使用。无需深入逆向,只需扫码登录,即可一键获取全平台公开数据。
如果你想快速搭建内容采集体系,或了解跨平台爬虫实战,MediaCrawler 是值得收藏的开源工具!


⭐ 开源不易,有用记得给个 Star 支持下:https://github.com/NanmiCoder/MediaCrawler


本篇文章来源于微信公众号: 肥极喵

标签: MediaCrawler 开源 数据采集 爬虫 采集
最后更新:2025-08-25

苏森

这个人很懒,什么都没留下

点赞
< 上一篇
下一篇 >

文章评论

razz evil exclaim smile redface biggrin eek confused idea lol mad twisted rolleyes wink cool arrow neutral cry mrgreen drooling persevering
取消回复
最新 热点 随机
最新 热点 随机
字节跳动放大招,给你全免费的AI创作神器,一句话打造一个爆款! 音视频秒变爆款图文,支持自动配图,金句标注,让你的创作效率疯狂加倍 刷爆全网的Google Banana还没玩够?它还有个更狠的工具... 一句话生成APP,这个AI真做到了 新手能做的视频赛道 万播放变现2.4k纯AI生成无需剪辑全原创 AI最强图像编辑模型!Nano banana的使用方法和效果评测 扣子Coze智能体实战:自动化拆解抖音对标账号,输出完整分析报告(喂饭级教程) Nano Banana + 即梦,做出强一致性短片
扣子Coze教程:自动采集1000条小红书爆款笔记(附实战工作流)200 + 免费 n8n 模板:零代码玩转全领域自动化,3 分钟上手!1人管50个小红书账号?这个AI工具让运营杀疯了!扣子(Coze)工作流:输入关键词,Coze 自动抓小红书热门笔记,减少大量运营工作量!AI智能体:一键生成动物比赛的短视频,百万级点赞,解锁一个搞钱的工作流10分钟制作一个自己的专属公众号智能体coze扣子智能体(工作流)采集抖音视频-转化成文字-改写文案-并写入飞书多维表格保存关键词一输,公众号文章自动生成?这个智能体太高效了!
手把手教你从0搭建一个智能体,全部跟下来你就Agent入门了!(超详细的讲解) 质变时刻!AI帮我做了个能赚钱的网站! MCP(2)开发:如何通过mcp把私域数据库接入到大模型 Coze+剪映视频工作流,一分钟打造爆款养生视频,干货分享,价值4位数 2小时,快捷指令+n8n工作流,碾压一切笔记应用 AI工具测评:12款必备神器使用指南,2025年效率提升1000%! 一个人翻身最快的方式:用 AI 做自己的小生意 告别天价财务软件!8.8K星开源神器Akaunting:小微企业的财务自由利器
标签聚合
Gemini 豆包 扣子 ai视频 Prompt Dify 小红书 智能体 mcp DeepSeek n8n 飞书 coze 工作流 Agent 提示词

COPYRIGHT © 2025 苏森AI SOOSON.COM. ALL RIGHTS RESERVED.

站点地图