Features: - Douyin play count scraper using Selenium + Chrome DevTools Protocol - Automated scheduler for daily data collection - MongoDB data storage - Mini-program API server - Data analysis and visualization tools 🤖 Generated with [Claude Code](https://claude.com/claude-code) Co-Authored-By: Claude <noreply@anthropic.com>
2.3 KiB
现在这是我的项目概览: 项目概览
-
目标:抓取抖音“合集”和“单个视频”的数据,用于分析。
-
技术: selenium + webdriver-manager ,少量 requests ;支持无头模式与手动登录。
-
能力:从页面源码 JSON、DOM 选择器等多源提取数据,含反爬规避与调试截图。 脚本与输出
-
douyin_scraper.py :抓取合集数据(标题、播放/点赞统计、视频列表);输出 douyin_collection_data.json 。
-
douyin_scraper_enhanced.py :合集增强版(手动登录、页面状态分析、截图);输出 douyin_collection_data_enhanced.json 。
-
douyin_video_scraper.py :抓取单视频互动数据(点赞/评论/分享/收藏/播放等)、基本信息与评论采样;输出 douyin_video_data.json ,保存页面截图。 运行与依赖
-
依赖: requirements.txt ( selenium 、 requests 、 webdriver-manager )。
-
运行示例: python3 douyin_scraper.py 、交互式增强版/视频版可选择手动登录。 注意事项
-
合规与频控:遵守平台条款与法律,控制抓取频率。
-
结构变更:抖音页面结构可能更新,需调整选择器/解析逻辑。
-
环境匹配:确保本机 Chrome 与 ChromeDriver 版本兼容。
需求: 根据链接https://www.douyin.com/video/7556193043586600201 后面的7556193043586600201是可以替换的,获取到所有的短剧集数视频列表 7556193043586600201这个就是集数,每一集的这个都不一样 进行爬取短剧的点赞数,评论数,收藏数,全部评论内容
总体来说就是输入视频的链接也就是这个https://www.douyin.com/video/7556193043586600201,然后就可以自动的获取到该系列所有的视频列表,有了列表之后只需要遍历列表,对每个视频进行单独的爬取,之后就可以获取到该视频的点赞数、收藏数、评论数、评论内容了,获取的视频列表一定要保存起来
但是现在有一个简单的要求,就是可以输入一个视频的链接,然后只对这一集来进行爬取点赞数、收藏数、评论数、评论内容
流程: 输入视频链接->自动识别短剧集数列表->通过列表抓取所有集数短剧视频->获取该系列每个视频的点赞数、收藏数、评论数、评论内容->打印出来即可