rank_backend/需求.md at dbef5a98a8536077e60de8b782ec5750533417fc

Qyir 53160420d1 Initial commit: Douyin play count tracking system

Features:
- Douyin play count scraper using Selenium + Chrome DevTools Protocol
- Automated scheduler for daily data collection
- MongoDB data storage
- Mini-program API server
- Data analysis and visualization tools

🤖 Generated with [Claude Code](https://claude.com/claude-code)

Co-Authored-By: Claude <noreply@anthropic.com>

2025-10-17 10:48:52 +08:00

2.3 KiB

Raw Blame History

现在这是我的项目概览：项目概览

目标：抓取抖音“合集”和“单个视频”的数据，用于分析。
技术： selenium + webdriver-manager ，少量 requests ；支持无头模式与手动登录。
能力：从页面源码 JSON、DOM 选择器等多源提取数据，含反爬规避与调试截图。脚本与输出
douyin_scraper.py ：抓取合集数据（标题、播放/点赞统计、视频列表）；输出 douyin_collection_data.json 。
douyin_scraper_enhanced.py ：合集增强版（手动登录、页面状态分析、截图）；输出 douyin_collection_data_enhanced.json 。
douyin_video_scraper.py ：抓取单视频互动数据（点赞/评论/分享/收藏/播放等）、基本信息与评论采样；输出 douyin_video_data.json ，保存页面截图。运行与依赖
依赖： requirements.txt （ selenium 、 requests 、 webdriver-manager ）。
运行示例： python3 douyin_scraper.py 、交互式增强版/视频版可选择手动登录。注意事项
合规与频控：遵守平台条款与法律，控制抓取频率。
结构变更：抖音页面结构可能更新，需调整选择器/解析逻辑。
环境匹配：确保本机 Chrome 与 ChromeDriver 版本兼容。

需求：根据链接https://www.douyin.com/video/7556193043586600201 后面的7556193043586600201是可以替换的，获取到所有的短剧集数视频列表 7556193043586600201这个就是集数，每一集的这个都不一样进行爬取短剧的点赞数，评论数，收藏数，全部评论内容

总体来说就是输入视频的链接也就是这个https://www.douyin.com/video/7556193043586600201，然后就可以自动的获取到该系列所有的视频列表，有了列表之后只需要遍历列表，对每个视频进行单独的爬取，之后就可以获取到该视频的点赞数、收藏数、评论数、评论内容了，获取的视频列表一定要保存起来

但是现在有一个简单的要求，就是可以输入一个视频的链接，然后只对这一集来进行爬取点赞数、收藏数、评论数、评论内容

流程：输入视频链接->自动识别短剧集数列表->通过列表抓取所有集数短剧视频->获取该系列每个视频的点赞数、收藏数、评论数、评论内容->打印出来即可

2.3 KiB Raw Blame History Unescape Escape

2.3 KiB

Raw Blame History