rank_backend/docs/需求.md
Qyir 53160420d1 Initial commit: Douyin play count tracking system
Features:
- Douyin play count scraper using Selenium + Chrome DevTools Protocol
- Automated scheduler for daily data collection
- MongoDB data storage
- Mini-program API server
- Data analysis and visualization tools

🤖 Generated with [Claude Code](https://claude.com/claude-code)

Co-Authored-By: Claude <noreply@anthropic.com>
2025-10-17 10:48:52 +08:00

33 lines
2.3 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

现在这是我的项目概览:
项目概览
- 目标:抓取抖音“合集”和“单个视频”的数据,用于分析。
- 技术: selenium + webdriver-manager ,少量 requests ;支持无头模式与手动登录。
- 能力:从页面源码 JSON、DOM 选择器等多源提取数据,含反爬规避与调试截图。
脚本与输出
- douyin_scraper.py :抓取合集数据(标题、播放/点赞统计、视频列表);输出 douyin_collection_data.json 。
- douyin_scraper_enhanced.py :合集增强版(手动登录、页面状态分析、截图);输出 douyin_collection_data_enhanced.json 。
- douyin_video_scraper.py :抓取单视频互动数据(点赞/评论/分享/收藏/播放等)、基本信息与评论采样;输出 douyin_video_data.json ,保存页面截图。
运行与依赖
- 依赖: requirements.txt selenium 、 requests 、 webdriver-manager )。
- 运行示例: python3 douyin_scraper.py 、交互式增强版/视频版可选择手动登录。
注意事项
- 合规与频控:遵守平台条款与法律,控制抓取频率。
- 结构变更:抖音页面结构可能更新,需调整选择器/解析逻辑。
- 环境匹配:确保本机 Chrome 与 ChromeDriver 版本兼容。
需求:
根据链接https://www.douyin.com/video/7556193043586600201
后面的7556193043586600201是可以替换的获取到所有的短剧集数视频列表
7556193043586600201这个就是集数每一集的这个都不一样
进行爬取短剧的点赞数,评论数,收藏数,全部评论内容
总体来说就是输入视频的链接也就是这个https://www.douyin.com/video/7556193043586600201然后就可以自动的获取到该系列所有的视频列表有了列表之后只需要遍历列表对每个视频进行单独的爬取之后就可以获取到该视频的点赞数、收藏数、评论数、评论内容了获取的视频列表一定要保存起来
但是现在有一个简单的要求,就是可以输入一个视频的链接,然后只对这一集来进行爬取点赞数、收藏数、评论数、评论内容
流程:
输入视频链接->自动识别短剧集数列表->通过列表抓取所有集数短剧视频->获取该系列每个视频的点赞数、收藏数、评论数、评论内容->打印出来即可