douyin-crawler-poc/README.md

98 lines
2.9 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# 抖音视频爬取工具
这是一个面向 macOS 的抖音视频下载项目。
它当前采用“两步式”方式工作:
1. 先启动一个可见的 Chrome 浏览器,让你手动登录抖音并完成验证码
2. 再让脚本附着到这个浏览器,抓取博主主页当前已加载的作品视频并下载到本地
这个项目已经完成过真实验证:在本机登录成功后,可以正常下载视频到 `video/` 目录。
## 适合谁使用
适合以下用户:
- 使用 Mac
- 项目已经在本地
- 想快速下载某个抖音博主主页当前可见的作品视频
## 当前能做什么
- 启动一个带调试端口的 Chrome 浏览器
- 手动登录抖音后附着到浏览器
- 自动识别当前浏览器页面是博主主页还是单视频页
- 抓取某个博主主页当前已加载的作品
- 下载当前单视频页对应的那一条视频
- 下载视频到本地 `video/` 目录
- 支持传入指定博主主页 URL、单视频 URL 或 `aweme_id`
## 当前不能做什么
- 不能自动帮你登录抖音
- 不能自动替你过验证码
- 不能默认抓完整个博主的全部历史作品
- 不能抓任意网页
- 不能自动筛选你想要的视频
## 快速开始
如果你已经把项目下载到本地,最快的使用方式是:
```bash
cd /你的项目目录/douyin-crawler-poc
python3 -m venv .venv
source .venv/bin/activate
pip install requests DrissionPage
./.venv/bin/python login_douyin.py
./.venv/bin/python Douyin.py
```
说明:
- 第一个命令用于创建虚拟环境
- 第二个命令用于进入虚拟环境
- 第三个命令用于安装依赖
- 第四个命令会打开 Chrome让你登录抖音
- 第五个命令会读取你当前浏览器页面并自动开始抓取或下载
如果自动判断失败,也可以手动传入一个目标:
```bash
./.venv/bin/python Douyin.py "https://www.douyin.com/user/你的博主主页"
./.venv/bin/python Douyin.py "https://www.douyin.com/video/某个视频ID"
./.venv/bin/python Douyin.py "7619989983668240802"
```
## 下载结果在哪里
抓取成功后,视频会保存到项目根目录下的 `video/` 文件夹。
文件名格式一般是:
```text
视频标题-aweme_id.mp4
```
## 详细图文说明
详细操作步骤请看这份手册:
[小白图文操作手册](/Users/wangshaoqing/Desktop/MiaoSi/Study/douyin-crawler-poc/externaldocs/beginner-guide.md)
如果你完全不会代码,建议直接从这份手册开始照着做。
## 相关文档
- [当前抓取能力需求说明](/Users/wangshaoqing/Desktop/MiaoSi/Study/douyin-crawler-poc/externaldocs/2026-04-17-readme-and-beginner-guide-requirements.md)
- [后续定向抓取需求说明](/Users/wangshaoqing/Desktop/MiaoSi/Study/douyin-crawler-poc/externaldocs/2026-04-17-douyin-targeted-crawling-requirements.md)
## 当前验证状态
当前项目已验证:
- 单元测试通过
- 登录浏览器入口可用
- 抖音抓取脚本可附着到浏览器
- 成功下载出 mp4 文件