- 新增 DrissionPage 基础教程(01-05) - 新增 Playwright 基础教程(01-05) - 新增网络基础教程(01-05) - 新增 test_learning_examples.py 单元测试 - 更新 .gitignore 忽略 learning/*/output/ 目录
59 lines
1.3 KiB
Markdown
59 lines
1.3 KiB
Markdown
# 练习 04: 分析分页参数和翻页规律
|
|
|
|
## 目标
|
|
|
|
1. 学会找分页参数
|
|
2. 学会比较第一页和第二页请求的差异
|
|
3. 学会判断“翻页”是靠哪个字段驱动的
|
|
4. 理解为什么脚本批量抓取时要关注这些参数
|
|
|
|
## 你要动手做什么
|
|
|
|
1. 在 `Network` 里保留第一页和继续滚动后的下一次请求
|
|
2. 点开两次同类接口
|
|
3. 对比它们的 URL 和 Query 参数
|
|
4. 把不同的字段逐个记下来
|
|
|
|
## 你要重点看什么
|
|
|
|
- `max_cursor`
|
|
- `offset`
|
|
- `count`
|
|
- `cursor`
|
|
- `has_more`
|
|
|
|
不一定就是这些名字,但你要去找“看起来像翻页状态”的字段。
|
|
|
|
## 建议比较方式
|
|
|
|
你可以直接手工写一个对照表:
|
|
|
|
```text
|
|
第一页请求:
|
|
url = ...
|
|
query = ...
|
|
|
|
第二页请求:
|
|
url = ...
|
|
query = ...
|
|
|
|
发生变化的字段:
|
|
- xxx
|
|
- xxx
|
|
```
|
|
|
|
## 对照项目
|
|
|
|
虽然当前这个项目主要靠浏览器监听接口并解析结果,但你现在要开始建立这种意识:
|
|
|
|
- 如果以后不用浏览器监听,而是直接发 HTTP 请求
|
|
- 那分页参数就是你必须手动控制的内容
|
|
|
|
## 本题完成标准
|
|
|
|
你能回答下面这些问题就算完成:
|
|
|
|
1. 连续两次作品列表请求里,哪个参数变了?
|
|
2. 哪个参数最像“分页游标”?
|
|
3. 响应里有没有提示“还有没有下一页”?
|