douyin-crawler-poc/learning/network_basics/04_analyze_pagination.md
wangshaoqing 321bbff1c1 添加学习教程目录(learning/)及对应单元测试
- 新增 DrissionPage 基础教程(01-05)
- 新增 Playwright 基础教程(01-05)
- 新增网络基础教程(01-05)
- 新增 test_learning_examples.py 单元测试
- 更新 .gitignore 忽略 learning/*/output/ 目录
2026-05-06 16:39:55 +08:00

1.3 KiB

练习 04: 分析分页参数和翻页规律

目标

  1. 学会找分页参数
  2. 学会比较第一页和第二页请求的差异
  3. 学会判断“翻页”是靠哪个字段驱动的
  4. 理解为什么脚本批量抓取时要关注这些参数

你要动手做什么

  1. Network 里保留第一页和继续滚动后的下一次请求
  2. 点开两次同类接口
  3. 对比它们的 URL 和 Query 参数
  4. 把不同的字段逐个记下来

你要重点看什么

  • max_cursor
  • offset
  • count
  • cursor
  • has_more

不一定就是这些名字,但你要去找“看起来像翻页状态”的字段。

建议比较方式

你可以直接手工写一个对照表:

第一页请求:
url = ...
query = ...

第二页请求:
url = ...
query = ...

发生变化的字段:
- xxx
- xxx

对照项目

虽然当前这个项目主要靠浏览器监听接口并解析结果,但你现在要开始建立这种意识:

  • 如果以后不用浏览器监听,而是直接发 HTTP 请求
  • 那分页参数就是你必须手动控制的内容

本题完成标准

你能回答下面这些问题就算完成:

  1. 连续两次作品列表请求里,哪个参数变了?
  2. 哪个参数最像“分页游标”?
  3. 响应里有没有提示“还有没有下一页”?