feat: initial douyin crawler

2026-04-17 16:55:11 +08:00 · 2026-04-17 16:55:11 +08:00 · d910d6f6b9
commit d910d6f6b9
13 changed files with 1274 additions and 0 deletions
--- a/.gitignore
+++ b/.gitignore
@ -0,0 +1,8 @@
+.DS_Store
+.douyin-chrome-profile/
+.venv/
+__pycache__/
+*.pyc
+video/
+video_p2/
+.pytest_cache/
--- a/.vscode/settings.json
+++ b/.vscode/settings.json
@ -0,0 +1,21 @@
+{
+  "files.exclude": {
+    "**/.venv": true,
+    "**/__pycache__": true,
+    "video_p2": true
+  },
+  "files.watcherExclude": {
+    "**/.venv/**": true,
+    "**/__pycache__/**": true,
+    "video/**": true,
+    "video_p2/**": true
+  },
+  "search.exclude": {
+    "**/.venv": true,
+    "**/__pycache__": true,
+    "video": true,
+    "video_p2": true
+  },
+  "terminal.integrated.enablePersistentSessions": false,
+  "terminal.integrated.persistentSessionReviveProcess": "never"
+}
--- a/Douyin.py
+++ b/Douyin.py
@ -0,0 +1,300 @@
+"""
+使用 DrissionPage 监听抖音作品列表接口，并批量下载视频。
+
+运行示例:
+    python3 Douyin.py "https://www.douyin.com/user/xxx?from_tab_name=main"
+
+依赖:
+    pip install requests DrissionPage
+"""
+
+from __future__ import annotations
+
+import argparse
+import json
+import re
+import socket
+import sys
+import time
+from pathlib import Path
+from typing import Any
+
+DEFAULT_USER_URL = (
+    "https://www.douyin.com/user/"
+    "MS4wLjABAAAAx7--dRYA0mPwhwvxNJ-35i6sB8d1Kv4Sj1WmugquqiHK19QYlB18Ikx6cECT1RVO"
+    "?from_tab_name=main"
+)
+LISTEN_TARGET = "web/aweme/post/"
+INVALID_FILENAME_CHARS = re.compile(r'[\\/:*?"<>|\r\n\t]')
+
+
+def sanitize_filename(value: str, fallback: str = "untitled") -> str:
+    cleaned = INVALID_FILENAME_CHARS.sub("_", value).strip(" ._")
+    return cleaned or fallback
+
+
+def choose_video_url(url_list: list[str]) -> str:
+    for url in url_list:
+        if "douyinvod.com" in url:
+            return url
+    if url_list:
+        return url_list[0]
+    raise ValueError("url_list 为空，无法选择视频地址。")
+
+
+def build_output_path(title: str, video_id: str, output_dir: Path = Path("video")) -> Path:
+    safe_title = sanitize_filename(title, fallback="untitled")
+    return output_dir / f"{safe_title}-{video_id}.mp4"
+
+
+def build_browser_address(browser_port: int | None) -> str | None:
+    if browser_port is None:
+        return None
+    return f"127.0.0.1:{browser_port}"
+
+
+def ensure_browser_debug_port_ready(browser_port: int) -> None:
+    try:
+        with socket.create_connection(("127.0.0.1", browser_port), timeout=2):
+            return
+    except OSError as exc:
+        raise RuntimeError(
+            "无法连接到已启动的 Chrome 调试端口。"
+            f"请先运行 `./.venv/bin/python login_douyin.py --browser-port {browser_port}`，"
+            "并确认 Chrome 仍在运行且端口一致。"
+        ) from exc
+
+
+def extract_aweme_payload(response: Any) -> dict[str, Any]:
+    body = getattr(response, "body", None)
+    if isinstance(body, dict):
+        return body
+
+    raw_body = getattr(response, "raw_body", None)
+    if isinstance(raw_body, str) and raw_body.strip():
+        payload = json.loads(raw_body)
+        if isinstance(payload, dict):
+            return payload
+
+    raise ValueError("响应体不是可解析的 JSON 字典。")
+
+
+def parse_aweme_items(body: Any) -> list[dict[str, str]]:
+    if not isinstance(body, dict):
+        raise ValueError("接口响应不是字典，无法解析。")
+
+    aweme_list = body.get("aweme_list")
+    if not isinstance(aweme_list, list):
+        raise ValueError("接口响应中缺少 aweme_list。")
+
+    items: list[dict[str, str]] = []
+    for aweme in aweme_list:
+        if not isinstance(aweme, dict):
+            continue
+
+        video = aweme.get("video") or {}
+        play_addr = video.get("play_addr") or {}
+        url_list = play_addr.get("url_list") or []
+        if not url_list:
+            continue
+
+        video_id = str(aweme.get("aweme_id") or "").strip()
+        if not video_id:
+            continue
+
+        title = str(aweme.get("desc") or "").strip() or "untitled"
+        items.append(
+            {
+                "title": title,
+                "video_id": video_id,
+                "video_url": choose_video_url([str(url) for url in url_list]),
+            }
+        )
+
+    return items
+
+
+def build_headers(referer: str) -> dict[str, str]:
+    return {
+        "referer": referer,
+        "user-agent": (
+            "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) "
+            "AppleWebKit/537.36 (KHTML, like Gecko) "
+            "Chrome/135.0.0.0 Safari/537.36"
+        ),
+    }
+
+
+def import_runtime_dependencies() -> tuple[Any, Any, Any]:
+    try:
+        import requests
+    except ModuleNotFoundError as exc:
+        raise SystemExit(
+            "缺少 requests，请先执行: python3 -m pip install requests"
+        ) from exc
+
+    try:
+        from DrissionPage import ChromiumPage
+        from DrissionPage import ChromiumOptions
+    except ModuleNotFoundError as exc:
+        raise SystemExit(
+            "缺少 DrissionPage，请先执行: python3 -m pip install DrissionPage"
+        ) from exc
+
+    return requests, ChromiumPage, ChromiumOptions
+
+
+def create_page(chromium_page_cls: Any, chromium_options_cls: Any, browser_port: int | None) -> Any:
+    browser_address = build_browser_address(browser_port)
+    if browser_address is None:
+        return chromium_page_cls()
+
+    options = chromium_options_cls().set_address(browser_address).existing_only(True)
+    return chromium_page_cls(options)
+
+
+def wait_for_aweme_packet(page: Any, timeout: int) -> Any | None:
+    try:
+        return page.listen.wait(timeout=timeout)
+    except Exception as exc:
+        print(f"[WARN] 等待接口数据超时或失败: {exc}")
+        return None
+
+
+def scroll_to_next_page(page: Any) -> None:
+    page.run_js("window.scrollTo(0, document.body.scrollHeight);")
+    time.sleep(2)
+
+
+def download_video(
+    requests_module: Any,
+    headers: dict[str, str],
+    video_url: str,
+    output_path: Path,
+) -> None:
+    response = requests_module.get(video_url, headers=headers, timeout=60)
+    response.raise_for_status()
+    output_path.parent.mkdir(parents=True, exist_ok=True)
+    output_path.write_bytes(response.content)
+
+
+def collect_videos(
+    user_url: str,
+    max_pages: int,
+    timeout: int,
+    output_dir: Path,
+    browser_port: int | None,
+) -> int:
+    requests_module, chromium_page_cls, chromium_options_cls = import_runtime_dependencies()
+    headers = build_headers(user_url)
+    if browser_port is not None:
+        ensure_browser_debug_port_ready(browser_port)
+    page = create_page(chromium_page_cls, chromium_options_cls, browser_port)
+    page.listen.start(LISTEN_TARGET)
+
+    print("[INFO] 正在打开抖音主页。若出现登录或验证码，请先在浏览器窗口里完成。")
+    page.get(user_url)
+    time.sleep(3)
+
+    downloaded = 0
+    seen_ids: set[str] = set()
+
+    for page_number in range(1, max_pages + 1):
+        print(f"[INFO] 正在处理第 {page_number} 页")
+        packet = wait_for_aweme_packet(page, timeout=timeout)
+        if packet is None:
+            scroll_to_next_page(page)
+            continue
+
+        try:
+            payload = extract_aweme_payload(packet.response)
+            items = parse_aweme_items(payload)
+        except Exception as exc:
+            print(f"[WARN] 解析接口数据失败: {exc}")
+            scroll_to_next_page(page)
+            continue
+
+        if not items:
+            print("[WARN] 这一页没有解析到视频。")
+
+        for item in items:
+            if item["video_id"] in seen_ids:
+                continue
+
+            seen_ids.add(item["video_id"])
+            output_path = build_output_path(
+                title=item["title"],
+                video_id=item["video_id"],
+                output_dir=output_dir,
+            )
+
+            try:
+                download_video(
+                    requests_module=requests_module,
+                    headers=headers,
+                    video_url=item["video_url"],
+                    output_path=output_path,
+                )
+            except Exception as exc:
+                print(f"[WARN] 下载失败 {item['video_id']}: {exc}")
+                continue
+
+            downloaded += 1
+            print(f"[OK] 已保存: {output_path}")
+
+        scroll_to_next_page(page)
+
+    return downloaded
+
+
+def build_parser() -> argparse.ArgumentParser:
+    parser = argparse.ArgumentParser(description="监听抖音作品接口并下载视频")
+    parser.add_argument("user_url", nargs="?", default=DEFAULT_USER_URL, help="抖音博主主页 URL")
+    parser.add_argument("--pages", type=int, default=10, help="最多抓取多少页，默认 10")
+    parser.add_argument("--timeout", type=int, default=10, help="单次等待接口响应秒数，默认 10")
+    parser.add_argument(
+        "--output-dir",
+        default="video",
+        help="视频输出目录，默认 video",
+    )
+    parser.add_argument(
+        "--browser-port",
+        type=int,
+        default=None,
+        help="附着到已启动 Chrome 的调试端口，例如 9223；不传则由 DrissionPage 新开浏览器",
+    )
+    return parser
+
+
+def main(argv: list[str] | None = None) -> int:
+    parser = build_parser()
+    args = parser.parse_args(argv)
+
+    if args.pages <= 0:
+        parser.error("--pages 必须大于 0")
+    if args.timeout <= 0:
+        parser.error("--timeout 必须大于 0")
+    if args.browser_port is not None and args.browser_port <= 0:
+        parser.error("--browser-port 必须大于 0")
+
+    try:
+        total = collect_videos(
+            user_url=args.user_url,
+            max_pages=args.pages,
+            timeout=args.timeout,
+            output_dir=Path(args.output_dir),
+            browser_port=args.browser_port,
+        )
+    except RuntimeError as exc:
+        print(f"[ERROR] {exc}")
+        return 1
+    except KeyboardInterrupt:
+        print("\n[INFO] 用户中断。")
+        return 130
+
+    print(f"[INFO] 处理结束，共下载 {total} 个视频。")
+    return 0
+
+
+if __name__ == "__main__":
+    sys.exit(main())
--- a/docs/superpowers/plans/2026-04-17-douyin-login-entry.md
+++ b/docs/superpowers/plans/2026-04-17-douyin-login-entry.md
@ -0,0 +1,198 @@
+# Douyin Login Entry Implementation Plan
+
+> **For agentic workers:** REQUIRED SUB-SKILL: Use superpowers:subagent-driven-development (recommended) or superpowers:executing-plans to implement this plan task-by-task. Steps use checkbox (`- [ ]`) syntax for tracking.
+
+**Goal:** Add a dedicated browser-login launcher and a clearer attach-port check so the Douyin crawler has a stable two-step workflow: login first, crawl second.
+
+**Architecture:** Keep browser-launch responsibilities in a new `login_douyin.py` script and keep crawl responsibilities in `Douyin.py`. Add a small socket-based port readiness check before attaching to Chrome, and cover the new behavior with unit tests before implementing production code.
+
+**Tech Stack:** Python 3, `argparse`, `pathlib`, `subprocess`, `socket`, `unittest`
+
+---
+
+### Task 1: Write failing tests for the new login launcher
+
+**Files:**
+- Create: `login_douyin.py`
+- Create: `test_login_douyin.py`
+
+- [ ] **Step 1: Write the failing test**
+
+```python
+def test_build_login_command_uses_expected_chrome_arguments(self) -> None:
+    module = importlib.import_module("login_douyin")
+    command = module.build_login_command(
+        chrome_path="/Applications/Google Chrome.app/Contents/MacOS/Google Chrome",
+        profile_dir=Path("/tmp/douyin-profile"),
+        browser_port=9223,
+        user_url="https://www.douyin.com/user/example",
+    )
+    self.assertEqual(
+        command,
+        [
+            "/Applications/Google Chrome.app/Contents/MacOS/Google Chrome",
+            "--user-data-dir=/tmp/douyin-profile",
+            "--remote-debugging-port=9223",
+            "https://www.douyin.com/user/example",
+        ],
+    )
+```
+
+- [ ] **Step 2: Run test to verify it fails**
+
+Run: `./.venv/bin/python -m unittest test_login_douyin.py -v`
+Expected: FAIL because `login_douyin.py` does not exist yet.
+
+- [ ] **Step 3: Write minimal implementation**
+
+Create `login_douyin.py` with:
+
+- `DEFAULT_CHROME_PATH`
+- `DEFAULT_BROWSER_PORT = 9223`
+- `DEFAULT_PROFILE_DIR`
+- `build_login_command(...)`
+
+- [ ] **Step 4: Run test to verify it passes**
+
+Run: `./.venv/bin/python -m unittest test_login_douyin.py -v`
+Expected: PASS for the command-building test.
+
+- [ ] **Step 5: Commit**
+
+Not applicable here because the workspace is not a git repository.
+
+### Task 2: Add tests and implementation for launcher validation and user guidance
+
+**Files:**
+- Modify: `login_douyin.py`
+- Modify: `test_login_douyin.py`
+
+- [ ] **Step 1: Write the failing tests**
+
+Add tests for:
+
+- parser defaults use `9223`
+- `main()` creates the profile dir
+- `main()` prints the follow-up crawl command
+- `main()` returns non-zero with a readable message when the Chrome path does not exist
+
+- [ ] **Step 2: Run tests to verify they fail**
+
+Run: `./.venv/bin/python -m unittest test_login_douyin.py -v`
+Expected: FAIL because validation and guidance behavior is not implemented yet.
+
+- [ ] **Step 3: Write minimal implementation**
+
+Add to `login_douyin.py`:
+
+- `build_parser()`
+- `launch_browser(...)`
+- `main(...)`
+- readable `SystemExit`/stderr-style messaging through printed output and return codes
+
+- [ ] **Step 4: Run tests to verify they pass**
+
+Run: `./.venv/bin/python -m unittest test_login_douyin.py -v`
+Expected: PASS
+
+- [ ] **Step 5: Commit**
+
+Not applicable here because the workspace is not a git repository.
+
+### Task 3: Write failing tests for attach-port readiness in the crawler
+
+**Files:**
+- Modify: `Douyin.py`
+- Modify: `test_douyin.py`
+
+- [ ] **Step 1: Write the failing tests**
+
+Add tests for:
+
+- `ensure_browser_debug_port_ready()` returns successfully when a temporary local server is listening
+- `ensure_browser_debug_port_ready()` raises a readable `RuntimeError` when the port is unavailable
+
+- [ ] **Step 2: Run tests to verify they fail**
+
+Run: `./.venv/bin/python -m unittest test_douyin.py -v`
+Expected: FAIL because the function does not exist yet.
+
+- [ ] **Step 3: Write minimal implementation**
+
+Add to `Douyin.py`:
+
+- socket-based readiness helper
+- call it in `collect_videos()` before `create_page(...)` when `browser_port` is provided
+
+- [ ] **Step 4: Run tests to verify they pass**
+
+Run: `./.venv/bin/python -m unittest test_douyin.py -v`
+Expected: PASS
+
+- [ ] **Step 5: Commit**
+
+Not applicable here because the workspace is not a git repository.
+
+### Task 4: Update usage documentation
+
+**Files:**
+- Modify: `抖音爬取视频.md`
+
+- [ ] **Step 1: Write the failing doc expectation**
+
+Define the required doc updates:
+
+- explicit step 1 command for `login_douyin.py`
+- explicit step 2 command for `Douyin.py --browser-port 9223`
+- short note that login state is kept in the dedicated profile dir
+
+- [ ] **Step 2: Verify current doc is incomplete**
+
+Run: `rg -n "login_douyin.py|--browser-port 9223" 抖音爬取视频.md`
+Expected: no matches or incomplete guidance
+
+- [ ] **Step 3: Write minimal documentation update**
+
+Append a short “推荐流程” section to `抖音爬取视频.md`.
+
+- [ ] **Step 4: Verify the doc contains the new commands**
+
+Run: `rg -n "login_douyin.py|--browser-port 9223" 抖音爬取视频.md`
+Expected: matches for both commands
+
+- [ ] **Step 5: Commit**
+
+Not applicable here because the workspace is not a git repository.
+
+### Task 5: Run full verification
+
+**Files:**
+- Modify: `Douyin.py`
+- Modify: `login_douyin.py`
+- Modify: `test_douyin.py`
+- Modify: `test_login_douyin.py`
+- Modify: `抖音爬取视频.md`
+
+- [ ] **Step 1: Run the full unit test suite**
+
+Run: `./.venv/bin/python -m unittest test_douyin.py test_login_douyin.py -v`
+Expected: all tests pass
+
+- [ ] **Step 2: Run the login launcher manually**
+
+Run: `./.venv/bin/python login_douyin.py --browser-port 9223`
+Expected: visible Chrome launches and prints the next crawl command
+
+- [ ] **Step 3: Run the crawler against the logged-in browser**
+
+Run: `./.venv/bin/python Douyin.py --pages 1 --timeout 20 --browser-port 9223`
+Expected: videos are downloaded to `video/`
+
+- [ ] **Step 4: Review changed files for scope drift**
+
+Run: `rg --files`
+Expected: only the planned files changed or were added
+
+- [ ] **Step 5: Commit**
+
+Not applicable here because the workspace is not a git repository.
--- a/docs/superpowers/specs/2026-04-17-douyin-login-entry-design.md
+++ b/docs/superpowers/specs/2026-04-17-douyin-login-entry-design.md
@ -0,0 +1,191 @@
+# Douyin Login Entry Design
+
+## Goal
+
+将当前“手动先开浏览器登录，再让 `Douyin.py` 附着到调试端口抓取”的隐式流程，固化为稳定、明确、可复用的两步式命令行入口。
+
+## Current Context
+
+- 现有抓取实现位于 `Douyin.py`。
+- `Douyin.py` 已支持通过 `--browser-port` 附着到已启动的 Chrome 调试端口。
+- 本次实测已经证明：用户先在可见 Chrome 中登录抖音并通过验证码后，`Douyin.py --browser-port 9223` 可以成功抓到 `web/aweme/post/` 接口并下载视频。
+- 当前缺少一个明确的“登录准备入口”，导致可操作性依赖人工记忆和临时命令。
+
+## Requirements
+
+### Functional
+
+1. 提供一个独立脚本，用于启动可见 Chrome，并固定：
+   - 调试端口，默认 `9223`
+   - 用户数据目录，默认使用一个项目约定路径
+   - 打开的初始 URL，默认指向现有抖音博主页
+2. 登录脚本只负责“打开浏览器并提示用户手动登录”，不负责抓取。
+3. `Douyin.py` 继续负责抓取，并保持“附着已有浏览器”的职责边界。
+4. 当 `Douyin.py` 指定了 `--browser-port` 但端口不可连通时，应给出清晰错误，提示先运行登录脚本。
+5. 文档应给出最短可执行流程：
+   - 第一步：启动浏览器并登录
+   - 第二步：运行抓取命令
+
+### Non-Functional
+
+1. 不改变现有抓包、解析、下载的主逻辑。
+2. 保持现有命令参数兼容。
+3. 入口职责清晰，便于排查“登录问题”和“抓取问题”。
+4. 新增行为应具备可自动化测试的核心单元。
+
+## Chosen Approach
+
+采用双脚本方案：
+
+- 新增 `login_douyin.py`
+  - 负责启动可见 Chrome
+  - 固定 remote debugging port
+  - 固定 profile 目录
+  - 打开目标用户主页
+  - 输出明确提示，引导用户完成手动登录和验证码
+- 保留 `Douyin.py`
+  - 继续承担附着浏览器、监听接口、下载视频的职责
+  - 增强附着前检查与报错信息
+
+## Rejected Alternatives
+
+### Alternative 1: 将“启动浏览器”直接并入 `Douyin.py`
+
+不采用。原因：
+
+- 会让 `Douyin.py` 同时承担登录准备和抓取职责。
+- 错误定位会变差，用户更难区分是登录失败还是抓取失败。
+- 未来若需要“先登录、稍后再抓”，这种合并入口不灵活。
+
+### Alternative 2: 只写 shell 脚本串联所有步骤
+
+不采用。原因：
+
+- 逻辑容易散落在 shell 中，测试性差。
+- 浏览器启动参数、等待逻辑和抓取命令耦合度高。
+- 后续若要扩展默认参数或跨平台兼容，shell 方案维护成本更高。
+
+## Proposed CLI UX
+
+### Step 1: 启动登录浏览器
+
+```bash
+./.venv/bin/python login_douyin.py
+```
+
+默认行为：
+
+- 启动可见 Chrome
+- 调试端口为 `9223`
+- profile 目录为项目约定的本地路径
+- 打开默认的抖音主页 URL
+- 输出“请在浏览器中完成登录/验证码，然后再运行抓取命令”
+
+可选扩展参数：
+
+- `--browser-port`
+- `--profile-dir`
+- `--user-url`
+- `--chrome-path`
+
+### Step 2: 运行抓取
+
+```bash
+./.venv/bin/python Douyin.py --pages 1 --browser-port 9223
+```
+
+## Design Details
+
+### `login_douyin.py`
+
+建议拆分为可测试的小函数：
+
+- `build_login_command(...)`
+  - 输入 Chrome 路径、profile 目录、端口、URL
+  - 输出适合 `subprocess.Popen(...)` 的参数列表
+- `launch_browser(...)`
+  - 调用 `subprocess.Popen(...)`
+- `build_parser()`
+  - 定义 CLI 参数
+- `main()`
+  - 解析参数
+  - 启动浏览器
+  - 打印下一步指引
+
+### `Douyin.py`
+
+新增一个显式的端口检查函数，例如：
+
+- `ensure_browser_debug_port_ready(browser_port: int) -> None`
+
+行为：
+
+- 仅当用户传入 `--browser-port` 时执行
+- 尝试连接 `127.0.0.1:<port>`
+- 若失败，抛出清晰错误，提示：
+  - 先启动 `login_douyin.py`
+  - 确认 Chrome 仍在运行
+  - 确认端口与抓取命令一致
+
+## Error Handling
+
+### 登录脚本
+
+- Chrome 可执行文件不存在：直接报错并退出。
+- 浏览器启动失败：输出异常原因并返回非零退出码。
+- profile 目录不存在：自动创建。
+
+### 抓取脚本
+
+- 指定 `--browser-port` 但端口不可达：立即失败，不进入抓取流程。
+- 登录未完成导致页面异常：保留现有抓包等待与警告逻辑。
+
+## Testing Strategy
+
+### Unit Tests
+
+新增或扩展 `test_douyin.py`，覆盖：
+
+1. `build_login_command()` 生成的命令参数正确。
+2. 默认调试地址仍为 `127.0.0.1:<port>`。
+3. `ensure_browser_debug_port_ready()` 在端口不可达时抛出可读错误。
+4. `ensure_browser_debug_port_ready()` 在端口可达时正常返回。
+
+如测试边界过大，可新增 `test_login_douyin.py`。
+
+### Manual Verification
+
+1. 运行 `./.venv/bin/python login_douyin.py`
+2. 在打开的 Chrome 中登录抖音并通过验证码
+3. 运行 `./.venv/bin/python Douyin.py --pages 1 --browser-port 9223`
+4. 确认 `video/` 下生成新的 mp4 文件
+
+## Implementation Boundaries
+
+本次只做以下改动：
+
+- 新增登录入口脚本
+- 为抓取入口补充附着前端口检查
+- 更新测试
+- 更新使用文档
+
+本次不做以下改动：
+
+- 不重写抓取主流程
+- 不改成单命令自动等待登录
+- 不引入 Playwright 作为正式运行时依赖
+- 不增加下载调度、断点续传或批量任务管理
+
+## Risks
+
+1. 本机 Chrome 路径可能与预设不同，因此需要保留 `--chrome-path` 覆盖能力。
+2. profile 目录固定后，用户可能重复复用登录态，这是预期行为，但文档需说明。
+3. 若目标端口被其他进程占用，登录脚本需要给出可诊断的失败信息或允许端口覆盖。
+
+## Success Criteria
+
+满足以下条件即视为完成：
+
+1. 用户可以通过固定命令启动登录浏览器。
+2. 用户登录完成后，可通过固定命令让 `Douyin.py` 成功附着并抓取。
+3. 当浏览器未启动或端口错误时，抓取脚本会给出明确提示，而不是模糊失败。
--- a/externaldocs/2026-04-17-douyin-targeted-crawling-requirements.md
+++ b/externaldocs/2026-04-17-douyin-targeted-crawling-requirements.md
@ -0,0 +1,215 @@
+# Douyin Targeted Crawling Requirements
+
+## Goal
+
+在现有“登录浏览器后附着抓取”的基础上，扩展为支持更明确的目标选择能力，使系统不仅能抓默认博主主页，还能：
+
+- 指定某个博主主页进行抓取
+- 直接抓当前浏览器里正在查看的博主主页
+- 指定某个单独视频进行抓取
+
+本需求文档只定义需求、范围、交互、错误处理和 TDD 约束，不直接定义实现细节代码。
+
+## Current Behavior
+
+当前系统具备以下行为：
+
+- 通过 `login_douyin.py` 启动可见 Chrome，并开启调试端口
+- 通过 `Douyin.py` 附着到该浏览器
+- 打开某个博主主页 URL
+- 监听抖音作品列表接口 `web/aweme/post/`
+- 从接口返回的 `aweme_list` 中提取视频地址并下载
+
+当前默认目标是一个硬编码博主主页，但也支持在命令行传入另一个博主主页 URL。
+
+## Target Modes
+
+新版本必须同时支持以下三种目标模式：
+
+### 1. `creator-url`
+
+用户显式传入某个博主主页 URL，系统以该博主主页为目标进行抓取。
+
+### 2. `current-creator`
+
+系统直接读取当前已附着浏览器正在查看的页面。如果当前页面是博主主页，则以该页面为目标进行抓取。
+
+### 3. `single-video`
+
+用户传入单个视频链接或 `aweme_id`，系统仅下载这一条视频，不执行博主作品列表抓取。
+
+## Scope Rules
+
+### Creator Targets
+
+当目标是博主时，默认只抓“当前页面中已加载、当前可见范围对应的作品”。
+
+这意味着：
+
+- 不默认自动抓完整个博主全部作品
+- 不默认自动多页翻完所有历史内容
+- 不自动替用户点击筛选器或改动页面状态
+- 如果用户已经在页面里手动做了筛选、切换或滚动，则抓取结果以当前页面已加载状态为准
+
+### Single Video Target
+
+当目标是单视频时：
+
+- 若输入是视频 URL，系统需要先解析出对应作品标识
+- 若输入是 `aweme_id`，系统直接按单作品逻辑抓取
+- 最终只下载一条视频
+
+## Recommended User Experience
+
+保留现有两步模式，不改成自动登录的一体化入口：
+
+### Step 1
+
+先启动登录浏览器：
+
+```bash
+./.venv/bin/python login_douyin.py
+```
+
+### Step 2
+
+登录完成后，再运行抓取命令。
+
+未来命令行接口应支持显式目标模式，例如：
+
+```bash
+./.venv/bin/python Douyin.py --mode creator-url --target "https://www.douyin.com/user/..."
+./.venv/bin/python Douyin.py --mode current-creator
+./.venv/bin/python Douyin.py --mode single-video --target "https://www.douyin.com/video/..."
+./.venv/bin/python Douyin.py --mode single-video --target "7619989983668240802"
+```
+
+上面只是推荐交互形态，具体参数名可在实现设计阶段微调，但必须满足以下原则：
+
+- 模式必须显式可区分
+- “当前浏览器页面”与“传入 URL”不能混淆
+- 单视频目标与博主目标不能混淆
+
+## Functional Requirements
+
+### Requirement A: Explicit Creator URL Crawling
+
+系统必须允许用户通过博主主页 URL 指定抓取目标。
+
+完成条件：
+
+- 系统接受有效博主主页 URL
+- 浏览器打开或切换到该 URL
+- 系统只抓当前页面已加载的作品
+
+### Requirement B: Current Browser Creator Crawling
+
+系统必须允许用户不手输目标 URL，而是直接抓当前浏览器页面对应的博主主页。
+
+完成条件：
+
+- 系统能读取当前浏览器页面 URL
+- 若当前页面是博主主页，则正常抓取
+- 若当前页面不是博主主页，则明确报错并退出
+
+### Requirement C: Single Video Download
+
+系统必须允许用户通过单个视频链接或 `aweme_id` 只下载一个视频。
+
+完成条件：
+
+- 支持视频 URL 输入
+- 支持 `aweme_id` 输入
+- 最终只落地一个视频文件
+
+### Requirement D: Visible-Only Creator Scope
+
+当目标是博主时，系统默认只处理当前页面已经加载出来的作品。
+
+完成条件：
+
+- 不自动继续滚动抓到所有历史内容
+- 抓取范围受当前页面加载状态约束
+- 用户先手动筛选、滚动、切换后，再执行抓取时，系统按当前页面状态工作
+
+## Error Handling Requirements
+
+系统必须提供明确错误，不允许模糊失败。
+
+### Current Creator Errors
+
+- 当前页面不是博主主页：报错并退出
+- 当前页面虽然像博主页，但未加载出可用作品数据：提示用户先完成页面操作后重试
+
+### Single Video Errors
+
+- 输入既不是合法视频 URL，也不是合法 `aweme_id`：报错并退出
+- 视频标识无法解析：报错并退出
+
+### Browser Attachment Errors
+
+- 调试端口不可用：提示先运行登录脚本并确认浏览器仍在运行
+
+### Creator URL Errors
+
+- 传入 URL 不是受支持的抖音博主主页：报错并退出
+
+## Non-Goals
+
+本次需求明确不包含以下内容：
+
+- 任意网页抓取
+- 非抖音站点抓取
+- 自动替用户点击页面筛选器
+- 自动抓完整个博主全部历史作品
+- 自动搜索博主
+- 自动在抖音站内执行复杂导航流程
+
+## Terminology
+
+### `aweme`
+
+抖音接口中的作品对象，可以理解为一条内容或一个视频作品实体。
+
+### `aweme_id`
+
+抖音作品的唯一标识。
+
+### `current visible videos`
+
+指当前页面已经加载出来，并能够通过当前页面对应接口响应获得的作品集合，而不是博主的全量历史作品。
+
+## TDD Requirements
+
+本需求后续实现必须使用 TDD。
+
+### Mandatory Process
+
+1. 先写失败测试
+2. 先验证测试是因为功能未实现而失败
+3. 再写最小实现让测试通过
+4. 最后再做必要重构
+
+### Required Test Areas
+
+至少覆盖以下测试：
+
+- `creator-url` 模式下，合法博主主页 URL 能被识别并生成正确抓取目标
+- `current-creator` 模式下，当前页面是博主主页时可抓取
+- `current-creator` 模式下，当前页面不是博主主页时明确报错
+- `single-video` 模式支持视频 URL
+- `single-video` 模式支持 `aweme_id`
+- 创作者抓取默认只处理当前已加载内容，不自动继续翻页
+- 目标模式错误时的报错路径
+- 浏览器端口不可用时的报错路径
+
+## Acceptance Criteria
+
+需求完成后，应满足以下验收标准：
+
+1. 用户可以显式指定博主主页 URL 抓取
+2. 用户可以直接抓当前浏览器中的博主主页
+3. 用户可以指定单个视频 URL 或 `aweme_id` 下载单条视频
+4. 当目标是博主时，默认只抓当前页面已加载作品
+5. 关键失败场景都有明确报错
+6. 实现过程遵循 TDD，并有对应自动化测试覆盖
--- a/image-1.png
+++ b/image-1.png
--- a/image-2.png
+++ b/image-2.png
--- a/image.png
+++ b/image.png
--- a/login_douyin.py
+++ b/login_douyin.py
@ -0,0 +1,122 @@
+from __future__ import annotations
+
+import argparse
+import socket
+import subprocess
+import sys
+import time
+from pathlib import Path
+
+from Douyin import DEFAULT_USER_URL
+
+DEFAULT_CHROME_PATH = "/Applications/Google Chrome.app/Contents/MacOS/Google Chrome"
+DEFAULT_BROWSER_PORT = 9223
+DEFAULT_PROFILE_DIR = Path(".douyin-chrome-profile")
+
+
+def derive_chrome_app_path(chrome_path: str) -> str:
+    marker = ".app/"
+    if marker not in chrome_path:
+        return chrome_path
+    prefix, _ = chrome_path.split(marker, 1)
+    return f"{prefix}.app"
+
+
+def build_login_command(
+    chrome_path: str,
+    profile_dir: Path,
+    browser_port: int,
+    user_url: str,
+) -> list[str]:
+    app_path = derive_chrome_app_path(chrome_path)
+    return [
+        "open",
+        "-na",
+        app_path,
+        "--args",
+        f"--user-data-dir={profile_dir}",
+        f"--remote-debugging-port={browser_port}",
+        user_url,
+    ]
+
+
+def build_parser() -> argparse.ArgumentParser:
+    parser = argparse.ArgumentParser(description="启动可见 Chrome，供抖音手动登录后附着抓取")
+    parser.add_argument("--chrome-path", default=DEFAULT_CHROME_PATH, help="Chrome 可执行文件路径")
+    parser.add_argument(
+        "--profile-dir",
+        default=str(DEFAULT_PROFILE_DIR),
+        help="Chrome 用户数据目录，默认复用项目内固定目录",
+    )
+    parser.add_argument(
+        "--browser-port",
+        type=int,
+        default=DEFAULT_BROWSER_PORT,
+        help="Chrome 调试端口，默认 9223",
+    )
+    parser.add_argument("--user-url", default=DEFAULT_USER_URL, help="启动后打开的抖音主页 URL")
+    return parser
+
+
+def launch_browser(command: list[str]) -> subprocess.Popen[str]:
+    return subprocess.Popen(command)
+
+
+def wait_for_browser_debug_port(
+    browser_port: int,
+    timeout_seconds: float = 15.0,
+    interval_seconds: float = 0.25,
+) -> None:
+    deadline = time.monotonic() + timeout_seconds
+    while time.monotonic() < deadline:
+        try:
+            with socket.create_connection(("127.0.0.1", browser_port), timeout=1):
+                return
+        except OSError:
+            time.sleep(interval_seconds)
+
+    raise RuntimeError(
+        f"Chrome 已启动命令，但调试端口 {browser_port} 在限定时间内未就绪。"
+    )
+
+
+def main(argv: list[str] | None = None) -> int:
+    parser = build_parser()
+    args = parser.parse_args(argv)
+
+    if args.browser_port <= 0:
+        parser.error("--browser-port 必须大于 0")
+
+    chrome_path = Path(args.chrome_path)
+    if not chrome_path.exists():
+        print(f"[ERROR] Chrome 可执行文件不存在: {chrome_path}")
+        return 1
+
+    profile_dir = Path(args.profile_dir).resolve()
+    profile_dir.mkdir(parents=True, exist_ok=True)
+    command = build_login_command(
+        chrome_path=str(chrome_path),
+        profile_dir=profile_dir,
+        browser_port=args.browser_port,
+        user_url=args.user_url,
+    )
+
+    try:
+        launch_browser(command)
+    except OSError as exc:
+        print(f"[ERROR] 启动 Chrome 失败: {exc}")
+        return 1
+
+    try:
+        wait_for_browser_debug_port(args.browser_port)
+    except RuntimeError as exc:
+        print(f"[ERROR] {exc}")
+        return 1
+
+    print("[INFO] Chrome 已启动。请在打开的浏览器中完成抖音登录和验证码。")
+    print(f"[INFO] 登录完成后执行: ./.venv/bin/python Douyin.py --browser-port {args.browser_port}")
+    return 0
+
+
+if __name__ == "__main__":
+    sys.exit(main())
--- a/test_douyin.py
+++ b/test_douyin.py
@ -0,0 +1,76 @@
+import importlib
+import unittest
+from unittest import mock
+
+
+class FakeResponse:
+    def __init__(self, body, raw_body):
+        self.body = body
+        self.raw_body = raw_body
+
+
+class DouyinModuleTests(unittest.TestCase):
+    def test_module_can_import_without_optional_runtime_dependencies(self) -> None:
+        module = importlib.import_module("Douyin")
+        self.assertIsNotNone(module)
+
+    def test_sanitize_filename_removes_invalid_characters(self) -> None:
+        module = importlib.import_module("Douyin")
+        self.assertEqual(
+            module.sanitize_filename('a/b:c*?d"e<f>g|h\n'),
+            "a_b_c__d_e_f_g_h",
+        )
+
+    def test_choose_video_url_prefers_douyinvod_link(self) -> None:
+        module = importlib.import_module("Douyin")
+        urls = [
+            "https://www.douyin.com/aweme/v1/play/?video_id=123",
+            "https://v11-weba.douyinvod.com/example/video.mp4",
+            "https://v26-web.douyinvod.com/example/video.mp4",
+        ]
+        self.assertEqual(
+            module.choose_video_url(urls),
+            "https://v11-weba.douyinvod.com/example/video.mp4",
+        )
+
+    def test_build_output_path_uses_video_directory(self) -> None:
+        module = importlib.import_module("Douyin")
+        output_path = module.build_output_path("测试标题", "123456")
+        self.assertEqual(output_path.as_posix(), "video/测试标题-123456.mp4")
+
+    def test_extract_aweme_payload_uses_dict_body(self) -> None:
+        module = importlib.import_module("Douyin")
+        response = FakeResponse({"aweme_list": []}, "")
+        self.assertEqual(module.extract_aweme_payload(response), {"aweme_list": []})
+
+    def test_extract_aweme_payload_falls_back_to_raw_json(self) -> None:
+        module = importlib.import_module("Douyin")
+        response = FakeResponse("", '{"aweme_list": [{"aweme_id": "1"}]}')
+        self.assertEqual(
+            module.extract_aweme_payload(response),
+            {"aweme_list": [{"aweme_id": "1"}]},
+        )
+
+    def test_build_browser_address_from_port(self) -> None:
+        module = importlib.import_module("Douyin")
+        self.assertEqual(module.build_browser_address(9223), "127.0.0.1:9223")
+        self.assertIsNone(module.build_browser_address(None))
+
+    def test_ensure_browser_debug_port_ready_accepts_open_port(self) -> None:
+        module = importlib.import_module("Douyin")
+        connection = mock.MagicMock()
+        connection.__enter__.return_value = connection
+        connection.__exit__.return_value = False
+        with mock.patch.object(module.socket, "create_connection", return_value=connection) as mocked_connect:
+            module.ensure_browser_debug_port_ready(9223)
+        mocked_connect.assert_called_once()
+
+    def test_ensure_browser_debug_port_ready_rejects_closed_port(self) -> None:
+        module = importlib.import_module("Douyin")
+        with mock.patch.object(module.socket, "create_connection", side_effect=OSError("boom")):
+            with self.assertRaisesRegex(RuntimeError, "login_douyin.py"):
+                module.ensure_browser_debug_port_ready(9223)
+
+
+if __name__ == "__main__":
+    unittest.main()
--- a/test_login_douyin.py
+++ b/test_login_douyin.py
@ -0,0 +1,98 @@
+import importlib
+import io
+import tempfile
+import unittest
+from contextlib import redirect_stdout
+from pathlib import Path
+from unittest import mock
+
+
+class LoginDouyinModuleTests(unittest.TestCase):
+    def test_build_login_command_uses_expected_chrome_arguments(self) -> None:
+        module = importlib.import_module("login_douyin")
+        command = module.build_login_command(
+            chrome_path="/Applications/Google Chrome.app/Contents/MacOS/Google Chrome",
+            profile_dir=Path("/tmp/douyin-profile"),
+            browser_port=9223,
+            user_url="https://www.douyin.com/user/example",
+        )
+        self.assertEqual(
+            command,
+            [
+                "open",
+                "-na",
+                "/Applications/Google Chrome.app",
+                "--args",
+                "--user-data-dir=/tmp/douyin-profile",
+                "--remote-debugging-port=9223",
+                "https://www.douyin.com/user/example",
+            ],
+        )
+
+    def test_build_parser_uses_expected_defaults(self) -> None:
+        module = importlib.import_module("login_douyin")
+        args = module.build_parser().parse_args([])
+        self.assertEqual(args.browser_port, 9223)
+        self.assertEqual(args.chrome_path, module.DEFAULT_CHROME_PATH)
+        self.assertEqual(args.user_url, module.DEFAULT_USER_URL)
+
+    def test_main_creates_profile_dir_and_prints_next_step(self) -> None:
+        module = importlib.import_module("login_douyin")
+        with tempfile.TemporaryDirectory() as temp_dir:
+            profile_dir = Path(temp_dir) / "profile"
+            stdout = io.StringIO()
+            with redirect_stdout(stdout):
+                with mock.patch.object(module, "launch_browser") as mocked_launch:
+                    with mock.patch.object(module, "wait_for_browser_debug_port") as mocked_wait:
+                        exit_code = module.main(
+                            [
+                                "--chrome-path",
+                                "/Applications/Google Chrome.app/Contents/MacOS/Google Chrome",
+                                "--profile-dir",
+                                str(profile_dir),
+                                "--browser-port",
+                                "9333",
+                            ]
+                        )
+            self.assertEqual(exit_code, 0)
+            self.assertTrue(profile_dir.exists())
+            mocked_launch.assert_called_once()
+            mocked_wait.assert_called_once_with(9333)
+            self.assertIn("9333", stdout.getvalue())
+            self.assertIn("./.venv/bin/python Douyin.py --browser-port 9333", stdout.getvalue())
+
+    def test_main_returns_error_when_chrome_path_missing(self) -> None:
+        module = importlib.import_module("login_douyin")
+        stdout = io.StringIO()
+        with redirect_stdout(stdout):
+            exit_code = module.main(["--chrome-path", "/tmp/does-not-exist-chrome"])
+        self.assertEqual(exit_code, 1)
+        self.assertIn("Chrome", stdout.getvalue())
+        self.assertIn("不存在", stdout.getvalue())
+
+    def test_main_returns_error_when_debug_port_never_becomes_ready(self) -> None:
+        module = importlib.import_module("login_douyin")
+        with tempfile.TemporaryDirectory() as temp_dir:
+            profile_dir = Path(temp_dir) / "profile"
+            stdout = io.StringIO()
+            with redirect_stdout(stdout):
+                with mock.patch.object(module, "launch_browser"):
+                    with mock.patch.object(
+                        module,
+                        "wait_for_browser_debug_port",
+                        side_effect=RuntimeError("端口未就绪"),
+                    ):
+                        exit_code = module.main(
+                            [
+                                "--chrome-path",
+                                "/Applications/Google Chrome.app/Contents/MacOS/Google Chrome",
+                                "--profile-dir",
+                                str(profile_dir),
+                            ]
+                        )
+        self.assertEqual(exit_code, 1)
+        self.assertIn("端口未就绪", stdout.getvalue())
+
+
+if __name__ == "__main__":
+    unittest.main()
--- a/抖音爬取视频.md
+++ b/抖音爬取视频.md
@ -0,0 +1,45 @@
+打开一个博主主页，f12打开控制台：
+鼠标挪到一个视频上面会开始播放，然后出现一个mp4媒体：
+![alt text](image.png)
+![alt text](image-1.png)
+复制这个媒体的rc
+NjxpM2hkZWUzNTszNGlpOkBpajdrOHY5cmxqOjMzNGkzM0A1MF41MC8wNmMxMjM2YWAuYSNrbmVqMmRrYWNhLS1kLTBzcw==
+粘贴到搜索栏，然后command+R刷新页面，然后搜索就找到了链接：
+![alt text](image-2.png)
+一般是三条
+```
+"url_list": [
+                        "https://v26-web.douyinvod.com/71be40af2c168460799af3a778572914/69e1f23b/video/tos/cn/tos-cn-ve-15/oERIAIyg72xQTAKefNevmg5PYSzGBCLVGxxBM0/?a=6383&ch=10010&cr=3&dr=0&lr=all&cd=0%7C0%7C0%7C3&cv=1&br=2657&bt=2657&cs=0&ds=4&ft=pEaFx4hZffPdOW~-N12NvAq-antLjrKiGgZnRkaEkVUpUjVhWL6&mime_type=video_mp4&qs=0&rc=ZDZnZjwzNTgzaWk5ZzloNUBpajdrOHY5cmxqOjMzNGkzM0AxNDIvY2FeNmMxXjQ0MWFiYSNrbmVqMmRrYWNhLS1kLTBzcw%3D%3D&btag=80000e00010000&cquery=100z_100o_101r_100B_100x&dy_q=1776404465&feature_id=37f92ebd2877ae8e7eba995d406c5150&l=202604171341058889DECB07230D0B9B8B",
+                        "https://v11-weba.douyinvod.com/0cc3b59178e5b0065b19ddb2587010c1/69e1f23b/video/tos/cn/tos-cn-ve-15/oERIAIyg72xQTAKefNevmg5PYSzGBCLVGxxBM0/?a=6383&ch=10010&cr=3&dr=0&lr=all&cd=0%7C0%7C0%7C3&cv=1&br=2657&bt=2657&cs=0&ds=4&ft=pEaFx4hZffPdOW~-N12NvAq-antLjrKiGgZnRkaEkVUpUjVhWL6&mime_type=video_mp4&qs=0&rc=ZDZnZjwzNTgzaWk5ZzloNUBpajdrOHY5cmxqOjMzNGkzM0AxNDIvY2FeNmMxXjQ0MWFiYSNrbmVqMmRrYWNhLS1kLTBzcw%3D%3D&btag=80000e00010000&cquery=100o_101r_100B_100x_100z&dy_q=1776404465&feature_id=37f92ebd2877ae8e7eba995d406c5150&l=202604171341058889DECB07230D0B9B8B",
+                        "https://www.douyin.com/aweme/v1/play/?video_id=v0300fg10000d7fgdinog65sm5hhq4ng&line=0&file_id=e2de467d76af4ff095a2d0f92c5d734a&sign=66b2ab7aba34fd66cf343c7ea1aa9994&is_play_url=1&source=PackSourceEnum_PUBLISH"
+                    ],
+```
+复制这个中间的v11的到浏览器就有了：
+```
+https://v11-weba.douyinvod.com/0cc3b59178e5b0065b19ddb2587010c1/69e1f23b/video/tos/cn/tos-cn-ve-15/oERIAIyg72xQTAKefNevmg5PYSzGBCLVGxxBM0/?a=6383&ch=10010&cr=3&dr=0&lr=all&cd=0%7C0%7C0%7C3&cv=1&br=2657&bt=2657&cs=0&ds=4&ft=pEaFx4hZffPdOW~-N12NvAq-antLjrKiGgZnRkaEkVUpUjVhWL6&mime_type=video_mp4&qs=0&rc=ZDZnZjwzNTgzaWk5ZzloNUBpajdrOHY5cmxqOjMzNGkzM0AxNDIvY2FeNmMxXjQ0MWFiYSNrbmVqMmRrYWNhLS1kLTBzcw%3D%3D&btag=80000e00010000&cquery=100o_101r_100B_100x_100z&dy_q=1776404465&feature_id=37f92ebd2877ae8e7eba995d406c5150&l=202604171341058889DECB07230D0B9B8B
+发现可以直接打开video的页面并且可以下载
+```
+
+## 推荐流程
+
+把“手动登录”和“附着抓取”分成两步走更稳：
+
+### 1. 先启动登录浏览器
+
+```bash
+./.venv/bin/python login_douyin.py
+```
+
+- 默认会启动一个可见的 Chrome
+- 默认调试端口是 `9223`
+- 登录态会保存在项目目录下的 `.douyin-chrome-profile/`
+
+在这个浏览器里手动完成抖音登录和验证码。
+
+### 2. 再附着已登录浏览器开始抓取
+
+```bash
+./.venv/bin/python Douyin.py --pages 1 --browser-port 9223
+```
+
+如果你改了登录脚本里的端口，抓取时也要传同一个 `--browser-port`。