# 跨平台商品聚合与 AI 分析需求文档 - 文档状态:Draft - 版本:v0.4 - 更新时间:2026-04-02 - 参考文档: - `docs/CrawlerFeasibility.md` ## 1. 项目背景 品牌方或运营人员在分析某个商品时,通常需要分别打开多个电商平台,手动搜索同一商品,查看商品详情页、规格卖点、价格信息和评论区反馈,再自行做汇总与判断。该过程重复、耗时,且难以形成统一标准的数据与结论。 本项目目标是构建一个面向品牌方/运营人员的跨平台商品分析工具。用户输入商品名称后,系统自动在多个电商平台内搜索候选商品链接,由用户人工确认目标链接,再抓取商品信息和评论内容,并通过 AI 生成跨平台分析结果。 ## 2. 产品目标 本项目 MVP 阶段的目标如下: 1. 用户输入自然语言商品名称后,系统可分别在天猫、京东中搜索候选商品。 2. 系统返回每个平台的多个最佳匹配结果,由用户人工确认目标商品链接。 3. 支持同一平台确认多个商品链接,以适配同一商品在不同店铺、不同销售页中的情况。 4. 在确认链接后,系统抓取商品页中的尽可能完整的信息,以及适量评论内容。 5. 系统将不同平台的原始数据统一映射为标准化字段。 6. 系统基于商品信息与评论内容,输出可供品牌方/运营使用的分析报告。 ### 2.1 MVP 成功指标 以下指标用于判断 MVP 是否达到“可用可验证”状态,当前作为建议目标值: 1. 搜索召回可用率:每个平台均能返回候选列表或明确返回“无结果”,不出现静默失败。 2. 候选可确认率:在返回候选结果的平台中,用户能够确认至少一个有效商品链接。 3. 报告完成率:存在至少一个已确认链接的任务,应能产出结构化报告;允许部分平台失败,但不应整体中断。 4. 任务完成时长:在推荐配置下,80% 任务应在 15 分钟内完成从搜索到报告生成。 5. 结论可回溯率:报告中的关键结论应尽量附带平台、商品链接、评论样本或抓取时间等证据指针。 ### 2.2 基础验收标准 | 模块 | 验收标准 | | --- | --- | | 搜索召回 | 每个平台返回候选列表或明确返回“无结果”;候选项至少包含标题、价格、店铺、链接 | | 人工确认 | 用户可对每个平台执行单选、多选、跳过;确认结果可回看 | | 商品抓取 | 对所有确认链接抓取商品信息,并保留原始字段与标准化结果 | | 评论抓取 | 按既定抽样规则抓取评论;每条评论保留来源信息和所属链接 | | 标准化 | 输出统一结构,允许空值,但需保留未映射原始字段 | | AI 分析 | 报告至少包含卖点、好评点、差评点、跨平台差异,并附带来源摘要或证据指针 | | 容错 | 单个平台失败不阻塞整体任务结束,最终结果中能看到失败原因 | | 可追溯 | 报告中的关键结论可回溯到平台、商品链接、评论样本或抓取时间 | ## 3. 目标用户 主要目标用户: 1. 品牌方运营 2. 电商运营 3. 商品研究、竞品分析相关岗位 非目标用户: 1. 普通消费者导购场景 2. 纯内容平台舆情分析用户 ### 3.1 典型使用场景与报告关注点 1. 品牌运营:重点关注卖点定位、平台差异、价格带与口碑风险。 2. 商品运营:重点关注差评原因、SKU/履约问题、详情页与促销优化建议。 3. 竞品研究:重点关注多店铺/多链接差异、评论结构与平台表现对比。 ## 4. MVP 范围 ### 4.1 输入方式 用户以自然语言输入商品名称或商品描述,系统基于该关键词在目标平台内执行搜索。 示例: 1. `iPhone 15 Pro` 2. `大疆 Pocket 3` 3. `某品牌蓝牙耳机` 说明: 1. MVP 不以用户提供单个平台商品链接作为主要输入方式。 2. 输入的核心目的是触发各平台内部搜索,以便聚合同一商品在不同平台的结果。 ### 4.2 覆盖平台 MVP 仅覆盖以下电商平台: 1. 天猫 2. 京东 暂不纳入: 1. 淘宝,作为下一优先扩展平台 2. 抖音电商,当前阶段延后实现 3. 小红书、抖音内容、B 站、微博等内容平台 4. 拼多多、Amazon 等其他电商平台 ### 4.3 分析方式 MVP 仅支持一次性分析任务,不支持持续监控。 即: 1. 用户发起一次商品分析任务 2. 系统完成搜索、确认、抓取、分析、报告输出 3. 不要求每日/每周自动更新 ## 5. 核心用户流程 ### 5.1 主流程 1. 用户输入商品名称。 2. 系统分别在天猫、京东中执行站内搜索。 3. 系统返回每个平台的候选商品列表;若未找到,则明确提示该平台未搜到相关商品。 4. 用户在每个平台中人工确认目标链接,允许单选、跳过或多选。 5. 用户配置评论抓取数量上限 `N`(默认按单个已确认链接生效)。 6. 系统在用户授权登录态下抓取已确认链接的商品信息与评论内容。 7. 系统对原始数据进行清洗、标准化与聚合。 8. 系统调用 AI 进行商品卖点、评论好评点、评论差评点等分析。 9. 系统输出结构化分析报告。 ### 5.2 人工确认规则 为解决“是否为同一商品”的相关度问题,MVP 不做完全自动判定,而是采用“系统召回 + 用户确认”的方式。 要求: 1. 每个平台返回多个最佳匹配候选项。 2. 用户可在同一平台确认多个候选链接。 3. 若某平台未搜到合适结果,允许跳过该平台并继续分析其他平台。 4. 若某平台存在多个被确认链接,系统需对每个链接独立抓取,并在最终报告中进行平台内聚合展示。 ## 6. 功能需求 ### 6.1 平台搜索与候选返回 系统需支持以下能力: 1. 接收用户输入的商品关键词。 2. 在天猫、京东中分别执行站内搜索。 3. 返回每个平台的候选商品列表。 4. 对未搜索到候选结果的平台返回明确提示。 候选商品最少应展示以下信息: 1. 平台名称 2. 商品标题 3. 商品链接 4. 商品价格 5. 店铺名称 6. 主图或缩略图(如可获取) 7. 销量、热度、评分等辅助识别信息(如页面可见) 建议值: 1. MVP 每个平台默认返回 Top 5 候选结果。 2. 候选返回数量后续可配置。 ### 6.2 商品链接确认 系统需支持以下交互: 1. 用户可按平台查看候选商品。 2. 用户可在单个平台中确认一个或多个链接。 3. 用户可跳过某个平台。 4. 用户确认完成后,系统仅对被确认的链接进入抓取阶段。 ### 6.3 商品信息抓取 系统需尽可能完整抓取商品页原始信息,并保留原始数据。 优先抓取的信息包括: 1. 商品标题 2. 品牌 3. 型号/系列 4. 当前价格 5. 促销信息 6. 规格参数 7. SKU/规格选项 8. 商品主卖点描述 9. 商品详情页文案 10. 店铺名称 11. 店铺类型 12. 店铺评分或信誉信息(如可见) 13. 商品评分(如可见) 14. 评论总量(如可见) 15. 销量/热度/成交人数(如可见) 16. 商品链接 17. 抓取时间 18. 平台名称 说明: 1. “尽量全抓”指尽可能保留页面可访问范围内的商品信息。 2. 原始抓取字段允许平台间不一致。 3. 后续统一分析时,需再映射为标准化字段。 ### 6.4 评论抓取 评论抓取要求: 1. 仅抓取适量评论,不要求全量抓取。 2. 用户可配置评论抓取上限 `N`;MVP 默认将 `N` 定义为“单个已确认商品链接”的评论抽样上限。 3. 若一个任务确认多个链接,则每个链接独立应用各自的 `N`,避免部分链接因共享额度而无样本。 4. 系统应采用分层抽样,而非只抓取单一排序下的前几条评论。 分层抽样默认规则: 1. 最新评论 2. 最热评论 3. 低分/差评评论 4. 默认分配比例建议为 `40% 最新 + 30% 最热 + 30% 低分/差评`。 5. 去重优先使用 `review_id`;若无 `review_id`,则使用标准化后的评论文本、评论时间、SKU 上下文和商品链接组合去重。 6. 若平台不支持某一排序或筛选条件,则降级为平台实际可访问的近似排序,并在 `sampling_bucket` 中记录实际来源。 7. 某抽样桶样本不足时,剩余额度回补到其他可访问抽样桶。 若平台能力受限,则应按平台实际可访问的评论排序或筛选条件执行。 评论至少应保留以下信息: 1. 评论内容 2. 评论时间 3. 评分或情感倾向标识(如可见) 4. 点赞数/互动数(如可见) 5. 规格/SKU 信息(如可见) 6. 评论来源链接或来源页面标识 7. 抓取平台 8. 对应商品链接 边界说明: 1. 不保证抓取评论总量覆盖平台全量评论。 2. “适量抓取”由用户通过 `N` 决定,且 `N` 的默认生效口径为单链接。 3. 系统目标是为分析提供足够样本,而不是穷尽式抓取。 ### 6.5 数据清洗与标准化 系统需将各平台原始抓取数据转换为统一结构,以支撑跨平台汇总与比较。 标准化目标包括: 1. 将不同平台的商品信息映射为统一字段。 2. 将不同平台的评论信息映射为统一字段。 3. 保留无法映射的原始字段,供后续扩展或回查。 4. 当平台字段缺失时,允许标准化字段为空。 统一后的商品标准字段建议包含: | 字段 | 说明 | | --- | --- | | platform | 平台名称 | | source_url | 商品链接 | | product_title | 商品标题 | | brand | 品牌 | | model | 型号/系列 | | price | 当前价格 | | promotion | 促销信息 | | specifications | 主要规格参数 | | sku_options | SKU/规格选项 | | selling_points | 提取后的核心卖点 | | shop_name | 店铺名称 | | shop_type | 店铺类型 | | product_rating | 商品评分 | | review_count | 评论总量 | | sales_volume | 销量/热度 | | crawl_time | 抓取时间 | 统一后的评论标准字段建议包含: | 字段 | 说明 | | --- | --- | | platform | 平台名称 | | source_url | 商品链接 | | review_id | 评论标识,若可获取 | | review_time | 评论时间 | | review_text | 评论文本 | | review_rating | 评论评分,若可获取 | | interaction_count | 点赞/互动量 | | sku_context | 评论对应规格 | | sampling_bucket | 抽样来源,如最新/最热/差评 | | crawl_time | 抓取时间 | 字段类型与归一规则要求: | 字段 | 类型/单位 | 归一规则 | | --- | --- | --- | | source_url | string | 对 URL 做标准化,移除无关追踪参数,作为链接级去重主键之一 | | price | number,人民币元 | 统一转换为人民币元并保留两位小数;原始展示文本保留在原始字段中 | | sales_volume / review_count / interaction_count | integer | 将“1.2万”“3k+”等展示格式转换为整数;无法解析时填 `null` | | product_rating / review_rating | number,5 分制 | 如平台采用百分制、星级或其他刻度,需映射到 0-5 分制,并保留原始刻度 | | review_time / crawl_time | datetime | 统一输出 ISO 8601 格式,时区按 `Asia/Shanghai` 解释;原始时间文本需保留 | | specifications / sku_options | object 或 array | 优先结构化;无法可靠拆解时保留原文并标记未结构化 | | 空值字段 | `null` | 缺失、不可见、不可解析均使用 `null`,不得以 `0` 或空字符串代替 | ### 6.6 AI 分析 MVP 阶段 AI 分析重点如下: 1. 基于商品信息提炼主要卖点。 2. 基于评论提炼用户好评点。 3. 基于评论提炼用户差评点。 4. 对多平台结果进行横向对比。 AI 输出应尽量做到: 1. 结论清晰 2. 可用于运营决策 3. 尽量附带来源依据 AI 输出必须遵循统一结构: 1. 每个平台至少输出:核心卖点、主要好评点、主要差评点、样本量说明。 2. 跨平台部分至少输出:共同卖点、差异点、潜在风险、运营建议。 3. 每条关键结论应附带来源摘要,至少关联到平台、商品链接、评论样本或商品字段。 4. 当证据不足或样本不足时,必须显式标注“样本不足”或“不形成明确结论”。 5. AI 不得补造未抓取到的商品参数、评论观点或平台差异。 ### 6.7 报告输出 最终分析报告建议至少包含以下模块: 1. 商品基础信息汇总 2. 各平台商品卖点提炼 3. 评论正负面分析 4. 跨平台差异对比 5. 代表性评论证据 6. 运营建议或优化建议 说明: 1. “代表性评论证据”是重要能力,但不是首要完成优先级。 2. 即便前端暂不完整展示证据,底层也应尽量保留评论来源与商品链接,便于后续回溯。 报告补充要求: 1. 报告需标注各平台确认链接数、评论样本量与抓取时间。 2. 若存在部分失败,需单独列出失败平台、失败环节与其对结论范围的影响。 ### 6.8 多链接聚合逻辑 当同一平台确认多个链接时,系统需支持以下逻辑: 1. 每个被确认链接均独立抓取、标准化并保留链接级结果。 2. 平台级结果需先在同平台内完成评论去重与字段汇总,再输出平台层摘要。 3. 跨平台比较时,仅使用平台层摘要进入横向比较,避免同平台多链接被重复放大权重。 4. 商品链接去重以标准化后的 `source_url` 为准,仅清理重复确认的同一页面;不同店铺或不同销售页链接不自动合并为同一商品。 5. 评论去重优先使用 `review_id`;缺失时按标准化评论文本、评论时间、SKU 上下文和标准化链接组合去重。 ## 7. 登录态与平台访问要求 考虑到电商平台通常需要登录,且存在验证码、风控等问题,MVP 采用“用户自有账号授权登录”的模式。 ### 7.1 平台接入模型 1. MVP 不采用“纯浏览器默认主路径”,而采用“服务端策略路由 + 会话驱动请求回放优先 + 受控浏览器旁路恢复”的平台接入模型。 2. 当前阶段不把任何官方开放平台当作直接数据源承诺;工程路线以平台真实页面请求链路为准。 3. 每个平台必须按 `search/detail/reviews/login` 四项能力分别定义默认路径、降级路径、阻塞信号和恢复动作,不能只写成“该平台可抓取”。 4. 当前阶段的主采集路径明确为“服务端 HTTP 请求回放 + Hydration 解析”;受控浏览器只用于登录、验证码、模板刷新、风控恢复和接口发现。 5. 每个平台使用独立会话容器,避免 Cookie/Session 串用。 6. 用户需在系统提供的受控会话中手动完成登录、验证码或人工确认;系统仅在授权会话范围内执行搜索和抓取。 7. MVP 默认不直接读取用户其他浏览器中的账号密码或任意 Cookie 文件;如后续支持导入登录态,必须经过单独授权并提供清理能力。 8. 若关键动态参数无法在授权会话内通过平台页面现有上下文刷新,应直接判定为 `Blocked`,不把逆向私有算法作为交付前提。 ### 7.2 当前阶段平台可行性结论 基于 `docs/CrawlerFeasibility.md` 的 2026-04-02 调研结果,当前阶段的暂定结论如下: | 平台 | 当前阶段定位 | 暂定 `search_requirement` | 工程默认路径 | 当前结论 | | --- | --- | --- | --- | --- | | 天猫 | 当前 MVP 平台 | `recommended` | `L0 Request Replay + L1 Hydration` | 搜索与评论都更适合按淘宝/天猫同构请求实现,浏览器只保留给登录和模板刷新 | | 京东 | 当前 MVP 平台 | `required` | `L0 Request Replay + 搜索前预检查` | 详情接口层可见,但搜索和详情都受会话与风控约束,必须先完成稳定的会话中心 | | 淘宝 | 下一优先平台 | `recommended` | 复用天猫 `mtop/h5api` 适配栈 | 后续新增淘宝具备明显适配复用价值,但不进入当前 MVP 排期 | | 抖音电商 | 当前延后 | `required` | 暂不进入当前实现 | 当前阶段不排期、不验收,待网页链路和成本重新验证后再评估 | 补充约束: 1. 当前阶段只承诺天猫和京东的完整实现。 2. 非浏览器主路径应尽量对齐平台真实请求形态,但不把伪造设备、逆向私有签名或绕过风控作为交付前提。 3. 天猫与京东应先跑出可复用请求模板和稳定的 `Blocked` 恢复策略,再进入大规模功能开发。 ### 7.3 账号安全与合规 1. 系统不得采集或保存用户账号密码。 2. 若需要复用登录态,仅允许在当前工作区的服务端会话中心加密保存 Cookie/Session,不下发明文,不跨工作区共享。 3. 会话默认最长保留最后使用后 `24` 小时;用户主动退出、平台判定失效或手动清理后应立即删除对应会话。 4. 系统异常退出后,下次启动需检测并清理过期、损坏或不可用的会话快照。 5. 产品需向用户明确提示:仅在其授权账号、合法访问范围和平台规则允许范围内使用。 ### 7.4 失败回退策略 1. 支持识别登录失效、跳转登录页、验证码、风控拦截等状态。 2. 当出现无法自动继续的情况时,系统需暂停当前平台任务并明确提示人工处理。 3. 搜索、抓取阶段的会话失效应支持在用户恢复登录后继续执行,避免整任务重头开始。 4. 若平台访问策略变化导致抓取失败,系统需记录失败节点、失败原因和是否可重试。 边界说明: 1. 本项目不承诺无条件绕过所有平台风控。 2. 本项目的目标是在授权登录态下尽可能稳定地完成搜索、抓取和分析。 3. 若平台访问策略变化导致抓取失败,系统需可定位原因并向用户提示。 ## 8. 非功能需求 ### 8.1 可追溯性 系统输出的分析结果应尽量可回溯到原始来源,包括: 1. 商品链接 2. 平台名称 3. 评论文本或评论来源 4. 抓取时间 ### 8.2 容错性 系统应允许部分平台失败或无结果,不应因单个平台异常导致整个任务失败。 例如: 1. 某平台未搜到候选商品 2. 某平台登录态失效 3. 某平台评论抓取失败 上述情况不应阻断其他平台的分析结果生成。 ### 8.3 可配置性 以下参数建议支持配置: 1. 每个平台候选返回数量 2. 评论抓取上限 `N` 及其作用域 3. 评论抽样策略 4. AI 分析模板或提示词版本 ### 8.4 任务反馈与状态机 由于搜索、抓取、分析过程可能耗时较长,系统应具备任务进度反馈和可重试状态流转能力。 推荐状态至少包括: 1. 待开始 2. 搜索中 3. 等待人工确认 4. 抓取中 5. 等待人工处理登录/验证码 6. 分析中 7. 已完成 8. 部分失败 9. 已失败 10. 已取消 状态流转要求: 1. 搜索中、抓取中、分析中支持有限次自动重试。 2. 登录失效、验证码或风控拦截时,进入“等待人工处理登录/验证码”状态。 3. 单个平台失败时,其他平台应继续执行,最终可进入“部分失败”。 4. 最终结果需展示各平台状态、失败节点、失败原因和重试结果。 ### 8.5 性能与成本边界 1. MVP 推荐配置为:3 个平台、每个平台最多 2 个确认链接、单链接评论上限 `N <= 100`。 2. 在上述推荐配置下,80% 任务目标在 15 分钟内完成。 3. MVP 默认单用户同时仅运行 1 个抓取任务,避免登录态与抓取资源冲突。 4. AI 分析应优先消费标准化摘要和抽样评论,不直接发送全量原始页面内容,以控制成本和上下文长度。 ### 8.6 数据留存与导出 1. 原始抓取数据默认保留 7 天,用于回溯、排错和证据复核。 2. 标准化数据与分析报告默认保留 30 天,后续可按部署形态调整。 3. 用户应可手动导出分析报告与标准化数据;MVP 至少支持 `Markdown` 和 `JSON` 导出。 4. 用户删除任务后,应同步清理与该任务相关的原始数据、标准化数据和报告缓存;登录会话按第 7 章单独管理。 ## 9. 明确的非目标 MVP 阶段不包含以下能力: 1. 不做持续监控或定时更新 2. 不做面向消费者的导购推荐 3. 不做内容平台、社区平台、短视频平台的舆情聚合 4. 不保证评论全量抓取 5. 不在没有人工确认的前提下自动判定同款商品 6. 不承诺完全自动化绕过验证码、风控和登录限制 ## 10. MVP 优先级建议 ### 10.1 P0 1. 商品名称输入 2. 天猫、京东站内搜索 3. 候选商品返回 4. 人工确认商品链接 5. 商品信息抓取 6. 评论分层抽样抓取 7. 数据标准化 8. AI 输出卖点、好评点、差评点、跨平台对比 9. 生成基础分析报告 ### 10.2 P1 1. 更丰富的证据展示 2. 更细的运营建议 3. 更完善的字段提取与结构化 4. 更强的失败恢复与任务编排 5. 更丰富的平台扩展能力 ## 11. 当前建议值与待定项 以下内容当前可作为建议值进入设计与实现阶段,后续可调整: 1. 每个平台默认返回 Top 5 候选商品。 2. 评论抓取上限 `N` 默认按单个已确认链接生效,建议默认值先从 `100` 开始验证。 3. 评论抓取采用分层抽样,默认比例为 `40% 最新 + 30% 最热 + 30% 差评`。 4. 同平台多个确认链接在平台层汇总时仅做评论去重,不自动合并为单一商品。 5. 评分统一映射到 5 分制,销量/评论数统一转为整数,时间统一为 `Asia/Shanghai` 时区下的 ISO 8601。 6. 登录态仅允许在服务端会话中心加密保存,默认最长保留最后使用后 `24` 小时。 7. 报告输出优先满足“结构化分析报告 + 证据回溯”能力。 8. 最终呈现载体可后续再定为页面、Markdown、导出文件或其他形式。 ## 12. 一句话定义 这是一个面向品牌方/运营人员的跨平台商品分析工具:用户输入商品名称,系统在天猫、京东中搜索候选商品,由用户人工确认一个或多个商品链接后,抓取商品信息与适量评论,统一标准化并用 AI 输出卖点、好评点、差评点及跨平台分析报告。