爬虫代理开发 FAQ

阅读模式

这一页聚焦爬虫代理在联调和排障阶段最常见的问题。完整接入说明请看 爬虫代理开发手册,多语言代码入口请看 爬虫代理代码资源

一直返回 407,先排查什么?

先查四件事:域名、端口、用户名、密码。然后再查代理认证方式是否正确。

  • 优先使用库自带的代理认证方式
  • 如果是 HTTPS 场景,确认认证头是在 CONNECT 阶段就被带上
  • 如果是框架封装较深的场景,重点检查代理中间件而不是业务请求头

深入说明:

为什么同一会话里的 IP 没切换?

这通常不是异常,而是 Keep-Alive 或同一 Proxy-Tunnel 值导致的会话保持。

  • 需要固定出口:保持同一 TCP 会话或同一 Proxy-Tunnel
  • 需要主动切换:新建连接,或更换 Proxy-Tunnel

返回 429,说明什么?

说明你的请求频率已经超过当前订单或当前连接模式更适合的范围。先降并发、降线程数、增大请求间隔,再看是否需要重新设计抓取节奏。

Scrapy 为什么比普通 requests 更容易踩坑?

因为 Scrapy 的重试中间件、代理中间件和请求调度会叠加影响代理认证与重试行为。遇到 407 时,不要只盯目标站响应,先看下载中间件和代理注入逻辑。

Java 里遇到代理认证问题,有没有额外注意事项?

有。Java 某些 HTTP 客户端或 JVM 运行参数会影响代理认证与 HTTP/2 行为。若你是在 Java 环境中复现问题,建议直接查看专项说明:

什么时候应该用 Portunnel?

当你的运行环境对代理认证支持不好,或者你要把代理统一转成 localhost:port 给浏览器、DrissionPage、自动化工具和脚本复用时,就应该优先考虑 Portunnel。

相关入口