爬虫代理开发 FAQ
这一页聚焦爬虫代理在联调和排障阶段最常见的问题。完整接入说明请看 爬虫代理开发手册,多语言代码入口请看 爬虫代理代码资源。
一直返回 407,先排查什么?
先查四件事:域名、端口、用户名、密码。然后再查代理认证方式是否正确。
- 优先使用库自带的代理认证方式
- 如果是 HTTPS 场景,确认认证头是在 CONNECT 阶段就被带上
- 如果是框架封装较深的场景,重点检查代理中间件而不是业务请求头
深入说明:
为什么同一会话里的 IP 没切换?
这通常不是异常,而是 Keep-Alive 或同一 Proxy-Tunnel 值导致的会话保持。
- 需要固定出口:保持同一 TCP 会话或同一
Proxy-Tunnel - 需要主动切换:新建连接,或更换
Proxy-Tunnel值
返回 429,说明什么?
说明你的请求频率已经超过当前订单或当前连接模式更适合的范围。先降并发、降线程数、增大请求间隔,再看是否需要重新设计抓取节奏。
Scrapy 为什么比普通 requests 更容易踩坑?
因为 Scrapy 的重试中间件、代理中间件和请求调度会叠加影响代理认证与重试行为。遇到 407 时,不要只盯目标站响应,先看下载中间件和代理注入逻辑。
- 深入排查页:Scrapy 407 专项排查
Java 里遇到代理认证问题,有没有额外注意事项?
有。Java 某些 HTTP 客户端或 JVM 运行参数会影响代理认证与 HTTP/2 行为。若你是在 Java 环境中复现问题,建议直接查看专项说明:
什么时候应该用 Portunnel?
当你的运行环境对代理认证支持不好,或者你要把代理统一转成 localhost:port 给浏览器、DrissionPage、自动化工具和脚本复用时,就应该优先考虑 Portunnel。