爬虫1:从 HTTP 请求伪装到浏览器指纹的攻防博弈

一、 协议层对抗:当 HTTP head不再管用 长期以来,Python 的 Requests 库统治了爬虫领域。对于简单的任务,它依然有效。但在面对 Cloudflare 等现代防火墙时,开发者常会遇到一个困惑:“明明复制了浏览器所有的 Header,为什么还是被拦截?” 答案往往不在应用层(HTTP),而在传输层(TLS)。 1. TLS 指纹 当爬虫发起 HTTPS 请求时,在发送 HTTP 头之前,必须先完成 TLS 握手。在 ClientHello 数据包中,客户端会发送加密套件列表、TLS 版本、压缩算法以及一系列扩展字段。 * 真实浏览器(如 Chrome、Safari)和编程语言库(如 Python urllib3、…