二维码

初识Python爬虫的时候我们可能会去爬一个页面,但是在初始爬虫的时候会看到中文乱码。

headers = {
        "User-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.82 Safari/537.36 Edg/89.0.774.54",
        "Accept-Language": "zh-CN,zh;q=0.9,en;q=0.8,en-US,q=0.7",
        "Accept-Encoding": "gzip, deflate",
        "Connection": "keep-alive"
}

后来 检查后发现问题在 Accept-Encoding 中,将默认其中的br去掉,就可以实现。

网络上还有一些方法,说Python爬虫中文乱码通常是由于编码不一致导致的。以下是一些参考意见:

1,确保网页的编码与解析时使用的编码一致。

2,使用requests库时,可以通过其headers中的'User-Agent'和'Accept-Encoding'来模拟浏览器访问,避免网站对爬虫的拦截。 

3,使用requests的'Content-Encoding'解压数据。 

4,使用BeautifulSoup进行解析时,指定正确的解析器和编码。

评论专区
  • 昵 称必填
  • 邮 箱必填
  • 网 址选填
◎已有 0 人评论
二维码

分享:

支付宝

微信