在 Accept-Encoding 中，一招搞定Python爬虫出现中文乱码的问题

179 人阅读 | 时间：2024年07月04日 13:18

初识Python爬虫的时候我们可能会去爬一个页面，但是在初始爬虫的时候会看到中文乱码。

headers = {
        "User-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.82 Safari/537.36 Edg/89.0.774.54",
        "Accept-Language": "zh-CN,zh;q=0.9,en;q=0.8,en-US,q=0.7",
        "Accept-Encoding": "gzip, deflate",
        "Connection": "keep-alive"
}

后来检查后发现问题在 Accept-Encoding 中，将默认其中的br去掉，就可以实现。

网络上还有一些方法，说Python爬虫中文乱码通常是由于编码不一致导致的。以下是一些参考意见：

1，确保网页的编码与解析时使用的编码一致。

2，使用requests库时，可以通过其headers中的'User-Agent'和'Accept-Encoding'来模拟浏览器访问，避免网站对爬虫的拦截。

3，使用requests的'Content-Encoding'解压数据。

4，使用BeautifulSoup进行解析时，指定正确的解析器和编码。

󰄼 赞 0 赏󰄯 分享

在 Accept-Encoding 中，一招搞定Python爬虫出现中文乱码的问题

评论专区

搜索

作者介绍

30天热门

热评文章

最近发表

标签列表

在 Accept-Encoding 中，一招搞定Python爬虫出现中文乱码的问题

评论专区

相关文章

搜索

作者介绍

30天热门

热评文章

最近发表

标签列表