在 Accept-Encoding 中,一招搞定Python爬虫出现中文乱码的问题
179 人阅读 | 时间:2024年07月04日 13:18
初识Python爬虫的时候我们可能会去爬一个页面,但是在初始爬虫的时候会看到中文乱码。
后来 检查后发现问题在 Accept-Encoding 中,将默认其中的br去掉,就可以实现。
网络上还有一些方法,说Python爬虫中文乱码通常是由于编码不一致导致的。以下是一些参考意见:
1,确保网页的编码与解析时使用的编码一致。
2,使用requests库时,可以通过其headers中的'User-Agent'和'Accept-Encoding'来模拟浏览器访问,避免网站对爬虫的拦截。
3,使用requests的'Content-Encoding'解压数据。
4,使用BeautifulSoup进行解析时,指定正确的解析器和编码。
评论专区