我们在爬虫时,经常会遇见中文乱码问题,之前都是编码格式的问题,很少遇见由于压缩格式造成的编码混乱问题,特记录下。先看下混乱的编码样式。
【资料图】
b"a\xd4l\x00 G6\xb5\xaa\xdf\xeaAy\x0f\xa0\xcaoZ\x92I&\x88\x14$p\xd8N\xb8\xaau\x02\xab\xdf\xeb\xac\x89r\x112q\x91\x99\xd8t\x1b\xa1"\x0b]\xb7\xf2\xee\xde[\xe8\x8a.\xd1\xa5\xe9(ZqE\xa1q\x08\x9dV\x0f\xba\x90\x11\x16K\x10^~\xc5|7\x02\x17\xd6\xef\t\x17\xea5\xe6}\xb6\x95\xf1\x91\xf6H\xa9o+s\xd3\xadv\xa9\xff\xb3\xad\xec\
我们先看下header
header = { "Content-Type":"application/json", "Accept": "application/json", "Accept-Encoding": "gzip, deflate, br", "Accept-Language": "zh-CN,zh;q=0.9", "Agw-Js-Conv": "str", "Connection": "keep-alive", "Cookie":"***", "Host": "life.douyin.com", "Referer": "https://life.douyin.com/p/login", "sec-ch-ua": ""Chromium";v="104", " Not A;Brand";v="99", "Google Chrome";v="104"", "sec-ch-ua-platform": "Android", "Sec-Fetch-Dest": "empty", "Sec-Fetch-Mode": "cors", "Sec-Fetch-Site": "same-origin", "User-Agent": "Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.0.0 Mobile Safari/537.36", "x-secsdk-csrf-token": "*", }
我们注意到Content-Type是application/json,我们的数据是jason格式,这时要考虑中文转换问题,用utf-8来把中文从unicode转过来。
我们转了后发现解析出来的数据还是乱码,这是什么情况呢?我们先看下请求头和响应头关于字段的解释
请求头字段 | 说明 | 响应头字段 |
Accept | 告知服务器发送何种媒体类型 | Content-Type |
Accept-Language | 告知服务器发送何种语言 | Content-Language |
Accept-Charset | 告知服务器发送何种字符集 | Content-Type |
Accept-Encoding | 告知服务器采用何种压缩方式 | Content-Encoding |
我们再看"Accept-Encoding",这个意思就是返回的数据使用的是什么压缩格式,平常我们经常使用"gzip, deflate",这是我们发现后面还跟了个br,br是什么格式呢?
br 指的是 Brotli,是一种全新的数据格式,无损压缩,压缩比极高(比gzip高的)
这需要单独导入brotil库
安装
pipinstallBrotli
安装后我们使用brotli来解析数据即可,
data = brotli.decompress(res.content)
还有一种最简单的方法,我们修改请求头,高速服务器,我不支持br格式,这样服务器就不会用br来压缩数据了
"Accept-Encoding": "gzip, deflate",
补充下:BrotliDecompress failed错误问题
刚开始我用request库时发现,对返回的response数据必须要引入brotli,这样才能解压缩数据,如果不引入无法解析数据,还是会反回乱码数据
import brotli res = requests.get(url,headers = header,verify=False) print(res.content) print(res.text) if res.headers.get("Content-Encoding") == "br": data = brotli.decompress(res.content) print(data.decode("utf-8")) else: print(res.text)
但是在我使用httpx后,发先再使用brotli.decompress()方法,会造成报错
Traceback (most recent call last):
File "/****", line 61, in
data = brotli.decompress(res.content)
brotli.error: BrotliDecompress failed
这时无需引入brotli库,httpx会自动引入,自动调用
import json finish_data = [] with httpx.Client(http2=True, verify=False) as client: cookies = httpx.Cookies() res = client.get(url,headers = header) if res.headers.get("Content-Encoding") == "br": data = res.content.decode("utf-8") print(data) else: print(res.text)
到此这篇关于python3 requests中文乱码问题之压缩格式问题的文章就介绍到这了,更多相关python3 requests中文乱码内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!
X 关闭
X 关闭
- 1亚马逊开始大规模推广掌纹支付技术 顾客可使用“挥手付”结账
- 2现代和起亚上半年出口20万辆新能源汽车同比增长30.6%
- 3如何让居民5分钟使用到各种设施?沙特“线性城市”来了
- 4AMD实现连续8个季度的增长 季度营收首次突破60亿美元利润更是翻倍
- 5转转集团发布2022年二季度手机行情报告:二手市场“飘香”
- 6充电宝100Wh等于多少毫安?铁路旅客禁止、限制携带和托运物品目录
- 7好消息!京东与腾讯续签三年战略合作协议 加强技术创新与供应链服务
- 8名创优品拟通过香港IPO全球发售4100万股 全球发售所得款项有什么用处?
- 9亚马逊云科技成立量子网络中心致力解决量子计算领域的挑战
- 10京东绿色建材线上平台上线 新增用户70%来自下沉市场