年關到了，欠下的Python爬蟲“亂碼”改完了嗎？！

來源：奇酷教育發表于：2019-01-17 10:46:53

現指的是指快過年了，Python爬取網站時，欠下的亂碼還沒有改完！

　　所謂年關，指農歷年底。舊時欠租、負債的人在這時需要清償債務，過年像過關一樣，所以稱為年關。

　　現指的是指快過年了，Python爬取網站時，欠下的亂碼還沒有改完！

　　一、亂碼問題的出現

　　以爬取51job網站舉例，講講為何會出現“亂碼”問題，如何解決它以及其背后的機制。

　　代碼示例：

　　顯示結果：

　　打印res.text時，發現了什么？中文亂碼！！！不過發現，網頁的字符集類型采用的gbk編碼格式。

　　我們知道Requests 會基于 HTTP 頭部對響應的編碼作出有根據的推測。當你訪問 r.text 之時，Requests 會使用其推測的文本編碼。你可以找出 Requests 使用了什么編碼，并且能夠使用r.encoding 屬性來改變它。

　　接下來，我們一起通過resquests的一些用法，來看看Requests 會基于 HTTP 頭部對響應的編碼方式。

　　輸出結果為：

　　可以發現Requests 推測的文本編碼（也就是網頁返回即爬取下來后的編碼轉換）與源網頁編碼不一致，由此可知其正是導致亂碼原因。

　　二、亂碼背后的奧秘

　　當源網頁編碼和爬取下來后的編碼轉換不一致時，如源網頁為gbk編碼的字節流，而我們抓取下后程序直接使用utf-8進行編碼并輸出到存儲文件中，這必然會引起亂碼，即當源網頁編碼和抓取下來后程序直接使用處理編碼一致時，則不會出現亂碼，此時再進行統一的字符編碼也就不會出現亂碼了。最終爬取的所有網頁無論何種編碼格式，都轉化為utf-8格式進行存儲。

　　注意：區分源網編碼A-gbk、程序直接使用的編碼B-ISO-8859-1、統一轉換字符的編碼C-utf-8。

　　在此，我們拓展講講unicode、ISO-8859-1、gbk2312、gbk、utf-8等之間的區別聯系，大概如下：

　　最早的編碼是iso8859-1，和ascii編碼相似。但為了方便表示各種各樣的語言，逐漸出現了很多標準編碼。iso8859-1屬于單字節編碼，最多能表示的字符范圍是0-255，應用于英文系列。很明顯，iso8859-1編碼表示的字符范圍很窄，無法表示中文字符。

　　年中國人民通過對 ASCII 編碼的中文擴充改造，產生了 GB2312 編碼，可以表示6000多個常用漢字。但漢字實在是太多了，包括繁體和各種字符，于是產生了 GBK 編碼，它包括了 GB2312 中的編碼，同時擴充了很多。中國又是個多民族國家，各個民族幾乎都有自己獨立的語言系統，為了表示那些字符，繼續把 GBK 編碼擴充為 GB18030 編碼。每個國家都像中國一樣，把自己的語言編碼，于是出現了各種各樣的編碼，如果你不安裝相應的編碼，就無法解釋相應編碼想表達的內容。終于，有個叫 ISO 的組織看不下去了。他們一起創造了一種編碼 UNICODE ，這種編碼非常大，大到可以容納世界上任何一個文字和標志。所以只要電腦上有 UNICODE 這種編碼系統，無論是全球哪種文字，只需要保存文件的時候，保存成 UNICODE 編碼就可以被其他電腦正常解釋。UNICODE 在網絡傳輸中，出現了兩個標準 UTF-8 和 UTF-16，分別每次傳輸 8個位和 16個位。于是就會有人產生疑問，UTF-8 既然能保存那么多文字、符號，為什么國內還有這么多使用 GBK 等編碼的人？因為 UTF-8 等編碼體積比較大，占電腦空間比較多，如果面向的使用人群絕大部分都是中國人，用 GBK 等編碼也可以。

　　也可以這樣來理解：字符串是由字符構成，字符在計算機硬件中通過二進制形式存儲，這種二進制形式就是編碼。如果直接使用 “字符串??字符??二進制表示（編碼）” ，會增加不同類型編碼之間轉換的復雜性。所以引入了一個抽象層，“字符串??字符??與存儲無關的表示??二進制表示（編碼）” ，這樣，可以用一種與存儲無關的形式表示字符，不同的編碼之間轉換時可以先轉換到這個抽象層，然后再轉換為其他編碼形式。在這里，unicode 就是 “與存儲無關的表示”，utf—8 就是 “二進制表示”。

　　三、亂碼的解決方法

　　根據原因來找解決方法，就非常簡單了。

　　方法一：直接指定res.encoding

　　方法二：

　　通過res.apparent_encoding屬性指定

　　方法三：通過編碼、解碼的方式

　　輸出結果：

　　基本思路三步走：確定源網頁的編碼A---gbk、程序通過編碼B---ISO-8859-1對源網頁數據還原、統一轉換字符的編碼C-utf-8。至于為啥為出現統一轉碼這一步呢？網絡爬蟲系統數據來源很多，不可能使用數據時，再轉化為其原始的數據，假使這樣做是很廢事的。所以一般的爬蟲系統都要對抓取下來的結果進行統一編碼，從而在使用時做到一致對外，方便使用。

　　比如如果我們想講網頁數據保存下來，則會將起轉為utf-8，代碼如下：