網(wǎng)頁爬蟲 - Python 爬蟲中如何處理驗證碼?
問題描述
最近想用Python寫個爬蟲去抓取一些東西,但是碰到個問題,就是驗證碼不知道該如何處理。現(xiàn)在驗證碼一般有兩種,一種是簡單的,比如下面這種純字符型的:
另外一種就是出來一些特定字符,需要按順序點(diǎn)擊的:
我看有的人說可以獲取瀏覽器cookies寫到程序里就直接通過驗證了,有的說這個涉及到機(jī)器學(xué)習(xí)方面的東西。由于我個人以前沒接觸過這方面東西,所以不知道從何處入手,想問下要處理這種驗證碼的話,一般該如何處理? 有沒有這方面合適的書推薦下啊……
問題解答
回答1:這個本身用驗證碼技術(shù)就是防止爬蟲之類的網(wǎng)絡(luò)程序的,我所知道的破解驗證碼就是用人工智能的圖像識別那塊,好像有類似的函數(shù)可用,但是準(zhǔn)確率都不會太高的
回答2:驗證碼問題,一可以轉(zhuǎn)到專業(yè)服務(wù)商提供的API(他們用機(jī)器學(xué)習(xí)或者人工),如優(yōu)優(yōu)圖,二是自己寫驗證碼識別程序,提供一個項目供參考:https://github.com/luyishisi/...
回答3:有一種方案是在瀏覽器手動登陸然后把cookies提取出來直接在爬蟲里包在請求里發(fā)出去。
回答4:圖片一好處理,驗證碼就是張圖片,通過圖片處理可以獲取驗證碼(ocr技術(shù));圖片二比較麻煩,如果用第一種方法的話,它的數(shù)字覆蓋在文字上面了,在獲取圖片內(nèi)容的時候難度比較大,第二種方法我沒有什么好方法,希望有這方面經(jīng)驗的同學(xué)幫忙解答一下
回答5:驗證碼就是用來反制機(jī)器和爬蟲的,如果驗證碼能讓你的自動化爬蟲輕松繞過,那還能叫驗證碼么?樓主還是先搞清楚驗證碼是個怎么機(jī)制,再來看看是否真如你想象中能夠輕松繞過.總而言之,除非人家網(wǎng)站的驗證碼實(shí)現(xiàn)有漏洞,否則你是無法繞過驗證碼機(jī)制的,你只能識別出驗證碼上的文字,比如OCR(Optical Character Recognition)技術(shù)就是用來解決這個問題的.OCR是指電子設(shè)備(如掃描儀)檢查紙上打印的字符.通過檢測暗/亮的模式確定其形狀,然后用字符識別方法將形狀翻譯成計算機(jī)文字的過程.
驗證碼識別基本步驟:1.預(yù)處理2.灰度化3.二值化4.去噪5.分割6.識別
總而言之,驗證碼識別門檻高,成本也高,避無可避.比如下圖,驗證碼東倒西歪,還重疊,識別起來有難度.
可以用一個驗證碼服務(wù)像是我在用的9eu。
回答7:最省事的方式就是把cookie拿出來寫在代碼里,不過cookie是有時效性的
回答8:應(yīng)對復(fù)雜的驗證碼,比較高效省時的方法應(yīng)是對接到打碼平臺,交由他們的人工處理。
相關(guān)文章:
1. java - 關(guān)于表的主鍵問題2. 通過外部CSS或嵌入式樣式縮放時,F(xiàn)irefox會使圖像模糊。3. html5 - 如何讓H5頁面在手機(jī)瀏覽器里和微信全屏顯示4. 誰有mysql5.7安裝的詳細(xì)教程5. node.js - session怎么存到cookie,然后服務(wù)器重啟后還能獲取。數(shù)據(jù)庫不用mongodb或redis,數(shù)據(jù)庫是mysql6. Android的webView如何實(shí)現(xiàn)網(wǎng)頁 錄音功能?7. java中使用log4j如何不用每次調(diào)用都聲明一下?8. nginx - web服務(wù)器根目錄生成了很多這種文件?9. 這段代碼是獲取百度收錄量的!需要怎么設(shè)置才能獲取百度快照旁邊的網(wǎng)址呢?10. html5 - vue 里的Elemen UI的時間怎么轉(zhuǎn)化為時間戳嗎
