python 爬蟲被擋QAQ
我舉我爬Google Map 的例子:
我想爬這段字 ,"便利店"
我純用BeautifulSoup去爬,大概爬30多筆就被擋了
錯誤訊息 : HTTPError: HTTP Error 429: Too Many Requests
這告訴我們,大哥(大姊)你爬太兇了喔~先給我休息一下。
於是我發現可以用洋蔥伺服器解決~~
- Tor Windows Expert Bundle(傳送門)
2. Start Vidalia(傳送門)
選擇 vidalia-standalone-0.2.21-win32-1_en-US.exe
下載。
執行 Vidalia,第一次會需要設定 Tor 路徑,也就是Tor Windows Expert Bundle(或 Tor Browser)所安裝的 tor.exe 的路徑。
3.假如你跑程式tor還是沒有反應,那就直接打開Start Vidalia.exe,手動執行
5.接著去跑就好了~~
程式碼 :(來源)
之後就可以爬到了,但是呢~~
這方法雖然可以爬,但是執行時間會延遲 5s~100s,原因大概是洋蔥伺服器是每10分鐘會換一次IP,所以在換IP時會影響原程式的時間。
萬一突然又爬不到,那重開洋蔥就好了。
78人 : 你說啥~怎麼這麼爛阿,有時還是爬不到???
我 : 那...模擬人的搜尋方法,每次查詢都要隔5~10分之類的,header那些要換...ಠ_ಠ
78人 : 很久餒,不要>0<
我 : 那...你TM花錢去買IP阿,這方法基本上跟駭客差不多了(DDOS),乖乖跟Google買的阿(╬ ಠ益ಠ)
78人 : ε=ε=ε=┌(;*´Д`)ノ
end
(っ^//3//^)っ ///⊙﹏⊙)