python 爬蟲被擋QAQ

--

我舉我爬Google Map 的例子:

我想爬這段字 ,"便利店"

我純用BeautifulSoup去爬,大概爬30多筆就被擋了

錯誤訊息 : HTTPError: HTTP Error 429: Too Many Requests

這告訴我們,大哥(大姊)你爬太兇了喔~先給我休息一下。

於是我發現可以用洋蔥伺服器解決~~

  1. Tor Windows Expert Bundle(傳送門)

2. Start Vidalia(傳送門)
選擇
vidalia-standalone-0.2.21-win32-1_en-US.exe 下載。

執行 Vidalia,第一次會需要設定 Tor 路徑,也就是Tor Windows Expert Bundle(或 Tor Browser)所安裝的 tor.exe 的路徑。

3.假如你跑程式tor還是沒有反應,那就直接打開Start Vidalia.exe,手動執行

找tor.exe的路徑,按確定就會看到左邊的洋蔥變綠的

5.接著去跑就好了~~

程式碼 :(來源)

之後就可以爬到了,但是呢~~

這方法雖然可以爬,但是執行時間會延遲 5s~100s,原因大概是洋蔥伺服器是每10分鐘會換一次IP,所以在換IP時會影響原程式的時間。

萬一突然又爬不到,那重開洋蔥就好了。

78人 : 你說啥~怎麼這麼爛阿,有時還是爬不到???

我 : 那...模擬人的搜尋方法,每次查詢都要隔5~10分之類的,header那些要換...ಠ_ಠ

78人 : 很久餒,不要>0<

我 : 那...你TM花錢去買IP阿,這方法基本上跟駭客差不多了(DDOS),乖乖跟Google買的阿(╬ ಠ益ಠ)

78人 : ε=ε=ε=┌(;*´Д`)ノ

end

‎(っ^//3//^)っ ///⊙﹏⊙)

--

--