Awesome
fidb-crawler
經濟部工業局爬工廠資料程式
前言
第一次嘗試寫 crawler 過程實況,希望透過寫的過程以及我的碎碎念,讓沒有寫過 crawler 的人可以大概知道怎麼寫。
主要語言是使用 PHP ,用到 curl, iconv, dom 等 library ,這些在其他語言也很多,因此希望也能對非 PHP 的開發者也能有幫助。
不過因為完全沒有事先準備,直接就開始邊錄邊寫,所以中間卡關好幾次在 try & error,寫了快兩個小時,如果看到睡著請不要怨我 XD
程式說明
- crawler.php : 爬工廠名稱、代號、連結的程式
- crawler2.php : 從連結爬出更完整資訊的程式
連結
影片位置: http://www.youtube.com/watch?v=EbAmjXDnqHE 經濟部工廠公示資料查詢系統: http://gcis.nat.gov.tw/Fidbweb/index.jsp
注意
- 爬資料請小力點爬,如果不趕時間最好每一個 request 都間隔一秒,這樣比較不會造成主機的負擔,影響到要正常使用的人。
- 工廠資訊我爬完後就會公布出來,所以對這資料有需求的人不需要用我的程式再重新爬一次,我公開程式只是供教學使用
- 以上公開程式碼以 BSD License 授權