回覆 3ldk
我相信 library 大家都差唔多係咁用架喇 (類近 jQuery 個用法)
都係個人口味問題,不過 jav ...
hihihi123hk 發表於 2017-3-26 20:31 
我後來再諗真D, 發覺問既方向其實錯左, 重點唔應該放係parse html上面
而係應該放係bot既能力, 爬蟲能力, 破解能力, 模擬browser等等既能力上面
因為有時唔係簡單send個request, 就可以拎到想要既內容, 所以比起parse html, 上述能力更為重要
例如我之前遇過一個網頁, 當頁面load完後, 中間仲有個框, 由另一個request load入去
又例如有D網站, 如果request唔係browser發出, 就唔會有正確response
所以在抓取網頁的實際情況, 仲有好多奇怪問題要解決
在Java, 有HtmlUnit, 佢可以在程式內部模擬一個browser, 咁起碼扮browser依一part, 唔洗自己實作先
遇上超難搞的網頁, 仲有終極既Selenium, 用一個真實既browser去load網頁
咁在node.js呢? 有無咁完善既library去抓取網頁既資料?
睇過cherrio, 應該就無依類機制同功能
如果node.js上的資源可以取代到Java的話, 我未來應該都會轉用node.js, 因為寫javascript始終方便好多 |