2018-07-02

Crawler

12 minutes read (About 1826 words)

一个用于爬取YorkBBS住房信息的NodeJS动态网页爬虫

1.目的

这个project用于爬取YorkBBS上完整的住房信息，并将其生成一个html，放入apache2的服务器下，使之可以在任何地方查看筛选好的信息。

2.网页解析以及数据接口获取

YorkBBS采用的是动态网页加载，如果采用http解析器直接采集DOM结构的话，只能得到一个参杂了JS代码的HTML结构。这里有两个思路：

使用诸如PhantomnJS之类的库，等待网页加载完成才进行DOM读取
使用Chrome DevTool,通过Network功能查找和服务器端的通讯从而判断出数据的API接口，并通过伪造Header获取相应的信息

这里我们采用第二个思路，首先打开Chrome DevTool 的Network标签，刷新目标网页，观察和服务器目标中的通讯。我们很快发现了这个Header:

Read More

Tony He

Web Developer

Toronto,ON

Posts

14

Categories

9

Tags

21

Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now