一个用于爬取YorkBBS住房信息的NodeJS动态网页爬虫

1.目的

这个project用于爬取YorkBBS上完整的住房信息,并将其生成一个html,放入apache2的服务器下,使之可以在任何地方查看筛选好的信息。

2.网页解析以及数据接口获取

YorkBBS采用的是动态网页加载,如果采用http解析器直接采集DOM结构的话,只能得到一个参杂了JS代码的HTML结构。这里有两个思路:

  1. 使用诸如PhantomnJS之类的库,等待网页加载完成才进行DOM读取

  2. 使用Chrome DevTool,通过Network功能查找和服务器端的通讯从而判断出数据的API接口,并通过伪造Header获取相应的信息

    这里我们采用第二个思路,首先打开Chrome DevTool 的Network标签,刷新目标网页,观察和服务器目标中的通讯。我们很快发现了这个Header:

Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×