node 爬虫 实战 - 爬取拉勾网职位数据

node 爬虫 实战 - 爬取拉勾网职位数据,主要想把数据用于大数据学习,到时候大数据分析可以自己分析一下职位的情况,和比较一些我现在的职位在深圳乃至全国的开发人员水平。

涉及到的技术栈:node.js ,mongoDB , express 

源码下载:https://gitee.com/draven_lee/node-spider ,如果有帮助到你,不需要打赏,欢迎给star。

这个爬虫功能有点简单,仅供学习参考。

爬取lagou.com首页的menu菜单的url,并且把menu的前30页url保存进去爬虫队列中,之后沿着队列的url,把需要的数据提取出来。
爬取的过程中,发现,如果太频繁的和没有用户的登录态,会被和谐到其他页面去,应该是拉勾网做了防爬虫机制,所以我把爬取的速度放慢,加上模拟的登录态,可以成功爬取到数据。不过按照这个爬取有点慢的速度,我爬了四天四夜,爬了10W+条职位数据。
废话不说,先上代码。

评论 ( 0 )
最新评论
暂无评论

赶紧努力消灭 0 回复