使用node开发一个网页爬虫

原创 Mr__yang 随笔 node 453阅读 2017-05-26 17:48:29 举报

首先介绍一下内容,本文写的是爬取网页all图片,恩,就这样。默认大家都是安装了node的。我就不介绍怎么安装了。如果有需要的话,这是下载地址node下载

直接进入正题: 需要用到的node模块有 http request fs path cheerio。其中request ,cheerio需用自己下载 npm install request --save npm install cheerio --save (我是下载在当前项目依赖的,当然了,你也可以全局)

01引入开发需要的JS模块
javascript 代码

02 定义一个页面地址,这个根据个人爱好随意

javascript 代码

03 对URL地址发起请求

javascript 代码

04处理HTML数据并获取图片
javascript 代码

好了,这样就基本解决了。然而问题来了,因为有些网站做了限制,获取到的HTML是没有静态img的,我试过是真的。没骗你们,可能是跟网站做了图片加载功能有关系。或者是因为图片是动态加载的。。。恩。。。就这样吧,我编不下去了。
如果一直是这个问题,可以直接调图片列表接口,这个处理还要简单点,首先把URL换成一个接口地址:
javascript 代码

然后只需修改downHtml处的代码
javascript 代码

至此,一个简单的爬虫就完成了。

评论 ( 0 )
最新评论
暂无评论

赶紧努力消灭 0 回复