快捷搜索:  汽车  科技

创建spider爬虫程序模板的指令(超详细SpiderFlow可视化爬虫实践教程)

创建spider爬虫程序模板的指令(超详细SpiderFlow可视化爬虫实践教程)我本机是嫖的腾讯云服务器,2核4g三年,不到300,我一个老嫖客都觉得香 ,买来折腾可太舒服了,有想法的小伙伴可以去看看活动还有没有→https://curl.qcloud.com/gAi358h4如果你是部署在服务器,localhost改成你的服务器ip,且保证服务器开放了该端口https://gitee.com/sssss-teasssm/spider-flow.git然后访问自己本地服务:http://localhost:8088/

1.什么是spiderflow?

spider-flow 是一个爬虫平台,以图形化方式定义爬虫流程,无需代码即可实现一个爬虫,也可进行二次开发。

官方文档

我参考文档和官方demo,配置了一个爬取成都最新二手房价的一只爬虫,具体成果如下,输出的结果可直接插入数据库,或者直接导出成csv文件用Exel表格解析打开。

2.平台操纵必备基础

首先拉取代码到本地,配置好数据源,然后跑起来

https://gitee.com/sssss-teasssm/spider-flow.git

创建spider爬虫程序模板的指令(超详细SpiderFlow可视化爬虫实践教程)(1)

然后访问自己本地服务:

http://localhost:8088/

如果你是部署在服务器,localhost改成你的服务器ip,且保证服务器开放了该端口

我本机是嫖的腾讯云服务器,2核4g三年,不到300,我一个老嫖客都觉得香 ,买来折腾可太舒服了,有想法的小伙伴可以去看看活动还有没有→https://curl.qcloud.com/gAi358h4

进入主页面

创建spider爬虫程序模板的指令(超详细SpiderFlow可视化爬虫实践教程)(2)

结点图标介绍我就不搬了,查阅下面官方文档

创建spider爬虫程序模板的指令(超详细SpiderFlow可视化爬虫实践教程)(3)

结点介绍

3.实践

我之前没玩过爬虫,对页面标签不是很懂,调试挺累的,下面我以我写的爬虫为例子,出一个图文教程。

step1:

首先,选中一枚受害者 https://cd.lianjia.com/ershoufang/,

创建spider爬虫程序模板的指令(超详细SpiderFlow可视化爬虫实践教程)(4)

PS:直接筛选好你需要的房源,然后搜索一下,生成带参数的分页链接,只爬你需要的部分!

step2:

定义爬虫

创建spider爬虫程序模板的指令(超详细SpiderFlow可视化爬虫实践教程)(5)

step3:

实地考查页面,筛选自己需要的信息,定义变量来封装它们

创建spider爬虫程序模板的指令(超详细SpiderFlow可视化爬虫实践教程)(6)

step4:

翻页逻辑

创建spider爬虫程序模板的指令(超详细SpiderFlow可视化爬虫实践教程)(7)

step5:

经过第四步,我们已经往 roomList 里存了25页的数据了,所以现在,我们要循环遍历它

创建spider爬虫程序模板的指令(超详细SpiderFlow可视化爬虫实践教程)(8)

step6:

定义参数,用于输出,我以房源标题(roomTitle)为例, 通过刚刚的房源集合参数roomList,搭配下标参数index 组成 -> roomList[index],就能获取单条数据的详情,然后在这条内容里,选中那个a标签,就能得到值了,其他参数大同小异。具体语法,参考官方文档。

创建spider爬虫程序模板的指令(超详细SpiderFlow可视化爬虫实践教程)(9)

step7:

输出刚刚定义的参数

创建spider爬虫程序模板的指令(超详细SpiderFlow可视化爬虫实践教程)(10)

step8:

出货

创建spider爬虫程序模板的指令(超详细SpiderFlow可视化爬虫实践教程)(11)

4.总结

这个框架的说明文档,对于0基础爬虫玩家来说,并不很容易懂,我是模仿demo,不停调试,才成功的。因为没有找到合适的文档,所以详细记录下来,给大家个参考,如果觉得有帮助,不妨点个赞哦,资料仅供学习参考,别把自己爬进去了哈。

猜您喜欢: