快捷搜索:  汽车  科技

python爬虫scrapy原理(python学习之scrapy框架爬取妹子图网站)

python爬虫scrapy原理(python学习之scrapy框架爬取妹子图网站)运行scrapy项目程序我们有两种方法,一种是在CMD中键入:scrapy crawl meizi_spider(注意此 meizi_spider为meizituSpider类中定义的name的值);在这里我们提一下,上面代码中用到的XPath:XPath 是一门在 XML 文档中查找信息的语言,XPath 用于在 XML 文档中通过元素和属性进行导航。其获取方法为:定义的这个类将在下面我们将要编写的爬虫文件中使用。2、在Spider文件夹下我们创建一个meizi_scrapy.py文件,注意这个文件的名字不能和项目名重名,否则会使导包时出错,还有将我们的scrapy_meizi文件夹定义为源文件夹,否则也可能导致导入文件出错。设置方法如下:具体代码为:相关代码解释已注释在代码后面,这里不再解释。

前几篇文章中,分别介绍了scrapy的基本知识、安装方法以及框架结构,对本篇文章感兴趣的同学可以关注下我的头条号,到我的主页去查看,这样,对本篇文章的学习可能会更好些。本文使用的依然是python2 pycharm的组合。

言归正传,昨天,在CMD中我使用scrapy startproject scrapy_meizi 命令行创建了一个scrapy项目,这个项目是利用scrapy的特性来爬取妹子图网站上的所有图片。

上代码前,首先简单介绍下导入模块的顺序:1、系统模块(空行)2、第三方模块;(空行)3、自己编写的模块。之后才是定义各种变量的代码。

1、首先在我们的items.py中定义一个类,用来对我们获取的item的相关信息:

python爬虫scrapy原理(python学习之scrapy框架爬取妹子图网站)(1)

定义的这个类将在下面我们将要编写的爬虫文件中使用。

2、在Spider文件夹下我们创建一个meizi_scrapy.py文件,注意这个文件的名字不能和项目名重名,否则会使导包时出错,还有将我们的scrapy_meizi文件夹定义为源文件夹,否则也可能导致导入文件出错。设置方法如下:

具体代码为:相关代码解释已注释在代码后面,这里不再解释。

python爬虫scrapy原理(python学习之scrapy框架爬取妹子图网站)(2)

python爬虫scrapy原理(python学习之scrapy框架爬取妹子图网站)(3)

python爬虫scrapy原理(python学习之scrapy框架爬取妹子图网站)(4)

在这里我们提一下,上面代码中用到的XPath:XPath 是一门在 XML 文档中查找信息的语言,XPath 用于在 XML 文档中通过元素和属性进行导航。其获取方法为:

python爬虫scrapy原理(python学习之scrapy框架爬取妹子图网站)(5)

运行scrapy项目程序我们有两种方法,一种是在CMD中键入:scrapy crawl meizi_spider(注意此 meizi_spider为meizituSpider类中定义的name的值);

另一种是在项目原文件夹下创建一个scrapy_main.py文件,用来编写运行项目的代码:

python爬虫scrapy原理(python学习之scrapy框架爬取妹子图网站)(6)

。。。。。

重点来了,那就是运行结果啦……咳咳,不过呢,由于图片太那啥了,所以会被和谐,故就不再此上传了,感兴趣的童鞋可以自己试试呦。

猜您喜欢: