python爬虫scrapy原理（python学习之scrapy框架爬取妹子图网站）

威哥 2023-05-06 10:07:12 585

python爬虫scrapy原理（python学习之scrapy框架爬取妹子图网站）运行scrapy项目程序我们有两种方法，一种是在CMD中键入：scrapy crawl meizi_spider(注意此 meizi_spider为meizituSpider类中定义的name的值)；在这里我们提一下，上面代码中用到的XPath：XPath 是一门在 XML 文档中查找信息的语言，XPath 用于在 XML 文档中通过元素和属性进行导航。其获取方法为：定义的这个类将在下面我们将要编写的爬虫文件中使用。2、在Spider文件夹下我们创建一个meizi_scrapy.py文件，注意这个文件的名字不能和项目名重名，否则会使导包时出错，还有将我们的scrapy_meizi文件夹定义为源文件夹，否则也可能导致导入文件出错。设置方法如下：具体代码为：相关代码解释已注释在代码后面，这里不再解释。

前几篇文章中，分别介绍了scrapy的基本知识、安装方法以及框架结构，对本篇文章感兴趣的同学可以关注下我的头条号，到我的主页去查看，这样，对本篇文章的学习可能会更好些。本文使用的依然是python2 pycharm的组合。

言归正传，昨天，在CMD中我使用scrapy startproject scrapy_meizi 命令行创建了一个scrapy项目，这个项目是利用scrapy的特性来爬取妹子图网站上的所有图片。

上代码前，首先简单介绍下导入模块的顺序：1、系统模块（空行）2、第三方模块；（空行）3、自己编写的模块。之后才是定义各种变量的代码。

1、首先在我们的items.py中定义一个类，用来对我们获取的item的相关信息：

python爬虫scrapy原理（python学习之scrapy框架爬取妹子图网站）(1)