快捷搜索:  汽车  科技

python网络爬虫编程(用python如何写网络爬虫)

python网络爬虫编程(用python如何写网络爬虫)第4章,并发下载,通过并行下载加速数据抓取。第了章,下载缓存,学习了如何通过缓存结果避免重复下载的问题。本书内容第1章,网络爬虫简介,介绍了网络爬虫,并讲解了爬取网站的方法。第2章,数据抓取,展示了如何从网页中抽取数据。

python网络爬虫编程(用python如何写网络爬虫)(1)

这本书我是真的强烈推荐的。

本书讲解了如何使用 Python 来编写网络爬虫程序,内容包括网络爬虫简介,从页面中抓取数据的三种方法,提取缓存中的数据,使用多个线程和进程来进行并发抓取,如何抓取动态页面中的内容,与表单进行交互,处理页面中的验证码问题,以及使用 Scarpy 和 Portia 来进行数据抓取,并在最后使用本书介绍的数据抓取技术对几个真实的网站进行了抓取,旨在帮助读者活学活用书中介绍的技术。

本书适合有一定 Python 编程经验,而且对爬虫技术感兴趣的读者阅读。

关于作者:Richard Lawson 来自澳大利亚,毕业于墨尔本大学计算机科学专业。华业后,他创办了一家专注于网络爬电的公司,为超过 50个国家的业务提供远程工作。他精通于世界语,可以使用汉语和韩语对话,并且积极投身于开源软件。他目前在牛津大学攻读研究牛学位,并利用业余时间研发自丰无人机。

本书内容

第1章,网络爬虫简介,介绍了网络爬虫,并讲解了爬取网站的方法。

第2章,数据抓取,展示了如何从网页中抽取数据。

第了章,下载缓存,学习了如何通过缓存结果避免重复下载的问题。

第4章,并发下载,通过并行下载加速数据抓取。

第5 章,动态内容,展示了如何从动态网站中抽取数据。

第6章,表单交互,展示了如何与表单进行交互,从而访问你需要的数据。

第7章,验证码处理,阐述了如何访问被验证码图像保护的数据。

第8章,Scrapy,学习了如何使用流行的高级框架 Scrapy。

第9章,总结,对我们介绍的这些网络爬虫技术进行总结。

python网络爬虫编程(用python如何写网络爬虫)(2)

python网络爬虫编程(用python如何写网络爬虫)(3)

python网络爬虫编程(用python如何写网络爬虫)(4)

网络爬虫是否合法

网络爬虫目前还处于早期的蛮荒阶段,“允许哪些行为”这种基本秩序还

处于建设之中。从目前的实践来看,如果抓取数据的行为用于个人使用,则

不存在问题:而如果数据用于转载,那么抓取的数据类型就非常关键了。

世界各地法院的一些案件可以帮助我们确定哪些网络爬虫行为是允许

的。在Feist Publications Inc.起诉 Rural Telephone Service Co.的案件中,美

国联邦量高法院裁定抓取并转载真实数据(比如,电话清单)是允许的。而

在澳大利亚,Telsira Corporation Limited 起诉 Phone Direciories Compary Po

Lid 这一类似案件中,则裁定只有拥有明确作者的数据,才可以获得版权

此外,在欧盟的ofir.dk起诉home.dk 一案中,最终裁定定期抓取和深度链接

是允许的。

这些案件告诉我们,当抓取的数据是现实生活中的真实数据(比如,营业

地址、电话清单)时,是允许转载的。但是,如果是原创数据(比如,意见

和评论),通常就会受到版权限制,而不能转载。

无论如何,当你抓取某个网站的数据时,请记住自己是该网站的访客,应

当约束自己的抓取行为,否则他们可能会封禁你的 IP,甚至采取更进一步的

法律行动。这就要求下载请求的速度需要限定在一个合理值之内,并且还需

要设定一个专属的用户代理来标识自己。在下面的小节中我们将会对这些实

践进行具体介绍。

网络爬虫何时有用

假设我有一个鞋店,并且想要及时了解竞争对手的价格。我可以每天访问他们的网站,与我店铺中鞋子的价格进行对比。但是,如果我店铺中的鞋类品种繁多,或是希望能够更加频繁地查看价格变化的话,就需要花费大量的时间,甚至难以实现。再举一个例子,我看中了一双鞋,想等它促销时再购买。我可能需要每天访问这家鞋店的网站来查看这双鞋是否降价,也许需要等待几个月的时间,我才能如愿盼到这双鞋促销。上述这两个重复性的手工流程,都可以利用本书介绍的网络爬虫技术实现自动化处理。

网络爬虫是否合法

网络爬虫目前还处于早期的蛮荒阶段,“允许哪些行为”这种基本秩序还处于建设之中。从目前的实践来看,如果抓取数据的行为用于个人使用,则不存在问题:而如果数据用于转载,那么抓取的数据类型就非常关键了。世界各地法院的一些案件可以帮助我们确定哪些网络爬虫行为是允许的。在Feist Publications Inc.起诉 Rural Telephone Service Co.的案件中,美国联邦量高法院裁定抓取并转载真实数据(比如,电话清单)是允许的。而在澳大利亚,Telsira Corporation Limited 起诉 Phone Direciories Compary PoLid 这一类似案件中,则裁定只有拥有明确作者的数据,才可以获得版权此外,在欧盟的ofir.dk起诉home.dk 一案中,最终裁定定期抓取和深度链接是允许的。

这些案件告诉我们,当抓取的数据是现实生活中的真实数据(比如,营业地址、电话清单)时,是允许转载的。但是,如果是原创数据(比如,意见和评论),通常就会受到版权限制,而不能转载。无论如何,当你抓取某个网站的数据时,请记住自己是该网站的访客,应当约束自己的抓取行为,否则他们可能会封禁你的 IP,甚至采取更进一步的法律行动。这就要求下载请求的速度需要限定在一个合理值之内,并且还需要设定一个专属的用户代理来标识自己。

获取更多可私信我,回复“领取”即可获得完整版呦~

猜您喜欢: