python爬取3000部电影：用Python爬虫爬取世界上最大的小电影网站

八妹 2023-02-10 13:12:01 101

python爬取3000部电影：用Python爬虫爬取世界上最大的小电影网站电脑配置：MacOS 4G RAMpython版本：python2.7免责声明：本项目旨在研究Scrapy Spider Framework和MongoDB数据库，它不能用于商业或其他个人意图。如果使用不当，那将是个人承担。环境配置语言：python

python爬取3000部电影：用Python爬虫爬取世界上最大的小电影网站(1)

Pornhub 是什么

Pornhub是一个小电影分享网站 2007年成立于加拿大蒙特利尔的Pornhub是全球最大的小电影分享类网站之一，被视为同行视为先驱，在Alexa上排名第80位（最高时曾跻身前30）。2010年，Pornhub被另一家神秘的公司——总部位于卢森堡的Manwin（后改名MindGeek）公司收购，和其旗下的Youporn、Redtube等同类网站组成了全球最大的小电影视频联盟。

本文使用技术

python scrapy MongoDB，每天爬取500万的数据以上的小电影数据。

免责声明：本项目旨在研究Scrapy Spider Framework和MongoDB数据库，它不能用于商业或其他个人意图。如果使用不当，那将是个人承担。

该项目主要用于抓取网站，这是世界上最大的网站。这样做可以检索视频标题，持续时间，mp4链接，封面网址和直接网站的网址。
该项目快速抓取PornHub，但结构简单。
该项目每天最多可以抓取5万个网站的视频，具体取决于您的个人网络。由于我的带宽慢，我的结果相对较慢。
爬虫一次请求10个线程，因此可以达到上述速度。如果您的网络性能更高，您可以每天请求更多线程并抓取更多视频。具体配置请参见[预启动配置]

环境配置

语言：python

python版本：python2.7

电脑配置：MacOS 4G RAM

数据库： MongoDB

使用说明

下载源码

方式1

进入：github/xiyouMc/WebHubBot

点击下载源码，下载源码之后解答到一个文件夹

python爬取3000部电影：用Python爬虫爬取世界上最大的小电影网站(2)

方式2

需要先安装好git 安装好之后

git clone github/xiyouMc/WebHubBot.git

就能将源码下载到本地

预启动配置

如果scrapy使用pip指令安装不上的话。建议使用anaconda进行安装，装好anaconda之后使用conda install scrapy指令会自动解决依赖进行安装

安装MongoDB并在没有配置的情况下启动
安装Python依赖模块：Scrapy，pymongo，请求或 pip install -r requirements.txt
根据需要修改配置，例如间隔时间，线程数等。

启动

cd WebHub
python quickstart.py

运行屏幕截图

python爬取3000部电影：用Python爬虫爬取世界上最大的小电影网站(3)

python爬取3000部电影：用Python爬虫爬取世界上最大的小电影网站(4)

数据库配饰说明

保存数据的数据库中的表是PhRes。以下是字段说明：

PhRes表：

video_title: 视频的标题，并且不能重复 link_url: 视频的网址 image_url: 视频的一些截图 video_duration: 视频的时长，单位为秒 quality_480p: 视频的清晰度与下载视频的地址

python爬取3000部电影：用Python爬虫爬取世界上最大的小电影网站(5)

网站首页

返回栏目