python爬虫实例讲解(看完这一篇就够了)
python爬虫实例讲解(看完这一篇就够了)#!/usr/bin/env python # -*- coding:utf-8 -*- import urllib.request # urllib2 的User-Agent: Python-urllib/2.7 # User-Agent 爬虫和反爬虫的第一步 ua_headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML like Gecko) Chrome/54.0.2840.99 Safari/537.36" } # 通过urllib.request.Request() 方法构造一个请求对象 request = urllib.request.Request("baidu.co
urllib2urllib2是Python中用来抓取网页的库,urllib2 是 Python2.7 自带的模块(不需要下载,导入即可使用)
在python2.x里面有urllib和urllib2;在python3.x里面就把urllib和urllib2合成一个urllib;urllib3是在python3.x了里面新增的第三方扩展。
urllib2 官方文档:docs.python/2/lib...
urllib2 源码:hg.python/cpython...
urllib2 在 python3.x 中被改为urllib.Request
来先看一个简单的Demo 通过请求访问百度
# 向指定的url地址发送请求,并返回服务器响应的类文件对象
response = urllib.request.urlopen("baidu/")
# 服务器返回的类文件对象支持Python文件对象的操作方法
# read()方法就是读取文件里的全部内容,返回字符串
html = response.read()
# 打印响应内容
print(html)</pre>
    
我们已经拿到百度的首页了,但是目前出现了第一个问题就是,当你使用urllib2去访问的时候,它的User-Agent是Python-urllib/3.6 (user-agent决定用户的浏览器)

我们需要稍微伪装下,要不然第一步就会被反爬虫发现
#!/usr/bin/env python
# -*- coding:utf-8 -*-
import urllib.request
# urllib2 的User-Agent: Python-urllib/2.7
# User-Agent 爬虫和反爬虫的第一步
ua_headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML  like Gecko) Chrome/54.0.2840.99 Safari/537.36"
}
# 通过urllib.request.Request() 方法构造一个请求对象
request = urllib.request.Request("baidu/"  headers = ua_headers)
# 向指定的url地址发送请求,并返回服务器响应的类文件对象
# urllib.request.urlopen()参数即可以是字符串也可以是对象
response = urllib.request.urlopen(request)
# 服务器返回的类文件对象支持Python文件对象的操作方法
# read()方法就是读取文件里的全部内容,返回字符串
html = response.read()
# 返回 HTTP的响应码,成功返回200,4服务器页面出错,5服务器问题
print(response.getcode())
# 返回 返回实际数据的实际URL,防止重定向问题
print(response.geturl())
# 返回 服务器响应的HTTP报头
print(response())
# 打印响应内容
#print(html)
爬取百度贴吧 
    
在url后面直接拼接参数,这种请求方式为get请求
#!/usr/bin/python
#coding:UTF-8
from urllib import request parse
def loadPage(fullUrl filename):
    """
        作用:根据url发送请求,获取服务器响应文件
        url: 需要爬取的url地址
        filename : 处理的文件名
    """
    print('正在下载'   filename)
    headers = {"User_Agent" : "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_0) AppleWebKit/537.36 (Khtml  like Gecko) Chrome/63.0.3239.108 Safari/537.36"}
    # 构造请求对象
    request1 = request.Request(fullUrl headers = headers);
    return request.urlopen(request1).read()
def wirtePage(html filename):
    """
        作用:将html内容写入到本地
        html:服务器相应的文件内容
    """
    print('正在保存'   filename)
    #文件写入
    with open(filename 'w') as f:
        # 此时打印的html伪bytes格式的 f.write()参数需要字符串
        f.write(html.decode(encoding='utf-8'))
    print ('-' * 30)
def tiebaSpider(url beginPage endPage):
    for page in range(beginPage endPage 1):
        pn = (page-1) * 50
        filename = "第"   str(page)  '页.html'
        fullUrl  = url  '&pn=' str(pn)
        # 发起请求
        html = loadPage(fullUrl filename)
        print(html)
        # 写网页
        wirtePage(html filename)
if __name__ == '__main__':
    kw = input('请输入爬去的贴吧名:')
    beginPage = int(input('请输入起始页:'))
    endPage = int(input('请输入结束页'))
    url = 'tieba.baidu/f?'
    key = parse.urlencode({"kw":kw})
    fullUrl = url   key
    tiebaSpider(fullUrl beginPage endPage)
通过POST请求到有道翻译 
    
有些网站的查询传参不是直接在URL上面拼接而且通过post form data进行,这个时候传递就要模拟post请求
from urllib import request parse
# 通过抓包的方式获取的url,并不是浏览器上显示的url
url = "fanyi.youdao/translate?smartresult=dict&smartresult=rule"
# 完整的headers
headers = {
        "Accept" : "application/json  text/javascript  */*; q=0.01" 
        "X-Requested-With" : "XMLHttpRequest" 
        "User-Agent" : "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML  like Gecko) Chrome/54.0.2840.99 Safari/537.36" 
        "Content-Type" : "application/x-www-form-urlencoded; charset=UTF-8" 
    }
# 用户接口输入
key = input("请输入需要翻译的文字:")
# 发送到web服务器的表单数据
formdata = {
"from" : "AUTO" 
"to" : "AUTO" 
"smartresult" : "dict" 
"client" : "fanyideskweb" 
"type" : "AUTO" 
"i" : key 
"doctype" : "json" 
"keyfrom" : "fanyi.web" 
"ue" : "UTF-8" 
"version":"2.1" 
"action" : "FY_BY_CLICKBUTTON" 
"typoResult" : "false"
}
# 经过urlencode转码
data = parse.urlencode(formdata).encode('utf-8')
print(data)
# 如果Request()方法里的data参数有值,那么这个请求就是POST
# 如果没有,就是Get
request1 = request.Request(url  data = data  headers = headers)
print(request.urlopen(request1).read().decode('utf-8'))
抓取ajax豆瓣电影 
    
有些时候页面上面是空的,内容通过ajax来加载,那么我们爬虫需要关注点就应该到数据源这个位置,ajax加载的页面,数据源一定是json 拿到json也就拿到了数据

from urllib import request  parse
url = "movie.douban/j/chart/top_list?type=11&interval_id=100:90&action"
headers = {"User-Agent" : "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML  like Gecko) Chrome/54.0.2840.99 Safari/537.36"}
formdata = {
        "start":"0" 
        "limit":"20"
    }
data = parse.urlencode(formdata).encode('utf-8')
request1 = request.Request(url  data = data  headers = headers)
print(request.urlopen(request1).read().decode('utf-8'))          




