快捷搜索:  汽车  科技

Python爬虫常见的四种类型(Python爬虫Xpath表达式的使用)

Python爬虫常见的四种类型(Python爬虫Xpath表达式的使用)r_two=tree.xpath('//font[@color="#000000"]/text()')这样就饿可以了。整体的代码如下所示:<font color="#000000">OK资源站 </font><font color="#FF0000">HTTPS</font><font color="#000000"> 站请进入>>></font></a></font><font size=font这个标签之后显然会有很多不同的color,但是我们只想要这里color为“#000000”后面的文字内容,因此我们使用这样的表达式:因此输出为:var SitePath='/

Python爬虫常见的四种类型(Python爬虫Xpath表达式的使用)(1)

假设我爬取了这样的一个html网页,前面的前端代码如下所示:

<html xmlns="w3/1999/xhtml"> <head> <title>OK资源采集-最新影视资源大全</title> <meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> <meta name="keywords" content="OK资源采集-最新影视资源大全" /> <meta name="description" content="OK资源采集-最新影视资源大全" /> <script>var SitePath='/' SiteAid='10' SiteTid='' SiteId='';</script> <link href="/template/okokzy/css/home.css" rel="stylesheet" type="text/css" /> <script src="/template/okokzy/js/jquery_ldg.js"></script> <script src="/template/okokzy/js/jquery.zclip.min.js"></script> <script src="/template/okokzy/js/ldg.js"></script> <script src="/js/jq/jquery.lazyload.js"></script> <script src="/template/okokzy/js/home.js"></script> </head>

我们想要获取其中的script标签后面的内容,因此我们可以使用Xpath来获取,假设我们想要获得第一个script标签处的值value,就可以使用表达式:

Xpath(/html/head/script/text())[0]

这个表达式的含义是输出在html下的head下的第一个script标签处的文字,因为我们前面的代码:

Xpath(/html/head/script/text())

会输出所有以script开头的对象,因此加上[0]限定为第一个script后面的文字。

因此输出为:

var SitePath='/' SiteAid='10' SiteTid='' SiteId='';

在Xpath表达式当中'//' 表示前面的省略不计,直接跳过两层或者多层拿到后面的标签中所对应的对象。

二.标签属性的使用

假设我们想要爬取font标签当中具备某个color属性的文字内容,如下所示:

<font color="#000000">OK资源站 </font><font color="#FF0000">HTTPS</font><font color="#000000"> 站请进入>>></font></a></font><font size=

font这个标签之后显然会有很多不同的color,但是我们只想要这里color为“#000000”后面的文字内容,因此我们使用这样的表达式:

r_two=tree.xpath('//font[@color="#000000"]/text()')

这样就饿可以了。整体的代码如下所示:

import requests from lxml import etree post_url = 'okzy10/' #cookie='lastCity=100010000; __zp_stoken__=ce26bZyQcLhoDK1A7M0RzPzMQEDJzHHpAQCJkUHtpSSFDSCkNeko0HBZxSywqeBxlHh8PIE4CLwgTSWsacwcdbEMNUBBzE2APASkfAktgOFskSn9HCTgkLmE7GFxecS8MGE4FGX99IHdsQHV5YQ==; __c=1610949395; __g=-; __l=l=/zhipin/&r=google/&g=&s=3&friend_source=0&s=3&friend_source=0; __a=13532184.1600828409.1610683874.1610949395.205.23.3.205; Hm_lvt_194df3105ad7148dcf2b98a91b5e727a=1610082805 1610683875 1610949395 1610949407; Hm_lpvt_194df3105ad7148dcf2b98a91b5e727a=1610949407' headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML like Gecko) Chrome/85.0.4183.83 Safari/537.36' } #解析本地的html #使用etree.parse #解析网页上的html #使用etree.HTML req = requests.get(post_url headers=headers) #print(req.text) with open('ok_resource.html' 'w' encoding='utf-8') as fp: fp.write(req.text) #使用xpath表达式对etree对象进行解析 parser = etree.HTMLParser(encoding="utf-8") tree=etree.parse('ok_resource.html' parser=parser) r=tree.xpath('/html/head/script/text()')[0] r_two=tree.xpath('//font[@color="#000000"]/text()') print(r) print(r_two)

猜您喜欢: