怎样找到requests库的文件地址（requests库请求获取不到数据怎么办）

威哥 2023-05-28 11:55:25 444

怎样找到requests库的文件地址（requests库请求获取不到数据怎么办）针对本文中的网页，除了文章这种“投机取巧”方法外，用selenium抓取也是可行的，速度慢一些，但是可以满足要求。小编相信肯定还有其他的方法的，也欢迎大家在评论区谏言。我是Python进阶者。本文基于粉丝提问，针对一次有趣的爬虫经历，分享一个实用的爬虫经验给大家。下次再遇到类似这种使用requests库无法抓取的网页，或者看不到包的网页，不妨试试看文中的requests_html方法，说不定有妙用噢！下面就奉上本次爬虫的代码，欢迎大家积极尝试。# 作者：@有点意思 import re import requests_html def 抓取源码(url): user_agent = requests_html.user_agent() session = requests_html.HTMLSession() headers = {

作者：Python进阶者

来源：Python爬虫与数据挖掘

一、思路

很多网站都对requests反爬了，这种时候，一般有两个选择，要不就找js接口，要不就用requests_html等其他工具，这里他使用了后者requests_html工具。

二、分析

一开始直接使用requests进行请求，发现得到的响应数据并不对，和源码相差万里，然后就考虑到网站应该是有反爬的，尝试加了一些ua，headers还是不行，于是乎想着使用requests_html工具小试牛刀。

怎样找到requests库的文件地址（requests库请求获取不到数据怎么办）(1)

三、代码

下面就奉上本次爬虫的代码，欢迎大家积极尝试。

# 作者：@有点意思 import re import requests_html def 抓取源码(url): user_agent = requests_html.user_agent() session = requests_html.HTMLSession() headers = { "cookie": "BAIDUID=D664B1FA319D687E8EE0F9E8D643780A:FG=1; BIDUPSID=D664B1FA319D687E8EE0F9E8D643780A; PSTM=1620719199; __yjs_duid=1_c6692c2be6c2ffe04f29102282538ba81620719216498; BDUSS=dzdjlXdGsyTkhYdUFGeWFZOH40SmNWSkpDeUlPYS1UbU4xYklkYnFPY0Z5NTFoRVFBQUFBJCQAAAAAAAAAAAEAAAAmfcsXTUFPQlVDSEkyMDExAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAU-dmEFPnZhWD; BDUSS_BFESS=dzdjlXdGsyTkhYdUFGeWFZOH40SmNWSkpDeUlPYS1UbU4xYklkYnFPY0Z5NTFoRVFBQUFBJCQAAAAAAAAAAAEAAAAmfcsXTUFPQlVDSEkyMDExAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAU-dmEFPnZhWD; BAIDUID_BFESS=2C6304C3307DE9DB6DD487CC5C7C2DD3:FG=1; BDPPN=4464e3ebfa50be9e28b4d1c23e380603; _j54_6ae_=xlTM-TogKuTwIujX2VajREagog-ZV6RQfAmd; log_guid=0dad4e957fd92b3d86f994e0a93cee98; _j47_ka8_=57; __yjs_st=2_NzJkNjAyZjJmMmE1MTFmOTM1YWFlOWQwZWFlMjFkMTNmZDA0ZTlkNjRmNmUwM2NlZTQ4Y2Y4ZGM5ZjBjMDFlN2E0NzdiNDk4ZjdlNThmMmI4NjkxNDRjYmQ0MjZhMTZkMWYzMTBiYjUyMzJlMDdhMWQwZmQ2YjAwOWNiMTA5ZmJmNGNmNmE3OTk1ODZmZjkyMGQzZGZmNDdmZDJmZGU1MjE3MjgwMWRkNWYyMDlhNWNiYWM3YjNkMWI1MzU5NWM2MjEzYWMxODUyNDcyZDdjYTMzZDRiY2FlYTNmYmRiN2JkYzU1MWZiNWM3OTc4ZjExYmYwNGNlNTA5MjhjMWQ4Yl83XzEyZjk1ZDEw; Hm_lvt_ad52b306e1ae4557f5d3534cce8f8bbf=1637699929 1637713962 1637849108; Hm_lpvt_ad52b306e1ae4557f5d3534cce8f8bbf=1637849108; ab_sr=1.0.1_OTBkZjg4MzZjYjFhMWMyODgxZTM4MDZiNGViYTRkYjFhNDFiNWU1NWUyZjU4NDI3YjVjYTM1YTBiYTc1M2Y0ZTA5ZTI5YTZjNDQ4ZGFjMzE2NTU5ZTkwMWFkYWI0OGE5Nzc4MWFiOGU5N2VmNzJjMDdiYTk4NjYyY2E1NzQ4MzIzMDVmOTc2MDZjOTA0NTYyODNjNmUxNjAwNzlmNThlYQ==; _s53_d91_=93c39820170a0a5e748e1ac9ecc79371df45a908d7031a5e0e6df033fcc8068df8a85a45f59cb9faa0f164dd33ed0c72405da53b835d694f9513b3e1cb6e4a96799af3f84bd42f912f1c8ae0446a53f275c4e5a7894aeb6c9857d9df8629680517ba9801c04e1c714b46f860c3cbb2ecb1a3847388bf1b3c4bcbbd8119b62261a0a625c3c8b053758aa8fe29ec0f7fffe3b49bb0f77fea4df98a0f472d86bde82df374a7e5fb907b27d3187299c8b7ef65e28b9e042741e29587ab5829dfbafca8de50eb8162607986625ecd31d16a1f; _y18_s21_=4c8c0b95; RT=\"z=1&dm=baidu.com&si=nm8z611r2fr&ss=kwf1266k&sl=2&tt=xuh&bcn=https://fclog.baidu.com/log/weirwood?type=perf&ld=mmj&ul=ilwy\"" "User-Agent": user_agent } r = session.get(url headers=headers) html = r.html.html return html # 注意！这里抓取到的源码和手动打开的页面源码不一样 def 解密(列表): # unicode转化成汉字 print(列表) return [eval(i) for i in 列表] def 解析页面(html): 公司列表 = re.findall(r'titleName":(".*?")' html re.DOTALL) # 注意！此处编写正则时，要匹配的源码是函数“抓取源码”得到的html # 此处正则匹配时一定要把引号带上！否则eval会报错！ return 解密(公司列表) if __name__ == "__main__": # 不用抓包，这里的url就是用户搜索时的页面 url = "https://某某查网站/s?q=上海器械厂&t=0" html = 抓取源码(url) print(html) 公司列表 = 解析页面(html) print(公司列表)

这里大家可能觉得很奇怪，竟然有中文的函数命名和变量命名，这里是应原作者的要求，所以未做修改，但是不影响程序执行效果。

程序运行之后，可以看到目标字段都可以抓下来。

怎样找到requests库的文件地址（requests库请求获取不到数据怎么办）(2)