python爬取指定用户微博内容(图文详解Python模拟登录新浪微博流程)
python爬取指定用户微博内容(图文详解Python模拟登录新浪微博流程)这里调用了loginByXMLHttpRequest函数,并传入参数b,即password。所以我们继续搜索loginByXMLHttpRequest,得到:这里可以推测出this.login中的参数b应该就是password。查看login函数,可以得到:(2)分析的第一步,要知道用户名如何加密。在Charles中搜索“username”。为什么这么搜?你如果是做网站的,估计90%的可能都会把用户名变量命名为username吧!搜索后看到只有文件loginLayers.js中包含username,该文件的命名也说明跟文件相关,根据经验应该能判断出这个文件很重要。(3)将这个文件的内容复制出来,放到一个文本文件中,搜索username,会找到下边图示中的这么几行代码,从而得知用户名的加密方式。用户名加密方法很简单,encode之后紧跟一个base64即可。具体用Python怎么写,自己看代
如果你想用Python模拟登陆新浪微博,首先肯定要去百度一些相关的知识,了解各位前辈们已经做得一些工作。这里通过搜索可以知道,新浪微博在登录时,对用户名、密码进行了加密处理,也知道了加密算法(b64encode、rsa等等)。这里先有个大体印象,我会一步步交给大家怎么自己去发现新浪微博的加密算法,毕竟授人以鱼不如授人以渔嘛!
这里用到的工具是Charles,是Mac下的一个抓包工具。Windows下对应的是Fiddler。如果你不会用,或者不熟悉,建议先安装一个,自己动手熟悉一下软件的用法。
好了,准备工作完成了,废话不多说,开始干货!
(1)开启Charles后,打开新浪微博的登录页面,并输入用户名、密码、验证码后登录一遍,这时候会在Charles留下整个登录的流程,后边慢慢分析。
(2)分析的第一步,要知道用户名如何加密。在Charles中搜索“username”。为什么这么搜?你如果是做网站的,估计90%的可能都会把用户名变量命名为username吧!搜索后看到只有文件loginLayers.js中包含username,该文件的命名也说明跟文件相关,根据经验应该能判断出这个文件很重要。
(3)将这个文件的内容复制出来,放到一个文本文件中,搜索username,会找到下边图示中的这么几行代码,从而得知用户名的加密方式。用户名加密方法很简单,encode之后紧跟一个base64即可。具体用Python怎么写,自己看代码。
(4)用户名加密完了,应该要加密密码了。继续在这个文件中搜索password,得到:
这里可以推测出this.login中的参数b应该就是password。查看login函数,可以得到:
这里调用了loginByXMLHttpRequest函数,并传入参数b,即password。所以我们继续搜索loginByXMLHttpRequest,得到:
这里调用了makeXMLRequestQuery函数,并传入参数b,即password。所以我们继续搜索makeXMLRequestQuery,得到:
这里调用了makeRequest函数,并传入参数b,即password。所以我们继续搜索makeRequest,得到:
这里就可以清晰的看到密码加密流程。具体Python怎么实现,还是自己看代码。但是这里有个问题,密码加密的时候,会有几个参数需要传入,比如nonce、servertime、rsakv等等,这是什么鬼呢?继续往下看。
(5)在Charles中搜索servertime,会得到一个prelogin的请求,该请求返回servertime、nonce、pubkey等参数。这里返回的是一个json串。
查看该请求的request,可以看到他需要加密后的用户名su。根据这里的参数,就可以对密码进行加密了。这里稍微回想总结下整个流程:
-
根据用户名username得到加密后的用户名su
-
根据su得到一个json串,里边包含加密密码用到的各种参数,servertime、nonce等
-
根据json串和密码得到加密后的密码,然后就可以登陆了。
(6)在Charles中可以找到一个login.php请求,根据经验也可以大体判断这就是登录请求,事实证明也确实如此。根据该请求的request,自己构建postdata,并发送请求即可。
这里需要说明下验证码问题。有些账号登录需要验证码,有些不需要,这和账号设置有关,带有登录保护的就需要输入验证码。这里也可以根据上边得到的json串中的showpin参数得知(具体见上边的图)。如果需要验证码,则只需要找到验证码的地址,得到图片:
将这个图片保存到本地进行人工打码,或者接入打码平台,都可以获取验证码内容。在我的代码中,我原本封装了云打码平台的接口,直接调用即可,但为了方便大家测试,我改为人工打码的形式,具体见代码:
(7)构造postdata,发送请求,即便是请求成功了,其实还没登录成功。因为新浪微博还有一步跳转。是不是很麻烦?别着急,胜利马上就在眼前了。我们仔细查看Charles后,会发现在上个请求之后,有下边一个请求wbsso.login,这就是那个跳转,如下图。
该跳转请求的请求如何构建,大家看代码即可,这里就不多说了。代码如下:
代码中还检查登录是否成功,这里也不过多描述。到这为止,新浪微博就算是登录成功了。
这里还有一个问题没有说到,就是Cookie问题。本文中一直没有提到Cookie,是因为Python中的Cookiejar会帮我们自动处理所有的cookie问题。你只需要在模拟登陆之前,首先声明一个cookiejar和opener即可,具体这两个东西的用法,大家自行百度。代码如下:
模拟登陆微博真的很麻烦,也确实需要一定的经验,大家多多练习,熟练掌握了这个,相信你们在模拟登陆其他网站的时候,也能举一反三的去破解登录流程。有什么问题,可以在评论中指出,有时间我会帮大家解答的。
总的代码如下:
# _*_ coding: utf-8 _*_
import re
import rsa
import ssl
import time
import json
import base64
import logging
import binascii
import urllib.parse
# 参考PSpider项目
import spider
ssl._create_default_https_context = ssl._create_unverified_context
class WeiBoLogin(object):
"""
class of WeiBoLogin to login weibo.com
"""
def __init__(self):
"""
constructor
"""
self.user_name = None # 登录用户名
self.pass_word = None # 登录密码
self.user_uniqueid = None # 用户唯一ID
self.user_nick = None # 用户昵称
self.cookie_jar self.opener = None None
return
def login(self user_name pass_word proxies=None):
"""
login weibo.com return True or False
"""
# 变量赋值初始化
self.user_name = user_name
self.pass_word = pass_word
self.user_uniqueid = None
self.user_nick = None
# 构建cookie_jar和opener 这里不使用代理 同时保证整个流程中不需要关心cookie问题
self.cookie_jar self.opener = spider.make_cookiejar_opener(is_cookie=True proxies=proxies)
self.opener.addheaders = spider.make_headers(
user_agent="pc"
host="weibo.com"
referer="http://weibo.com/"
accept="text/html application/xhtml xml application/xml;q=0.9 image/webp */*;q=0.8"
accept_encoding="gzip deflate"
accept_language="zh-CN zh;q=0.8"
).items()
# (1) 打开weibo.com/login.php 先请求一些必要的cookie信息
self.opener.open("http://weibo.com/login.php")
# (2) 根据用户名获取加密后的用户名
s_user_name = self.get_username()
# (3) 利用加密后的用户名 获取其他一些数据:json格式
json_data = self.get_json_data(su_value=s_user_name)
if not json_data:
return False
# (4) 根据第三步得到的json数据 获取加密后的密码
s_pass_word = self.get_password(json_data["servertime"] json_data["nonce"] json_data["pubkey"])
# (5) 构造登录中用到的postdata
post_dict = {
"entry": "weibo"
"gateway": "1"
"from": ""
"savestate": "7"
"userticket": "1"
"vsnf": "1"
"service": "miniblog"
"encoding": "UTF-8"
"pwencode": "rsa2"
"sr": "1280*800"
"prelt": "529"
"url": "http://weibo.com/ajaxlogin.php?framelogin=1&callback=parent.sinaSSOController.feedBackUrlCallBack"
"rsakv": json_data["rsakv"]
"servertime": json_data["servertime"]
"nonce": json_data["nonce"]
"su": s_user_name
"sp": s_pass_word
"returntype": "TEXT"
}
# (6) 判断是否需要输入验证码 如果需要 获取验证码并进行打码操作
if json_data.get("showpin" None) == 1:
url = "http://login.sina.com.cn/cgi/pin.php?r=%d&s=0&p=%s" % (int(time.time()) json_data["pcid"])
with open("captcha.jpeg" "wb") as file_out:
file_out.write(self.opener.open(url).read())
code = input("请输入验证码:")
# cid code = self.yundama.get_captcha(self.opener.open(url).read() "captcha.jpeg" "image/jpeg" codetype="1005")
# if not code:
# return False
post_dict["pcid"] = json_data["pcid"]
post_dict["door"] = code
# (7) 根据构造的postdata 登录微博
login_url_1 = "http://login.sina.com.cn/sso/login.php?client=ssologin.js(v1.4.18)&_=%d" % int(time.time())
json_data_1 = json.loads(spider.get_html_content(self.opener.open(login_url_1 data=spider.make_post_data(post_dict))))
if json_data_1["retcode"] == "0":
# 登录后有一个跳转 构造跳转链接的postdata
post_dict = {
"callback": "sinaSSOController.callbackLoginStatus"
"ticket": json_data_1["ticket"]
"ssosavestate": int(time.time())
"client": "ssologin.js(v1.4.18)"
"_": int(time.time()*1000)
}
login_url_2 = "https://passport.weibo.com/wbsso/login?" urllib.parse.urlencode(post_dict)
html_data = spider.get_html_content(self.opener.open(login_url_2) charset="gbk")
json_data_2 = json.loads(re.search("<span class='MathJax_Preview'><img src='http://python.jobbole.com/wp-content/plugins/latex/cache/tex_d91626e87dc0c68a5173e9a7eb5dad84.gif' style='vertical-align: middle; border: none; padding-bottom:2px;' class='tex' alt="(?P<result>.*)" /></span><script type='math/tex'>(?P<result>.*)</script>" html_data).group("result"))
# 检查登录是否成功 并获取用户唯一ID 用户昵称等
if json_data_2["result"] is True:
self.user_uniqueid = json_data_2["userinfo"]["uniqueid"]
self.user_nick = json_data_2["userinfo"]["displayname"]
logging.warning("WeiBoLogin succeed: %s" json_data_2)
else:
logging.warning("WeiBoLogin failed: %s" json_data_2)
else:
logging.warning("WeiBoLogin failed: %s" json_data_1)
return True if self.user_uniqueid and self.user_nick else False
def get_username(self):
"""
get username encrypt file: http://tjs.sjs.sinajs.cn/t5/register/js/page/remote/loginLayer.js
"""
username_quote = urllib.parse.quote_plus(self.user_name)
username_base64 = base64.b64encode(username_quote.encode("utf-8"))
return username_base64.decode("utf-8")
def get_json_data(self su_value):
"""
get the value of "servertime" "nonce" "pubkey" "rsakv" and "showpin" etc
"""
post_data = urllib.parse.urlencode({
"entry": "weibo"
"callback": "sinaSSOController.preloginCallBack"
"rsakt": "mod"
"checkpin": "1"
"client": "ssologin.js(v1.4.18)"
"su": su_value
"_": int(time.time()*1000)
})
try:
response = self.opener.open('http://login.sina.com.cn/sso/prelogin.php?' post_data)
data = spider.get_html_content(response charset="utf-8")
json_data = json.loads(re.search("<span class='MathJax_Preview'><img src='http://python.jobbole.com/wp-content/plugins/latex/cache/tex_2113437cb5d6c60798b4b1eaf9e54223.gif' style='vertical-align: middle; border: none; padding-bottom:2px;' class='tex' alt="(?P<data>.*)" /></span><script type='math/tex'>(?P<data>.*)</script>" data).group("data"))
except Exception as excep:
json_data = {}
logging.error("WeiBoLogin get_json_data error: %s" excep)
logging.debug("WeiBoLogin get_json_data: %s" json_data)
return json_data
def get_password(self servertime nonce pubkey):
"""
get legal password encrypt file: http://tjs.sjs.sinajs.cn/t5/register/js/page/remote/loginLayer.js
"""
string = (str(servertime) '\t' str(nonce) '\n' str(self.pass_word)).encode("utf-8")
public_key = rsa.PublicKey(int(pubkey 16) int("10001" 16))
password = rsa.encrypt(string public_key)
password = binascii.b2a_hex(password)
return password.decode()
if __name__ == '__main__':
logging.basicConfig(level=logging.DEBUG format="%(asctime)s\t%(levelname)s\t%(message)s")
# 测试登录 输入微博的用户名和密码
weibo = WeiBoLogin()
weibo.login("username" "password")
原文作者:笑虎
您的每一次评论及转发是我为您提供最精彩的内容的动力,帮转起来,谢谢。
如果您没有关注本 头条号 请先关注。
同时关注微信公众账号:Mobile_Internet (也可以第一时间了解到最新的开发头条资讯。)
立即加入QQ群:326254067 (程序员与源代码 (群2))