网络爬虫技术防止策略有什么(爬虫还能这么玩-防采集)
网络爬虫技术防止策略有什么(爬虫还能这么玩-防采集)anyproxy-ca #生成rootCA证书,生成后需要手动信任 anyproxy --intercept #启动AnyProxy,并解析所有https请求证书生成后会自动打开生成证书的目录,默认位置:{userhome}\.anyproxy\certificates 双击打开证书,根据提示安装。npm install -g anyproxy启动命令行启动AnyProxy,默认端口号8001anyproxy启动后将终端http代理服务器配置为127.0.0.1:8001即可访问http://127.0.0.1:8002 ,web界面上能看到所有的请求信息代理HTTPSAnyProxy默认不对https请求做处理,如需看到明文信息,需要配置CA证书 解析https请求的原理是中间人攻击(man-in-the-middle),用户必须信任AnyProxy生成的CA证书,才能进行后续流程Git
AnyProxy,springboot,ffmpeg珠联璧合,下载msup大会阿里加密视频,学习大牛打怪招式。
文末有福利~
程序执行流程图
MSUP 是做什么的?
麦思博(msup)有限公司是一家面向软件研发团队的培训咨询机构,专注于软件研发中心的快速成长,服务于软件开发团队的技能提升、软件工程的实际应用和软件品质的创新与超越。强调人员、技术、流程和管理的有机结合,注重个体的技能提升与职业发展,研发团队的管理与协作。分享世界级软件研发团队最佳管理实践,这正是msup的精髓所在!
AnyProxy 简介
AnyProxy是一个开放式的HTTP代理服务器。
Github主页:https://github.com/alibaba/anyproxy
主要特性包括:
- 基于Node.js,开放二次开发能力,允许自定义请求处理逻辑
- 支持Https的解析
- 提供GUI界面,用以观察请求
作为全局模块
这里以Windows为例
npm install -g anyproxy
启动
- 命令行启动AnyProxy,默认端口号8001
anyproxy
- 启动后将终端http代理服务器配置为127.0.0.1:8001即可
- 访问http://127.0.0.1:8002 ,web界面上能看到所有的请求信息
代理HTTPS
- AnyProxy默认不对https请求做处理,如需看到明文信息,需要配置CA证书
解析https请求的原理是中间人攻击(man-in-the-middle),用户必须信任AnyProxy生成的CA证书,才能进行后续流程
- 生成证书并解析所有https请求
anyproxy-ca #生成rootCA证书,生成后需要手动信任
anyproxy --intercept #启动AnyProxy,并解析所有https请求
证书生成后会自动打开生成证书的目录,默认位置:{userhome}\.anyproxy\certificates 双击打开证书,根据提示安装。
rule模块简介
AnyProxy提供了二次开发的能力,你可以用js编写自己的规则模块(rule),来自定义网络请求的处理逻辑。
规则模块的能力范围包括:
- 拦截并修改正在发送的请求可修改内容包括请求头(request header),请求体(request body),甚至是请求的目标地址等
- 拦截并修改服务端响应可修改的内容包括http状态码(status code)、响应头(response header)、响应内容等
- 拦截https请求,对内容做修改本质是中间人攻击(man-in-the-middle attack),需要客户端提前信任AnyProxy生成的CA
anyproxy --rule ./rule.js
我们使用到的脚本示例
module.exports = {
* beforeSendResponse(requestDetail responseDetail) {
// 这里可能需要根据自己所在地区切换下URL,看下请求替换就可以了
if (requestDetail.url.indexOf('vod.cn-shanghai.aliyuncs.com') > -1) {
const newResponse = responseDetail.response;
const body = newResponse.body;
let result = JSON.parse(body.toString());
let res = result.PlayInfoList.PlayInfo;
let hdInfo;
for (var i = 0; i < res.length; i ) {
var r = res[i];
if (r.Definition == 'HD') {
hdInfo = r;
break;
}
}
if (!hdInfo) {
hdInfo = res[res.length - 1];
}
let url = hdInfo.PlayURL;
let vid = result.VideoBase.VideoId;
console.log(url);
console.log(vid);
return {
response: newResponse
};
}
}
};
启动脚本
这里不在赘述如何获取全部视频和如何获取视频播放地址,有心的人自然知道怎么处理
anyproxy --intercept --rule rule.js
打开浏览器输入地址 chrome://settings/ 展开 高级选项 - 打开您计算机的代理设置 配置代理地址和端口为 127.0.0.1 8001 点击保存即可
浏览器输入视频地址 https://case.msup.com.cn/play?id=165&videoId=0 观察控制台,发现可以打印出我们需要的视频地址信息
拷贝地址使用 ffplay 播放确认是否可用
ffplay url
控制台有日志输出,并且开始播放,binggo~,地址对了,接下来就是如何保存视频。
ffmpeg 简介
- Windows 下载地址 https://ffmpeg.zeranoe.com/builds/
- 下载完成以后解压,把解压目录添加到 环境变量 下,方便使用
- m3u8 视频保存MP4
ffmpeg -i [url] [test.mp4]
springboot
使用springboot的目的是把整个流程脚本化执行批量下载,关于所有视频信息的获取,有兴趣的自行研究吧,这里只介绍如何根据得到的视频信息自动下载。
我们需要借助 anyproxy 的 rule 脚本的能力 拦截 response 把视频地址发送到我们的程序,然后自动下载。接口请求使用 axios 库。
发送视频信息到服务端
// 我是个java程序猿,不要吐槽我的前端代码!
if (vid && url) {
axios.get('http://127.0.0.1:8081/msup/item/vid?vid=' vid '&url=' url).then(function (response) {
const data = response.data;
if (data.id) {
axios.get('http://127.0.0.1:8081/msup/down?id=' data.id '&url=' data.url);
} else {
console.log('>>>>>>>>>>>>>>>>>>>>')
}
});
}
服务端根据视频信息进行下载
public static String ffmpeg(String id String url) {
return execute("sh" "-c" "cd /root/msup/ && nohup ffmpeg -i " url " " id ".mp4 > " id ".log 2>&1 &");
}
private static String execute(String... args) {
LOGGER.info("exec : " Arrays.toString(args));
StringBuilder sb = new StringBuilder();
try {
ProcessBuilder pb = new ProcessBuilder(args);
pb.redirectErrorStream(true);
Process proc = pb.start();
LOGGER.info("Process started !");
String line;
BufferedReader in = new BufferedReader(new InputStreamReader(proc.getInputStream() "gbk"));
while ((line = in.readLine()) != null) {
sb.append(line).append(System.getProperty("line.separator"));
LOGGER.info(line);
}
proc.destroy();
LOGGER.info("Process ended !");
} catch (Exception e) {
}
return sb.toString();
}
展示下成果
关注公众号,回复 msup 获取所有ppt资料
关注公众号,回复 msup 获取所有ppt资料