python爬虫的防盗链

article/2025/10/12 17:07:16

文章目录

  • 前言
  • 一、防盗链是什么?
  • 二、 防盗链如何实现
  • 三、分析
  • 四、 对有防盗链的网站进行爬取
    • 对有视频连接的网站发出请求并且获取源码信息
    • 提取出我们的视频网站
    • 对我们提取的网址进行修改,和拼凑
    • 下载视频
    • 结束爬取
  • 完整代码


前言

随着python的发展网页的反爬机制也不断完善,下面我们来学习以下反爬机制的防盗链
现在有很多网站都在用防盗链的技术。
例如:梨视频


一、防盗链是什么?

一种反爬机制

二、 防盗链如何实现

首先我们进入一个带视频的网站
我通过我们的开发者工具进行正常抓包
在这里插入图片描述
红线上面的应该为视频的下载地址:
https://video.pearvideo.com/mp4/adshort/20180808/1664876348330-12624968_adpkg-ad_hd.mp4
但是我们在打开这个链接是会出现以下的状况:
在这里插入图片描述
我们通过元素定位发现https://video.pearvideo.com/mp4/adshort/20180808/cont-1407242-12624968_adpkg-ad_hd.mp4这个链接可以播放原视频
我们可以对比两个链接的区别:
https://video.pearvideo.com/mp4/adshort/20180808/1664876348330-12624968_adpkg-ad_hd.mp4

https://video.pearvideo.com/mp4/adshort/20180808/cont-1407242-12624968_adpkg-ad_hd.mp4
在这里插入图片描述
红线的地方是两个链接的区别
这就是一个小小的防盗链

三、分析

既然知道了两个网站的区别我们利用我们的爬虫代码将他们两个修改成一样的不就可以了吗

四、 对有防盗链的网站进行爬取

  1. 对有视频连接的网站发出请求并且获取源码信息
  2. 提取出我们的视频网站
  3. 对我们提取的网址进行修改
    4.下载视频

对有视频连接的网站发出请求并且获取源码信息

import requestsurl = "https://www.pearvideo.com/video_1407242"
# 对网页进行分割获取有用的数据
data_ID = url.split("_")[1]
# 编写代有视频链接的url
url_ship = "https://www.pearvideo.com/videoStatus.jsp?contId=1407242&mrd=0.9916564465973412"
# 编写请求头
heead = {"User-Agent": 'Mozilla / 5.0(WindowsNT10.0;Win64;x64) AppleWebKit / 537.36(KHTML, likeGecko) Chrome / ''104.0.5112.102Safari / 537.36Edg / 104.0.1293.63 ',"Referer": url
}
# 发出请求
reqs = requests.get(url=url_ship,headers=heead)
# 获取数据
reqs_text = reqs.json()

提取出我们的视频网站

# 拿到网页中报错的404的视频网址
srcurl = reqs_text["videoInfo"]["videos"]['srcUrl']

对我们提取的网址进行修改,和拼凑

# 获取到systemTime的数据用于拼凑视频的下载连接
systime = reqs_text['systemTime']
# 拼凑出视频下载的有效连接
srcurl_1 = srcurl.replace(systime,f'cont-{data_ID}')

下载视频

# 对视频链接发出请求
reqs_sp = requests.get(srcurl_1)
with open("警花.mp4","wb") as fp:fp.write(reqs_sp.content)print('视频下载完成')

结束爬取

print("爬取结束")
# 关闭网络请求
reqs.close()

完整代码

import requestsurl = "https://www.pearvideo.com/video_1407242"
# 对网页进行分割获取有用的数据
data_ID = url.split("_")[1]
# 编写代有视频链接的url
url_ship = "https://www.pearvideo.com/videoStatus.jsp?contId=1407242&mrd=0.9916564465973412"
# 编写请求头
heead = {"User-Agent": 'Mozilla / 5.0(WindowsNT10.0;Win64;x64) AppleWebKit / 537.36(KHTML, likeGecko) Chrome / ''104.0.5112.102Safari / 537.36Edg / 104.0.1293.63 ',"Referer": url
}
# 发出请求
reqs = requests.get(url=url_ship,headers=heead)
# 获取数据
reqs_text = reqs.json()
# 拿到网页中报错的404的视频网址
srcurl = reqs_text["videoInfo"]["videos"]['srcUrl']
# 获取到systemTime的数据用于拼凑视频的下载连接
systime = reqs_text['systemTime']
# 拼凑出视频下载的有效连接
srcurl_1 = srcurl.replace(systime,f'cont-{data_ID}')
# 下载视频
## 对视频链接发出请求
reqs_sp = requests.get(srcurl_1)
with open("警花.mp4","wb") as fp:fp.write(reqs_sp.content)print('视频下载完成')print("爬取结束")
# 关闭网络请求
reqs.close()

代码由pycharm实现,希望对你有用


http://chatgpt.dhexx.cn/article/51gUCsf1.shtml

相关文章

Nginx静态资源防盗链

1.什么是资源盗链 简单地说,就是将别人的资源用到自己的页面展示给用户。 2.效果演示 1)准备图片 这两张图片直接在浏览器中访问都是可以打开的。 github图片地址:https://github.githubassets.com/images/modules/site/home-campaign/her…

取消文件服务器防盗链,如何取消防盗链保护

http标准协议中有专门的字段记录referer 一来可以追溯上一个入站地址是什么 二来对于资源文件,可以跟踪到包含显示他的网页地址是什么。 因此所有防盗链方法都是基于这个Referer字段 网上比较多的2种 一种是使用apache文件FileMatch限制,在httpd.conf中增…

视频防盗链

解析器链接: https://www.administratorw.com/index/qqvod.php?url 清晰度高url后面支持mp4、m3u8地址 https://z1.m1907.cn?jx 清晰度底,链接后面只支持电影名 此接口解析出来的m3u8地址为:(雄狮少年) https…

html 图片防盗链,【反防盗链】介绍一个对付图片防盗链的方法

悲催的声明: 由于腾讯也采用了防盗链技术,本文方法已经失效了! 当我们想在文章里引用某张图片时,如果对方设置了防盗链,我们看到的将是404或forbidden或其他图片,而不是想要的那张图片,为此,我们有无方法进行“反防盗链”呢?答案是有的,本文将介绍一个对付图片防盗链…

简单的视频防盗链

1.使用hls.js播放视频,页面中无法获得视频的src hls.js是视频播放的工具文件,在官网上有播放方式,可以产生如上图所示的效果,没有source标签,也就是说,在页面上隐藏掉了视频的url hls.js文件地址&#xff…

html设置referer防盗链,referer与防盗链

referer是什么 referer 中文意思是:参照页面,引用页。 下图直观感受,(づ ̄ 3 ̄)づ image 直接在浏览器中输入url地址来直接访问图片/js/css等资源时是没有referer的, 如果有referer说明是引用过来的,要么是从HTML页面,要么是通过css @import,再或则通过background(url)引用…

防盗链使用

现在很多网站启用了防盗链反爬,防止服务器上的资源被人恶意盗取。什么是防盗链呢? 以图片为例,访问图片要从他的网站访问才可以,否则直接访问图片地址得不到图片 练习:抓取微博图片:http://blog.sina.com…

nginx配置防盗链

现在流行前后端分离开发的情况下,一般我们都会将静态资源放在nginx的html目录下。这种情况下,我们就无法通过Java代码写拦截器来防盗链了。所以这里我们来说明一下如何使用nginx来配置防盗链。 1.我们先修改本地hosts文件,将 www.czx.com 映…

java防盗链_javaWeb防止恶意登陆或防盗链的使用

使用场景:明明引用了一个正确的图片地址,但显示出来的却是一个红叉或写有“此图片仅限于***网站用户交流沟通使用”之类的“假图片”。用嗅探软件找到了多媒体资源的真实地址用下载软件仍然不能下载。下载一些资源时总是出错,如果确认地址没错的话,大多数情况都是遇上防盗链…

防盗链机制

防盗链机制的几种实现 通常防盗链是为了防止图片,视频被盗用。下面简单介绍几种防盗链的机制: 1. 利用HTTP Referer字段 HTTP请求中会包含来自哪个url的点击来源,通过这个referer字段可以检测是否别的网站发送的请求。 2.利用登录验证信息 有…

网络中的防盗链是指什么?

什么是盗链? 比如,别人上传的东西,你直接拿了LINK去,贴到别的论坛或者网站,宣称"有好东西,快来下载",又或者告诉你的朋友"你要这个文件?俺有连接,快下",然后在那里接受别人的滔滔不绝的景仰之情。 “盗链” 的定义是: 此内容不在…

Nginx防盗链

Nginx防盗链的实现原理: 了解防盗链的原理之前,我们得先学习一个HTTP的头信息Referer,当浏览器向web服务器发送请求的时候,一般都会带上Referer,来告诉浏览器该网页是从哪个页面链接过来的。 后台服务器可以根据获取到的这个Referer信息来判…

Nginx-防盗链

目录 一、什么是盗链 如何区分哪些是不正常的用户? Referer理解 二、Nginx配置防盗链 三、使用 curl 测试防盗链 四、企业实战 1.设置返回错误页面 2.整合 rewrite 返回报错图片 一、什么是盗链 在实际生产过程中,我们线上的图片等静态资源&#…

Nginx:防盗链原理和配置

目录 一、防盗链概念 二、Nginx防盗链的具体实现 配置: 三、验证和验证时的问题 真正的验证: 没有none的验证 加上none参数的验证 让报错返回的是一张图片 注意事项: 一、防盗链概念 防盗链简单来说就是存在我们服务中的一些资源&#xff…

Java:eclipse下开发webservice教程

1 环境准备 下载wtp-all-in-one-sdk-R-1.5.4-win32,这个是eclipse的web开发插件 下载jakarta-tomcat-5.0.30 下载axis-src-1_4.zip 2 环境配置 配置tomcat关联到你的eclipse中 将axis-1_4\webapps\axis\WEB-INF\lib中的文件复制到$TOMCATHOME$\…

webservice 教程学习系列(九)——使用cxf框架开发webservice

首先下载两个包:apache-cxf-3.2.7.zip和apache-cxf-3.2.7-src.zip 解压两个包,进入apache-cxf-3.2.7的bin目录 可以看到wsdl2java.bat,这个相当于jdk自带的wsimport.exe的功能,可以将wsdl文件转换成java文件。 这里我的目录是&a…

WebService开发教程

一、webservice 开发 1.webservice介绍 Web Service也叫XML Web Service WebService是一种可以接收从Internet或者Intranet上的其它系统中传递过来的请求,轻量级的独立的通讯技术。是:通过SOAP在Web上提供的软件服务,使用WSDL文件进行说明,…

MyEclipse开发WebService教程

创建一个 webService 工程。 2. 创建一个普通 Java 类 view plain copy to clipboard package com.hmw.jaxws; /** * 提供 WebService 服务的测试类<br> * <b>注意&#xff1a;</b>该类必须有一个无参构造方法&#xff0c;否则无法使用 MyEclipse 的向导为此…

WebService培训教程详解

开发webservice 1. 概述 开发手段&#xff1a;使用JDK开发(1.6及以上版本)使用CXF框架开发(工作中)组成&#xff1a;服务器端客户端 2. 使用JDK开发WebService 1).开发服务器端 Web Service编码&#xff1a;WebService( SEI和SEI的实现类)WebMethod(SEI中的所有方法)发布W…

SoapUI测试webservice接口

方法1、导入wsdl文件 输入参数&#xff0c;点击运行&#xff0c;看到响应结果 方法2、输入wsdl地址 项目名随便起一个&#xff0c;Initial WSDL直接输入wsdl地址&#xff0c;确定即可。