requests模块代理IP池搭建视频爬取

article/2025/10/23 18:20:44

requests模块&代理IP池搭建

  • 一 requests模块使用
    • 1.1 get请求
    • 1.2 url编码和解码
    • 1.3 携带请求头
    • 1.4 携带cookie
    • 1.5 发送post请求
    • 1.6 requests.session
    • 1.7 Response
    • 1.8 获取二进制数据
    • 1.9 解析json
  • 二 使用代理
  • 三 django后端获取客户端ip地址
  • 四 爬取视频网站
  • 五 爬取新闻
  • 六 BautifulSoup4 介绍
  • 七 bs4 遍历文档树

一 requests模块使用

1.1 get请求

import requestsres=requests.get(url)
print(res.text) # http响应体的文本内容# get请求携带数据
# 1.地址栏中拼接
requests.get('https://www.baidu.com/s?wd=%E7%BE%8E%E5%A5%B3')# 2. 使用params参数
res=requests.get('https://www.baidu.com/s',params={'wd':'%E7%BE%8E%E5%A5%B3'})

1.2 url编码和解码

from urllib import parseres = parse.quote('你好')
print(res)  # %E4%BD%A0%E5%A5%BDres = parse.unquote('%E4%BD%A0%E5%A5%BD')
print(res)  # 你好

1.3 携带请求头

http请求,有请求头,有的网站,通过某些请求头来做反爬。

请求头中数据:

User-Agent:客户端类型(浏览器,手机端浏览器,爬虫类型,程序,scrapy,一般伪造成浏览器)。
referer:上次访问的地址。
cookie:认证后的cookie,相当于登录。

例子:

header={# 客户端类型'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/106.0.0.0 Safari/537.36'
}
res=requests.get('https://dig.chouti.com/',headers=header)

1.4 携带cookie

res=requests.post('https://dig.chouti.com/link/vote',data=data,headers=header,cookies={'key':'value'})

1.5 发送post请求

def post(url, data=None, json=None, **kwargs):r"""Sends a POST request.:param url: URL for the new :class:`Request` object.:param data: (optional) Dictionary, list of tuples, bytes, or file-likeobject to send in the body of the :class:`Request`.:param json: (optional) json data to send in the body of the :class:`Request`.:param \*\*kwargs: Optional arguments that ``request`` takes.:return: :class:`Response <Response>` object:rtype: requests.Response"""return request("post", url, data=data, json=json, **kwargs)
res = requests.post('http://www.aa7a.cn/user.php')# data=字典是使用默认编码格式:urlencoded
# json=字典是使用json编码格式

1.6 requests.session

能自动维护cookie

session=requests.session()data = {'username': '','password': '','captcha': '','remember': 1,'ref': 'http://www.aa7a.cn/','act': 'act_login'
}
res = session.post('http://www.aa7a.cn/user.php', data=data)
res2 = session.get('http://www.aa7a.cn/')

1.7 Response

respone.text           # 响应体的文本内容
respone.content        # 响应体的二进制内容
respone.status_code    # 响应状态码
respone.headers        # 响应头
respone.cookies        # 响应cookie
respone.cookies.get_dict()  # cookieJar对象,获得到真正的字段
respone.cookies.items()     # 获得cookie的所有key和value值
respone.url            # 请求地址
respone.history        # 访问这个地址,可能会重定向,放了它冲定向的地址
respone.encoding       # 页面编码

1.8 获取二进制数据

获取图片或者视频,并写入文件或者数据库。

res = requests.get('https://vd3.bdstatic.com/mda-nhj53kie1idqjgi3/haokan_t/dash/1661088550237665580/mda-nhj53kie1idqjgi3-1.mp4')with open('download.mp4', 'wb') as f:for line in res.iter_content():f.write(line)

1.9 解析json

res = requests.get('https://api.map.baidu.com/place/v2/search?ak=6E823f587c95f0148c19993539b99295&region=%E4%B8%8A%E6%B5%B7&query=%E8%82%AF%E5%BE%B7%E5%9F%BA&output=json')
print(res.text)
print(type(res.text))
print(res.json())
print(type(res.json()))

二 使用代理

代理IP池ProxyPool:https://github.com/jhao104/proxy_pool

下载代码:

git clone git@github.com:jhao104/proxy_pool.git

安装依赖:

pip install -r requirements.txt# requirements.txt中的flask版本过低会报错,需更新flask版本。
pip install flsak

更新配置:

# setting.py 为项目配置文件# 配置API服务HOST = "0.0.0.0"               # IP
PORT = 5000                    # 监听端口# 配置数据库DB_CONN = 'redis://:pwd@127.0.0.1:8888/0'# 配置 ProxyFetcherPROXY_FETCHER = ["freeProxy01",      # 这里是启用的代理抓取方法名,所有fetch方法位于fetcher/proxyFetcher.py"freeProxy02",# ....
]

启动项目:

# 如果已经具备运行条件, 可用通过proxyPool.py启动。
# 程序分为: schedule 调度程序 和 server Api服务# 启动调度程序
python proxyPool.py schedule# 启动webApi服务
python proxyPool.py server

在这里插入图片描述

使用

启动web服务后, 默认配置下会开启 http://127.0.0.1:5010 的api接口服务:

在这里插入图片描述

三 django后端获取客户端ip地址

写一个django后端获取客户端ip地址,验证是否使用代理池ip。

views.py

from django.shortcuts import render, HttpResponse# Create your views here.def pc(request):ip = request.META.get('REMOTE_ADDR')return HttpResponse(ip)

urls.py

from django.contrib import admin
from django.urls import path
from app01 import viewsurlpatterns = [path('admin/', admin.site.urls),path('get_ip/', views.pc),
]

把项目部署到云服务器上

在这里插入图片描述

使用代理ip访问django服务

import requestsres = requests.get(' http://127.0.0.1:5010/pop/').json()http = 'https' if res['https'] else 'http'proxy = {http: http + '://' + res['proxy']}
print(proxy)
response = requests.get('http://106.15.187.255:8000/get_ip/', proxies=proxy)
print(response.text)

在这里插入图片描述

四 爬取视频网站

import requests
import re
from threading import Thread
import threading
import timedef get_video_list(num):res = requests.get(' http://127.0.0.1:5010/pop/').json()http = 'https' if res['https'] else 'http'proxy = {http: http + '://' + res['proxy']}print(proxy)response = requests.get(f'https://www.pearvideo.com/category_loading.jsp?reqType=5&categoryId=1&start={num}',timeout=3)video_list = re.findall('<a href="(.*?)" class="vervideo-lilink actplay">', response.text)return video_listdef download(real_mp4_url, v_id):print(f'{v_id}正在下載')video = requests.get(real_mp4_url)with open(f'D:/pc/{v_id}.mp4', 'wb') as f:for line in video.iter_content():f.write(line)if __name__ == '__main__':while True:num = 0video_list = get_video_list(num)print(video_list)t_list = []for i in video_list:v_id = i.split('_')[-1]video_url = f'https://www.pearvideo.com/videoStatus.jsp?contId={v_id}'headers = {'Referer': f'https://www.pearvideo.com/{i}'}res = requests.get(video_url, headers=headers).json()real_mp4_url = res['videoInfo']['videos']['srcUrl']# https://video.pearvideo.com/mp4/adshort/20200330/1669294741406-15052341_adpkg-ad_hd.mp4'# https://video.pearvideo.com/mp4/adshort/20200202/cont-1647782-14861160_adpkg-ad_hd.mp4real_mp4_url = real_mp4_url.replace(real_mp4_url.rsplit('/', 1)[-1].split('-')[0], f'cont-{v_id}')t = Thread(target=download, args=(real_mp4_url, v_id))t_list.append(t)for i in t_list:i.start()print(f'当前线程数{threading.active_count()}')# 当线程数小于10个继续下载下一页的24个视频while threading.active_count() > 10:time.sleep(5)num += 24

在这里插入图片描述
在这里插入图片描述

五 爬取新闻

import requests
from bs4 import BeautifulSoup
import pymysql
from threading import Thread
import threading
import timedef get_course():conn = pymysql.connect(user='root',password='123',host='127.0.0.1',port=3306,database='pc',autocommit=True  # 执行增改删操作自动执行conn.commit())return conn.cursor(cursor=pymysql.cursors.DictCursor)def sql(title, desc, url, img, cursor):sql = f"INSERT INTO data(`title`,`desc`,`url`,`img`) VALUES ('{title}','{desc}','{url}','{img}')"# print(sql)# INSERT INTO data(`title`,`desc`,`url`,`img`) VALUES ('雷霆/旗舰MPV首发 东风风行新能源战略','[汽车之家 资讯]  11月24日,东风风行发布了最新的新能源品牌战略――“光合未来”计划,为实现“光合未来”的蓝图,东风风行将积极践行“1156”战...','https://www.autohome.com.cn/news/202211/1271144.html#pvareaid=102624','https://www3.autoimg.cn/newsdfs/g26/M08/4D/80/400x300_0_autohomecar__ChsEdmN8IRmANFxxAABu4yGT2X8696.jpg')# INSERT INTO data(`title`,`desc`,`url`,`img`) VALUES (雷霆/旗舰MPV首发 东风风行新能源战略,[汽车之家 资讯]  11月24日,东风风行发布了最新的新能源品牌战略――“光合未来”计划,为实现“光合未来”的蓝图,东风风行将积极践行“1156”战...,https://www.autohome.com.cn/news/202211/1271144.html#pvareaid=102624,https://www3.autoimg.cn/newsdfs/g26/M08/4D/80/400x300_0_autohomecar__ChsEdmN8IRmANFxxAABu4yGT2X8696.jpg)# 发送给服务端 执行SQL语句try:cursor.execute(sql)except:passdef get_ul_list(num):res = requests.get(f'https://www.autohome.com.cn/news/{num}/#liststart')# print(res.text)  # 从返回的html中查找,bs是解析html,xml格式的soup = BeautifulSoup(res.text, 'html.parser')# 查找:类名等于article的ul标签ul_list = soup.find_all(name='ul', class_='article')return ul_listif __name__ == '__main__':num = 1while True:ul_list = get_ul_list(num)cursor = get_course()for ul in ul_list:# 找到ul下所有的li标签li_list = ul.find_all(name='li')for li in li_list:h3 = li.find(name='h3')if h3:  # 获取h3标签的文本内容title = h3.textdesc = li.find(name='p').texturl = 'https:' + li.find(name='a').attrs.get('href')img = li.find(name='img').attrs.get('src')if not img.startswith('http'):img = 'https:' + imgt = Thread(target=sql, args=(title, desc, url, img, cursor))t.start()print(f'当前线程数{threading.active_count()}')while threading.active_count() > 10:time.sleep(1)num += 1

在这里插入图片描述

六 BautifulSoup4 介绍

Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库

pip3 install BeautifulSoup4BeautifulSoup('要解析的内容:xml格式字符串', "html.parser") #内置解析库html.parser
BeautifulSoup('要解析的内容:xml格式字符串',  "lxml")  # 速度快 必须要装lxml pip3 install lxml

七 bs4 遍历文档树

from bs4 import BeautifulSouphtml_doc = """
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title" id='id_p' name='lqz' xx='yy'>lqz is handsome <b>The Dormouse's story</b></p><p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p><p class="story">...</p>
"""
soup = BeautifulSoup(html_doc, 'lxml')
# 1 美化html:了解
# print(soup.prettify())# 2 遍历文档树
'''
#遍历文档树:即直接通过标签名字选择,特点是选择速度快,但如果存在多个相同的标签则只返回第一个
#1、用法
#2、获取标签的名称
#3、获取标签的属性
#4、获取标签的内容
#5、嵌套选择
#6、子节点、子孙节点
#7、父节点、祖先节点
#8、兄弟节点
'''
# 1 基本用法,直接  .标签名字
# res=soup.title
# print(res)
# res=soup.a
# print(res)
# 可以嵌套使用
# res=soup.head.title
# print(res)# 2 获取标签的名称
# 拿到的所有标签都是一个对象,Tag对象  bs4.element.Tag
# res=soup.head.title
# res=soup.body
# print(res.name)# 3 获取标签的属性
# res=soup.p
# print(res.attrs)  # 属性字典# 4 获取标签的内容
# res = soup.p
# print(res.text) # 把该标签子子孙孙内容拿出来拼到一起 字符串
# print(res.string) # None 必须该标签没有子标签,才能拿出文本内容
# print(list(res.strings) )# generator 生成器,把子子孙孙的文本内容放到生成器中# 5 嵌套选择# res=soup.html.body.a
# print(res.text)# 6、子节点、子孙节点
# print(soup.p.contents) #p下所有子节点
# print(soup.p.children) #得到一个迭代器,包含p下所有子节点# 7、父节点、祖先节点
# print(soup.a.parent) #获取a标签的父节点,直接父节点
# print(list(soup.a.parents)) #找到a标签所有的祖先节点,父亲的父亲,父亲的父亲的父亲...# 8、兄弟节点
# print(soup.a.next_sibling)  # 下一个兄弟
# print(soup.a.previous_sibling)  # 上一个兄弟print(list(soup.a.next_siblings)) #下面的兄弟们=>生成器对象
print('-----')
print(list(soup.a.previous_siblings)) #上面的兄弟们=>生成器对象

http://chatgpt.dhexx.cn/article/V1Pu9Zaf.shtml

相关文章

Python之爬虫 搭建代理ip池

文章目录 前言一、User-Agent二、发送请求三、解析数据四、构建ip代理池&#xff0c;检测ip是否可用五、完整代码总结 前言 在使用爬虫的时候&#xff0c;很多网站都有一定的反爬措施&#xff0c;甚至在爬取大量的数据或者频繁地访问该网站多次时还可能面临ip被禁&#xff0c;…

如何构建一个自己的代理ip池

一、默认自动切换IP 登录线程IP池客户端时&#xff0c;默认情况下会自动切换IP。 如果不想自动切换IP&#xff0c;或者还没有准备开始使用&#xff0c;请在客户端右侧将“在IP过期前几秒自动申请切换”设置为“0”。 0无效。 二.默认情况下不需要授权 默认情况下&#xff0c…

搭建代理IP池

目录 爬取前的准备 爬取有IP内容 检查IP的可用性 上一期讲到在爬取豆瓣电影Top250时&#xff0c;出现ip被封的情况&#xff0c;解决方案给出了两种&#xff1a; 1. 换个WiFi或者热点&#xff1b; 2. 搭建代理IP池。 那么这期就来搭建代理IP池。通常来说&#xff0c;搭建代理…

python搭建ip池

在爬取网站的时候我们有时候会遭受封ip等显现&#xff0c;因此我们需要搭建自己的ip池用于爬虫。 代码过程简述&#xff1a; 1、爬取代理ip网站信息 2、将获取的信息处理得到ip等关键信息 3、保存首次获取的ip信息并检测其是否可用 4、检测完毕将可用ip保存&#xff0c;搭…

搭建免费代理IP池

&#x1f468;‍&#x1f4bb;博客主页&#xff1a;i新木优子&#x1f440; &#x1f389;欢迎关注&#x1f50d;点赞&#x1f44d;收藏⭐留言&#x1f4dd; &#x1f9da;‍♂️寄语:成功的秘诀就是每天都比别人多努力一点&#x1f463; ✨有任何疑问欢迎评论探讨 先声明一下&…

python搭建ip池(多线程)

之前有讲过怎么搭建ip池&#xff0c;但由于单线程的效率太低&#xff0c;于是我们升级改造一下&#xff0c;将单线程变成多线程来搭建ip池&#xff0c;之前的方法可以参考一下&#xff1a;python搭建ip池 &#xff08;如果会简单的request和提取文字就可以直接不看&#xff09;…

教你自己搭建一个IP池(绝对超好用!!!!)

随着我们爬虫的速度越来越快&#xff0c;很多时候&#xff0c;有人发现&#xff0c;数据爬不了啦&#xff0c;打印出来一看。 不返回数据&#xff0c;而且还甩一句话 是不是很熟悉啊&#xff1f; 要想想看&#xff0c;人是怎么访问网站的&#xff1f; 发请求&#xff0c;对…

Python爬虫实战(二):爬取快代理构建代理IP池

目录 &#x1f339;前言构建IP池的目的爬取目标准备工作代码分析第一步第二步第三步第四步第五步完整代码使用方法 &#x1f339;前言 博主开始更新爬虫实战教程了&#xff0c;期待你的关注&#xff01;&#xff01;&#xff01; 第一篇&#xff1a;Python爬虫实战&#xff08;…

ERROR 1062 (23000): Duplicate entry '%-root' for key 'PRIMARY'

MySQL> update user set host% where user root; ERROR 1062 (23000): Duplicate entry %-root for key PRIMARY 然后查看了下数据库的host信息如下&#xff1a; host已经有了%这个值&#xff0c;所以直接运行命令&#xff1a; 复制代码 代码如下: MySQL>flush priv…

Mysql 报错 ERROR 1062 (23000): Duplicate entry ‘%-root‘ for key ‘PRIMARY‘

文章目录 错误详情错误原因解决方案最后 错误详情 今天在云主机上配置Hive时&#xff0c;设置远程连接的权限报错如下&#xff1a; 错误原因 之前电脑上已经有了%&#xff0c; 解决方案 查看一下电脑中是否已经具有% select host,user from user where userroot;如果已经存…

ORA-20000

exec dbms_stats.gather_database_stats(ESTIMATE_PERCENT>100, method_opt > FOR ALL INDEXED COLUMNS SIZE AUTO, cascade>true, degree>120);在12c和19c中&#xff0c;想要启用资源管理&#xff0c;必须先把并发收集统计信息禁用。 alter system set resource_…

mysql一张表复制到另外一张表,报错[23000][1062] Duplicate entry ‘1‘ for key ‘big_2.PRIMARY‘

mysql一张表复制到另外一张表 insert into big_2 select * from big_4 报错 [23000][1062] Duplicate entry 1 for key big_2.PRIMARY 看报错&#xff0c;是big_2的主键已经有1了&#xff0c;不能再插入相同的值&#xff0c;我这边id是自增字段&#xff0c;指定插入字段就能解决…

我32岁,花23000元从雕刻员转行程序员,承诺保底6K,选IT是成功了吧

我从22岁起&#xff0c;就开始在县城一家雕刻厂做流水线工人&#xff0c;从厂房门口看过去&#xff0c;雕刻厂的一切都是灰色的&#xff0c;到处落满花岗岩的灰屑。 一边是师傅们趴在石料上无休止地劳作&#xff0c;一边是新安装的数控雕刻机发出尖刻的响声&#xff0c;我是这…

Mysql出现问题:ERROR 1451 (23000): Cannot delete or updatea parent row: a foreign key constraint fail解决方案

回城传送–》《数据库问题解决方案》 ❤️作者主页:小虚竹 ❤️作者简介:大家好,我是小虚竹。Java领域优质创作者🏆,CSDN博客专家🏆,华为云享专家🏆,掘金年度人气作者🏆,阿里云专家博主🏆,51CTO专家博主🏆 ❤️技术活,该赏 ❤️点赞 👍 收藏 ⭐再看,养成…

Mysql出现问题:ERROR 1452 (23000): Cannot add or update a child row: a foreign key constraint fails解决方案

回城传送–》《数据库问题解决方案》 ❤️作者主页:小虚竹 ❤️作者简介:大家好,我是小虚竹。Java领域优质创作者🏆,CSDN博客专家🏆,华为云享专家🏆,掘金年度人气作者🏆,阿里云专家博主🏆,51CTO专家博主🏆 ❤️技术活,该赏 ❤️点赞 👍 收藏 ⭐再看,养成…

[23000][1452] Cannot add or update a child row: a foreign key constraint fails (`test2`.`#sql-1238_5

在建立外键关系时&#xff0c;出现该报错信息&#xff1a; [23000][1452] Cannot add or update a child row: a foreign key constraint fails (test2.#sql-1238_50, CONSTRAINT fk_student_ID FOREIGN KEY (ID) REFERENCES achievement (ID)) 原因&#xff1a; 建立外键时&a…

函数批量插入报错ERROR 1062 (23000): Duplicate entry ‘x‘ for key ‘y.PRIMARY‘

问题 测试时候发现&#xff0c;如果直接执行Insert语句是完全没有问题的&#xff0c;但是一旦使用mysql函数对insert语句中的主键做1操作&#xff0c;就开始ERROR 1062&#xff1b; 数据库版本 表结构 直接插入操作 - 正常 mysql函数批量插入操作 -ERROR 1062 错误原因 set t…

[23000][1062] Duplicate entry ‘6‘ for key ‘PRIMARY‘

在 DataGrip 里插入数据的时候&#xff0c;我试图修改已经设置成了主键和自增的字段 ID&#xff0c;所以导致了该问题&#xff1a; [23000][1062] Duplicate entry 6 for key PRIMARY 翻译过来的意思&#xff1a;密钥“PRIMARY”的重复条目“6” 原因&#xff1a; 因为 ID 字…

Mysql出现问题:ERROR 1022 (23000): Can‘t write; duplicate key in table ‘**‘解决方案

回城传送–》《数据库问题解决方案》 ❤️作者主页:小虚竹 ❤️作者简介:大家好,我是小虚竹。Java领域优质创作者🏆,CSDN博客专家🏆,华为云享专家🏆,掘金年度人气作者🏆,阿里云专家博主🏆,51CTO专家博主🏆 ❤️技术活,该赏 ❤️点赞 👍 收藏 ⭐再看,养成…

Mysql出现问题:ERROR 1062 (23000): Duplicate entry ‘‘ for key ‘PRIMARY‘解决方案

回城传送–》《数据库问题解决方案》 ❤️作者主页:小虚竹 ❤️作者简介:大家好,我是小虚竹。Java领域优质创作者🏆,CSDN博客专家🏆,华为云享专家🏆,掘金年度人气作者🏆,阿里云专家博主🏆,51CTO专家博主🏆 ❤️技术活,该赏 ❤️点赞 👍 收藏 ⭐再看,养成…