python3 爬虫(初试牛刀)

article/2025/9/7 14:12:21

此文章仅供学习交流使用
在学习爬虫之前,把最近对于 VMware 的网络学习做个总结
VMware
接下来,步入正题!


分析 Robots 协议

  • 禁止所有爬虫访问任何目录的代码:
User-agent: *
Disallow:/
  • 允许所有爬虫访问任何目录的代码:
User-agent: *
Disallow:
  • 禁止所有爬虫访问网站某些目录的代码:
User-agent: *
Disallow: /private/
Disallow: /tmp/
  • 只允许某一个爬虫访问的代码:
User-agent: WebCrawler
Disallow:
User-agent: *
Disallow: /

from urllib.robotparser import RobotFileParserrp = RobotFileParser('http://www.jianshu.com/robots.txt')
rp.read()
// 利用 can_fetch() 方法判断了网页是否可以被抓取
print(rp.can_fetch('*', 'http://www.jianshu.com/p/b67554025d7d'))
print(rp.can_fetch('*', 'https://www.jianshu.com/p/c678ce575f4c'))

result

抓取bilibili首页

import requestsdef get_one_page(url):headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36'}response = requests.get(url)if response.status_code == 200:return response.textreturn Nonedef main():url = 'https://www.bilibili.com'html = get_one_page(url)print(html)main()

json

抓取猫眼电影排行

数据存储

  1. TXT 文本存储
    用 requests 将网页源代码获取下来,再使用 pyquery 解析库解析。
import requests
from pyquery import PyQuery as pqurl = 'https://www.zhihu.com/explore'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'
}
html = requests.get(url, headers=headers).text
doc = pq(html)
items = doc('.explore-tab .feed-item').items()
for item in items:question = item.find('h2').text()author = item.find('.author-link-line').text()answer = pq(item.find('.content').html()).text()file = open('explore.txt', 'a', encoding='utf-8')file.write('\n'.join([question, author, answer]))  # type: ignorefile.write('\n' + '=' * 50 + '\n')file.close()

  1. JSON 文件存储
    想保存 JSON 的格式,可以将 JSON 对象转为字符串,然后再调用文件的 write() 方法写入文本。
import json data = [{'name': '张三','gender': '女','birthday': '1992-10-18'
}]with open('data.json','w', encoding='utf-8') as file:file.write(json.dumps(data, indent=2, ensure_ascii=False))

可
3. CSV 文件存储

import csvwith open('data.csv', 'w') as csvfile:fieldnames = ['id', 'name', 'age']writer = csv.DictWriter(csvfile, delimiter=' ', fieldnames=fieldnames)writer.writeheader()writer.writerow({'id': '10001', 'name': 'Mike', 'age': 20})writer.writerow({'id': '10002', 'name': 'Bob', 'age': 22})writer.writerow({'id': '10003', 'name': 'Jordan', 'age': 21})

data

  • 读取数据
import pandasdf = pandas.read_csv('data.csv')
print(df)

datas

  1. 数据库的存储
  • MySQL 的存储
import pymysqldb = pymysql.connect(host="localhost", user="root", password="[数据库密码]", port=3306, db="spiders")
cursor = db.cursor()
// 创建表
sql='CREATE TABLE IF NOT EXISTS students (id VARCHAR(255) NOT NULL, name VARCHAR(255) NOT NULL, age INT NOT NULL, PRIMARY KEY (id))'
cursor.execute(sql)
db.close()
  • rollback() 执行数据回滚
try:id = '20120001'user = 'Bob'age = 20sql = 'INSERT INTO students(id, name, age) values(%s, %s, %s)'cursor.execute(sql, (id, user, age))db.commit()
except:db.rollback()
  • MongoDB 存储(略)
  • Redis 存储(略)

Ajax 数据爬取

  • 将前10页的微博全部爬取下来
from pyquery import PyQuery as pq
from urllib.parse import urlencode
import requests
base_url = "https://m.weibo.cn/api/container/getIndex?"headers = {'Host': 'm.weibo.cn','Referer': 'https://m.weibo.cn/u/2830678474','User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36','X-Requested-With': 'XMLHttpRequest',
}
def get_page(page):params = {'type': 'uid','value': '2830678474','containerid': '1076032830678474','page': page}url = base_url + urlencode(params)try:response = requests.get(url, headers=headers)if response.status_code == 200:return response.json()except requests.ConnectionError as e:print('Error', e.args)def parse_page(json):if json:items = json.get('data').get('cards')for item in items:item = item.get('mblog')weibo = {}weibo['id'] = item.get('id')weibo['text'] = pq(item.get('text')).text()weibo['attitudes'] = item.get('attitudes_count')weibo['comments'] = item.get('comments_count')weibo['reposts'] = item.get('reposts_count')yield weiboif __name__ == '__main__':for page in range(1, 11):json = get_page(page)results = parse_page(json)for result in results:print(result)

results


  • 分析 Ajax 爬取今日头条街拍美图
from hashlib import md5
from multiprocessing.pool import Pool
from urllib.parse import urlencode
import os
import requestsdef get_page(offset):params = {'offset': offset,'format': 'json','keyword': '街拍','autoload': 'true','count': '20','cur_tab': '1',}url = 'https://www.toutiao.com/search_content/?' + urlencode(params)try:response = requests.get(url)if response.status_code == 200:return response.json()except requests.ConnectionError:return Nonedef get_images(json):if json.get('data'):for item in json.get('data'):title = item.get('title')images = item.get('image_detail')for image in images:yield {'image': image.get('url'),'title': title}def save_image(item):if not os.path.exists(item.get('title')):os.mkdir(item.get('title'))try:response = requests.get(item.get('image'))if response.status_code == 200:file_path = '{0}/{1}.{2}'.format(item.get('title'), md5(response.content).hexdigest(), 'jpg')if not os.path.exists(file_path):with open(file_path, 'wb') as f:f.write(response.content)else:print('Already Downloaded', file_path)except requests.ConnectionError:print('Failed to Save Image')def main(offset):json = get_page(offset)for item in get_images(json):print(item)save_image(item)GROUP_START = 1
GROUP_END = 20if __name__ == '__main__':pool = Pool()groups = ([x * 20 for x in range(GROUP_START, GROUP_END + 1)])pool.map(main, groups)pool.close()pool.join()

但未运行成功


OCR

tesserocr download

图形验证码的识别

import tesserocr
from PIL import Imageimage = Image.open('Code.jpg')
result = tesserocr.image_to_text(image)
print(result)
  • 更简单的方法:
import tesserocr
print(tesserocr.file_to_text('Code.jpg'))

另外,还有转灰度,二值化等操作!


极验滑动验证码的识别

使用 Selenium 配置 ChromeDriver
示例代码


点触验证码的识别

示例代码


微博宫格验证码的识别

示例代码


代理的使用:

urllib 与 urllib3 对比

# from urllib.error import URLError
# from urllib.request import ProxyHandler, build_opener# proxy = '127.0.0.1:9743'
# proxy_handler = ProxyHandler({
#     'http': 'http://' + proxy,
#     'https': 'https://' + proxy
# })
# opener = build_opener(proxy_handler)
# try:
#     response = opener.open('http://httpbin.org/get')
#     print(response.read().decode('utf-8'))
# except URLError as e:
#     print(e.reason)import urllib3
proxy = urllib3.ProxyManager('http://127.0.0.1:11088', headers={'connection': 'keep-alive'})
resp = proxy.request('get', 'http://httpbin.org/ip')
print(resp.status)
print(resp.data)

代理的获取:

  • 代理池的维护
    实现一个比较高效的代理池,来获取随机可用的代理。
  • ADSL 拨号代理
    设置代理服务器:
    安装 TinyProxy

App 的爬取

  • Charles 的使用
  • mitmproxy 的使用
  • mitmdump 爬取“得到” App电子书信息
  • Appium 的基本使用
  • Appium 爬取微信朋友圈
  • Appium+mitmdump 爬取京东商品

pyspider 框架的使用

详情见官网

Scrapy 框架的使用

scrapy.Request的更多参数

scrapy.Request(url[,callback,method="GET",headers,body,cookies,meta,dont_filter=False])
  • 参数解释
  1. 括号里的参数为可选参数
  2. callback:表示当前的url的响应交给哪个函数去处理
  3. meta:实现数据在不同的解析函数中传递,meta默认带有部分数据,比如下载延迟,请求深度等
  4. dont_filter:默认为False,会过滤请求的url地址,即请求过的url地址不会继续被请求,对需要重复请求的url地址可以把它设置为Ture,比如贴吧的翻页请求,页面的数据总是在变化;start_urls中的地址会被反复请求,否则程序不会启动
  5. method:指定POSTGET请求
  6. headers:接收一个字典,其中不包括cookies
  7. cookies:接收一个字典,专门放置cookies
  8. body: 接收json字符串,为POST的数据,发送payload_post请求时使用

meta参数的使用
meta的作用: meta可以实现数据在不同的解析函数中的传递在爬虫文件的parse方法中,提取详情页增加之前callback指定的parse_detail函数:

def parse(self,response):...yield scrapy.Request(detail_url, callback=self.parse detail,meta=("item":item))
...def parse detail(self,response):
#获取之前传入的itemitem = resposne.meta["item"]

特别注意

  1. meta参数是一个字典
  2. meta字典中有一个固定的键 proxy ,表示代理ip

反爬虫:

  1. UA检测
  • UA伪装
  1. post请求 (携带了参数)
  • 响应数据是一组json数据

文章持续更新中…


http://chatgpt.dhexx.cn/article/dp61ZLmm.shtml

相关文章

Python3爬虫详解

1概述 爬虫在Python中是个实现起来比较简单,关键在于网页的分析和内容的抓取。最近由于个人需要写了些内容,这里总结下爬虫相关的内容。 本文爬虫相关实现没有使用scrapy框架,通过urllib请求、bs4来实现。 2网络请求 网络请求部分用到urlli…

python3爬虫学习

python3爬虫学习 一、爬虫流程: ①先由urllib的request打开Url得到网页html文档 ②浏览器打开网页源代码分析元素节点 ③通过Beautiful Soup或则正则表达式提取想要的数据 ④存储数据到本地磁盘或数据库(抓取,分析,存储&…

最通俗、最详细的 Python3 网络爬虫入门指南

很多朋友学习Python都是先从爬虫开始,其原因不外两方面: 其一Python对爬虫支持度较好,类库众多,其二语法简单,入门容易,所以两者形影相随,不离不弃。 要使用python语言做爬虫,首先需…

Maven安装和配置本地仓库和阿里云镜像

maven安装配置换阿里源 1.下载maven 打开maven官网https://maven.apache.org/download.cgi,下载maven安装包,下载完成后解压到你想放的位置,不用安装 2.配置环境变量 3.配置阿里源和repository地址 打开刚才的解压文件conf文件夹下的setting.…

阿里云云效Maven仓库

一、Maven仓库概要 私服的目的:我们有一些自己的公用包,不想拉取工程编译,直接使用已经上传到私服的Jar包,在需要使用的项目工程直接引用使用,加速开发效率和编译效率。 阿里云仓库地址: 公用主仓库&#…

阿里云maven仓库的使用详解以及报错解决方法

仓库介绍 阿里云Maven中央仓库为 阿里云云效 提供的公共代理仓库,帮助研发人员提高研发生产效率,使用阿里云Maven中央仓库作为下载源,速度更快更稳定。阿里云云效是企业级一站式 DevOps 平台,覆盖产品从需求到运营的研发全生命周…

IDEA设置Maven阿里镜像仓库

1.打开IDEA安装目录&#xff0c;并进入如下相对路径 "\IntelliJ IDEA 2022.3.2\plugins\maven\lib\maven3\conf"。 2.打开settings.xml文件&#xff0c;并按照阿里官方指南插入配置项到指定位置。 2.1) 查看官方指南 2.2) 复制配置内容 <mirror><id>al…

IDEA中的maven阿里仓库配置

IDEA中的maven阿里仓库配置 1、进入官网&#xff1a; http://maven.apache.org/download.cgi 下载解压&#xff0c;然后记住解压位置 2、settings.xml配置更改 打开下载的文件 apache-maven-3.6.3 > conf> settings.xml&#xff08;图一为原文件&#xff0c;图二为配置…

gradle配置阿里Maven仓库

使用gradle编译一个开源项目时&#xff0c;发现下载依赖包比较慢,打开项目下的build.gradle文件: 可以看到并没有配置国内Maven仓库&#xff0c;那就配置一个呗,参照Gradle官方文档配置阿里Maven仓库 在build.gradle文件中修改repositories,也就是在mavenLocal()和mavenCentral…

maven配置阿里仓库

大家使用maven下载jar包会很慢&#xff0c;最主要的原因是maven的仓库在英国&#xff0c;但如果使用了阿里的仓库下载jar包就会变得很便捷。下面是如和配置阿里的仓库。 <mirror><id>alimaven</id><mirrorOf>central</mirrorOf><name>ali…

maven 配置阿里云仓库

目录 0. 前置工作&#xff1a;安装jdk1. 配置 maven 环境变量2. 配置阿里云镜像仓库3 idea中maven的相关配置 0. 前置工作&#xff1a;安装jdk 参考步骤 1 2 3 1. 配置 maven 环境变量 2. 配置阿里云镜像仓库 对解压后的maven的conf/settings进行编辑 本地仓库中没有的东…

Maven之阿里云镜像仓库配置

Maven 镜像 简介 阿里云Maven中央仓库为阿里云云效提供的公共代理仓库&#xff0c;帮助研发人员提高研发生产效率&#xff0c;使用阿里云Maven中央仓库作为下载源&#xff0c;速度更快更稳定。阿里云云效 是企业级一站式 DevOps 平台&#xff0c;覆盖产品从需求到运营的研发全生…

阿里云Maven仓库

文章目录 一、仓库介绍二、配置指南1. maven 配置指南2. gradle 配置指南 三、国内Maven仓库搜索地址四、Maven-Search插件使用1. 安装2. 使用 一、仓库介绍 阿里云云效 Maven 是什么 阿里云Maven中央仓库为 阿里云云效 提供的公共代理仓库&#xff0c;帮助研发人员提高研发生…

免费无损高品质音乐下载器V3.5

无损音乐下载器&#xff0c;今天朋友推荐给我的测试的一款 win 平台音乐下载软件&#xff0c;支持无损、超品、高品等音质的下载&#xff0c;此外它还支持在线播放 MV。这款软件经过测试还不错&#xff0c;适合喜欢高品质音乐的朋友。当然如果对于音乐品质没有太高要求还是推荐…

付费音乐下载。

墨灵音乐可以直接下载各大音乐app的付费音乐。 链接&#xff1a;https://music.mli.im/ 打开链接以后点击探索音乐就可以啦。然后进去如下界面。 接着搜索你想要下载的音乐。我们随便搜索一首歌曲。点击下载歌曲。之后会进去这个界面。然后右键点击另存为 就可以下载啦。

抖音歌曲免费下载

无损音乐下载网站http://regeku.top 1、搜索需要下载的歌曲&#xff0c;点击下载。 2、点击下载歌曲 3、点击下载 4、点击下载 5、保存到桌面 6、手机扫码关注&#xff0c;点击热歌下载

如何免费下载网易云收费音乐?不需会员也能做到

今天的主题&#xff0c;就是给大伙介绍个免费下载网易云音乐的收费音乐&#xff08;其他平台也适用&#xff09; 。简单实用&#xff0c;基本不需要什么计算机编程基础&#xff0c;人人都可学会&#xff01; 废话不多说&#xff0c;直接进入主题&#xff01; 先用谷歌浏览器打…

免费下载网易云音乐付费歌曲及下架歌曲

网易云音乐一直被大家称为良心软件、音乐软件神器等等。但是&#xff0c;现在使用网易云音乐听歌&#xff0c;发现好多的歌曲已经不能播放和下载了。会显示灰色&#xff0c;播放时会提示“由于版权保护&#xff0c;您所在的地区暂时无法使用。”或者是“因合作方要求&#xff0…

MusicTools下载 v3.4.0 全网免费无损音乐下载器

下载地址&#xff1a;点我 随着音乐版权越来越受到重视&#xff0c;我们在线听歌的限制也越来越大。在一个音乐平台上&#xff0c;我们无法听到所有歌手的作品&#xff0c;因为该平台可能没有某个歌手的版权。而且&#xff0c;由于很多内容都需要付费&#xff0c;我们也无法随心…

录音文件下载_如何免费下载受版权保护的收费音乐

在网易云&#xff0c;酷狗&#xff0c;酷我&#xff0c;QQ音乐&#xff0c;百度千千音乐中下载部分音乐时&#xff0c;会看到“版权方要求一载此歌曲需付费&#xff0c;开通会员畅享千万歌曲”的提示&#xff0c;这些歌曲只能在线播放&#xff0c;无法下载到电脑或优盘中&#…