python 爬虫爬取疫情数据,爬虫思路和技术你全都有哈(一)

article/2025/3/19 20:53:47

python 爬虫爬取疫情数据,爬虫思路和技术你全都有哈(二、数据清洗及存储)

爬起疫情数据,有两个网址:

        1、百度:链接

        2、丁香园疫情:链接

在这两个中,丁香园的爬虫相对简单一点,所以今天就展示一哈,百度的,哈哈哈。毕竟挑战一哈自己,看看有啥缺陷。不过确实在找数据方面,存在很多的问题,有很多地方需要学习哈。

但是看完这篇后,你再写丁香园的爬虫代码的时候,就很简单了。

可以自己尝试一下,给自己定个小目标,先来学习百度爬虫代码,课后作业,丁香爬虫代码

今日任务爬虫爬取疫情数据,我们向着百度疫情API伸出了万恶的魔爪哈!!!

目录

本次所用到的库:

爬虫思路

       第一步: 确定爬取的网站连接

       第二步:确定静态数据或动态数据,确定数据的位置

         第三步:怎样解析数据        

代码部分

第一步:请求网站(记得导入包哈)

第二步:解析所得到的网页源码

第三步:数据清洗

中国疫情地图制作


本次所用到的库:

  • import requests                                          HTTP请求库
  • from lxml import etree                               xpath解析库
  • import json                                                 json数据格式包
  • from pyecharts.charts import Map             绘制中国疫情地图的包
  • from pyecharts import options as opts       绘制条形图的库
  • import pymysql                                           mysql数据库调用接口

就不仔细讲这些库的作用了,后面代码部分在一起讲给大家听哈。

首先,先说思路哈

爬虫思路

       第一步: 确定爬取的网站连接

                        百度:爬取疫情数据链接

       第二步:确定静态数据或动态数据,确定数据的位置

                进入一个陌生的网站,首先确定是静态数据还是动态数据(又称前后端分离页面),先查看是否未静态页面(进入源码页),然后再查看是否未动态数据(进入开发者模式),进入源码页。你就会看到这样一幕(我偷偷找了好久,最好在script标签里面看到了,属实是第一次遇到这种情况),当下滑动条往右边拉的时候 ,你就会绝望了哈。

         第三步:怎样解析数据        

        确定是静态数据之后,可以选择用re(正则)xpath等,进行解析页面数据哈。

        本文用的是xpath哈,前面已经说过了。而且这样的数据,必然是一个json数据,所以需要进行转换哈。str 转 json数据格式,就必须用到,json包中的json.loads()函数哈。但是在转换之前也能看到这些字符是有点不对劲的,所以还需要再 str 数据格式中进行转换utf-8字符集。

思路差不多就是这些了哈,在没有做反爬的基础上,大部分爬虫都是这三步

然后就是代码部分了哈

代码部分

一步一步来,慢慢给你们讲清楚哈

第一步:请求网站(记得导入包哈)

def HTTP_get(url):resp = requests.get(url)resp.encoding = 'utf-8'return resp.textif __name__ == '__main__':url = 'https://voice.baidu.com/act/newpneumonia/newpneumonia/?from=osari_aladin_banner&city='resp = HTTP_get(url)
print(resp)

请求成功后返回的是网页源码,此时数据格式是str格式,而我们需要的数据也在其中

第二步:解析所得到的网页源码

def xpath_json(resp):print('xpath_json  ------  2')html = etree.HTML(resp)str_list = html.xpath("//script[@id='captain-config']/text()")str_list = str_list[0].replace('\'', '')  # 去掉 '' 单引发str_list = str_list.encode('utf-8')  # 转码字符集,转码中文# str_list = str_list.encode('utf-8').decode('unicode_escape')  # 转码字符集,转码中文json_list = json.loads(str_list)return json_listif __name__ == '__main__':url = 'https://voice.baidu.com/act/newpneumonia/newpneumonia/?from=osari_aladin_banner&city='# 请求HTTPresp = HTTP_get(url)print(resp)# 解析数据json_list = xpath_json(resp)
此时输出的数据是json格式的数据,并且是我们需要的数据,但是因为数据太繁杂,太乱,所以我们还需要清洗数据

下面将是清洗数据

python 爬虫爬取疫情数据,爬虫思路和技术你全都有哈(二、数据清洗及存储)


http://chatgpt.dhexx.cn/article/SGWSf2An.shtml

相关文章

采用python爬虫爬取数据然后采用echarts数据可视化分析

前言:采用python爬虫爬取天气数据然后采用echarts数据可视化画图分析未来天气变化趋势 从获取数据到可视化的流程 (熟悉爬虫爬取数据然后数据可视化这个过程) 一、python爬取未来8-15天的天气数据 1、导入用到的一些python第三方库 imp…

python网络爬虫爬取数据,python全网爬取内容

大家好,小编来为大家解答以下问题,python网络爬虫爬取数据,利用python爬取数据,现在让我们一起来看看吧! 网络爬虫,就是按照一定规则自动访问互联网上的信息并把内容下载下来的程序或脚本。 在整个的Python…

Python爬虫爬取网页数据并存储(一)

Python爬虫爬取网页数据并存储(一) 环境搭建爬虫基本原理urllib库使用requests库使用正则表达式一个示例 环境搭建 1.需要事先安装anaconda(或Python3.7)和pycharm *anaconda可在中科大镜像下下载较快 2.安装中遇到的问题&#x…

【用Java爬取网页图片——爬虫爬取数据】

用Java爬取网页图片——爬虫爬取数据 1、在创建项目中导入jsoup 2、创建一个保存下载图片的路径 3、使用URL读取网页路径,jsoup读取网页内容 4、利用属性标签获取图片连接块 5、因为该路径没有http:头,用StringBuilder增加 5、完善下载路径…

爬虫爬取数据

打开爬取工具页面,使用爬虫工具列表: 开始节点 仅仅是爬虫的起点,所有流程图必须有该节点。 爬取节点 该节点用于请求HTTP/HTTPS页面或接口 请求方法:GET、POST、PUT、DELETE等方法 URL: 请求地址 延迟时间:单位是毫秒,意思是爬取之前延迟一段时间在执行抓取 超时时间:网…

手把手教会 爬虫爬取json数据

提示:本章爬取练习的url地址 发现曲谱 (yoopu.me) 前言 我们学爬虫,有时候想要的数据并不在html文本里面,而是通过js动态渲染出来的。 如果我们需要爬取此类数据的话,我们该怎么办呢? 请读者接着往下看&#xff1a…

六个步骤学会使用Python爬虫爬取数据(爬虫爬取微博实战)

用python的爬虫爬取数据真的很简单,只要掌握这六步就好,也不复杂。以前还以为爬虫很难,结果一上手,从初学到把东西爬下来,一个小时都不到就解决了。 Python爬虫六部曲 第一步:安装requests库和BeautifulS…

网络爬虫入门:网络爬虫的目的,企业获取数据的方式,可以用于做爬虫的程序语言,爬虫爬取数据的步骤

目录 爬取数据的目的: 1.获取大量数据,用于做数据分析 2.公司项目的测试数据,公司业务所需数据 企业获取数据的方式 1.公司自有数据 2.第三方数据平台购买(数据堂,贵阳大数据交易所) 3.爬虫爬取数据…

利用爬虫爬取数据集

相信大家在学习tensorflow的过程中,会想要自己动手来试试加载我们的数据集,而不再局限于从datasets上下载数据集。但是往往一个模型的训练就需要很庞大的数据集,因此写下这篇博客教大家如何用爬虫爬取图片,制作自己的数据集&#…

微信小程序实名认证接口_人脸核身接口整理

一、微信小程序实名认证接口_人脸核身接口整理 开场一个字: 悲观。目前实名接口,人脸识别接口开放度不高。“实名信息授权”已经回收。 二、人脸核身接口 1.使用条件 需要现申请通过才能使用。 目前开放的分类不多,并且还需要行业资质。 …

微信小程序—人脸识别

1.首先你要有一个可以就行人脸识别的服务器&#xff0c;然后就是上传到百度云&#xff0c;百度云人脸识别的API接口全面升级到V3版本&#xff0c;并进行开放测试 2.wxml代码 <camera device-position"{{sxt}}" flash"off" binderror"error" s…

微信小程序实现人脸识别注册登录

前言 这是一篇关于一个原创微信小程序开发过程的原创文章。涉及到的核心技术是微信小程序开发方法和百度云人脸识别接口。小程序的主体是一个用于个人密码存储的密码管理器&#xff0c;在登陆注册阶段&#xff0c;需要调用百度云人脸识别接口以及百度云在线人脸库的管理接口。…

C# Winform开发人脸识别小程序 (基于百度接口)

目录 一、设计思路1、背景2、简介3、用到的技术4、设计功能一&#xff1a;用户注册功能概述功能示意图时序图 功能二&#xff1a;人脸识别功能概述功能示意图时序图 二、实现1、环境准备2、百度接口配置3、技术准备4、代码实现功能一&#xff1a;用户注册功能二&#xff1a;人脸…

python人脸检测与微信小程序_微信小程序人脸识别功能

本文档以微信小程序为例&#xff0c;微信小程序开发人脸核身功能需要两个申请&#xff1a;腾讯云申请人脸识别服务和小程序申请人脸识别服务&#xff08;注意&#xff1a;只有符合以下条件的机构才能在小程序端申请&#xff09; 政务&#xff1a;政府机构或事业单位 金融&…

使用uniapp开发微信小程序的人脸采集功能/人脸识别功能

✅作者简介&#xff1a;大家好我是瓜子三百克&#xff0c;励志成为全栈工程师的一枚程序猿&#xff0c;也是喜欢在学习和开发中记录笔记的小白博主&#xff01; &#x1f4c3;个人主页&#xff1a;瓜子三百克的主页 &#x1f525;系列专栏&#xff1a;uniapp前端 &#x1f496;…

无需证书微信小程序实现人脸识别—E证通

E证通 前言收费标准接入准备小程序1、 添加服务器域名白名单2、添加业务域名白名单3、安装 SDK/小程序包4、SDK 调用步骤即实操代码4.1、初始化 SDK4.2、 调用 SDK 5、拿到回调结果6、使用uni-app开发6.1、小程序运行后&#xff0c;在小程序中丢入sdk包6.2、把sdk包转换成uni-a…

小程序实现人脸识别与小程序发布

文章目录 前言主要实现功能效果演示PC端手机端 调用百度Ai人脸检测接口小程序发布流程项目源码编程之外 前言 人脸识别其实没那么复杂&#xff0c;我国几个大厂都有他们的AI开放平台&#xff0c;调用一下他们的人脸检测接口就行了&#x1f601;&#xff08;虽然接口不是自己写的…

节假日查询接口,加班,补班,日期查询,放假,日历

一、接口介绍 通过本数据&#xff0c;可以查询节假日、加班日期&#xff0c;以及每个日期的对应的国际日和我国传统节日的简介。广泛使用于日程安排、证券投资、日历等功能的应用中展示。 二、使用案例截图 如何查看调用效果&#xff1f; 1、通过链接&#xff0c;点击【在线…

php中阿里云快递物流查询接口使用

php中阿里云快递物流查询接口使用 官方给的php代码如下&#xff1a; $host "https://ali-deliver.showapi.com";$path "/showapi_expInfo";$method "GET";$appcode "你自己的AppCode";$headers array();array_push($headers, &qu…

智能疾病查询接口

疾病类目&#xff0c;疾病症状&#xff0c;智能疾病查询&#xff0c;医疗知识图谱 ​ 一、接口介绍 最全的疾病大全&#xff0c;收集了数万种常见疾病&#xff0c;任何常见疾病都可查询。 二、功能体验 三、演示效果 四、API文档 4.1 查询疾病科目 4.1.1接入点说明 查询…