数据分析综合案例

article/2025/11/8 10:28:26

数据分析综合案例:

数据分析流程

在这里插入图片描述

什么是数据清洗?

简单来说,数据清洗就是把“脏数据”变为“干净的数据”。数据清洗虽然很繁琐,但也很重要。

在这里插入图片描述

数据清洗流程:

数据的读写、数据的探索与描述、数据简单处理、重复值的处理、缺失值的处理、异常值的处理、文本字符串的处理、时间格式序列的处理。

注意:重复值的处理、缺失值的处理、异常值的处理、文本字符串的处理、时间格式序列的处理,这几个顺序可根据实际情况调整顺序。
在这里插入图片描述
【向前填充】就是使用缺失值前面的数据进行填充,同理,【向后填充】就是使用缺失值后面的数据进行填充,这种方法处理缺失值是非常适用于时间序列的数据。

代码:

导入相关包:
在这里插入图片描述

  • 提示:%matplotlib inline表示当输入plt.plot(x,y_1)后,不必再输入plt.show(),图像将自动显示出来。
数据如下:

在这里插入图片描述

读取数据集:

在这里插入图片描述

  • 提示:index_col表示csv文件中的第0列作为数据集的行索引,index_col=0,直接将第一列作为索引,不额外添加列,也就是将csv文件中的第0列不作为数据而是认为是索引。
初步探索数据:

在这里插入图片描述

  • 提示:有的字段不够5100,那就表示这些字段是有缺失值的,目的地字段名中有空格。
    在这里插入图片描述
  • 提示:显示数值型数据的描述统计,文本类型的数据它就默认不管了。

count统计的是个数,mean表示平均值,std表示标准差,min表示最小值,25%表示整个数据的前4分之一位的数据是多少,50%表示整个数据的中位的数据是多少,75%表示整个数据中的4分之3位的数据是多少,max表示最大值。

  • 提示:通过这些信息我们总结出:数据是有缺失值和异常值的。

缺失值通过info()和count()总结出来的。
异常值通过75%的max之间的差距过大。

简单的数据处理:

显示所有的列名:也就是显示列索引。
在这里插入图片描述
在这里插入图片描述

  • 后来发现价格的后面还有一个空格:
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
strip()方法可以去除字符串两边空格。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

重复值的处理:

在这里插入图片描述
在这里插入图片描述

  • 重复值:这两条记录中所有的数据都相等才叫做重复值,比如每一条记录都有13列,那这两条数据中的13个数据都要相等才认为是重复的数据。
    在这里插入图片描述
  • 提示:值为True的位置为重复值所在的位置。

查看重复值的数据:
在这里插入图片描述

统计重复数据的个数:

在这里插入图片描述

  • 也就是有100个重复的数据。
删除重复值drop_duplicates():

在这里插入图片描述

  • inplace=True表示在原始的数据集上进行删除,否则不会对原始数据进行修改,而是有返回值,需要接收这个返回值,添加上这个参数以后就没有返回值了。
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
  • 提示:删除了重复值数据以后,我们发现总共有5000行,那是最后一些数据的行索引有的还是超过5000的,图中的5099索引。
删除重复值后重新设置索引:

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

总结:这就是重复值的处理。
异常值的处理:
  • 提示:填补缺失值的时候是不希望异常值作为填补的依据,所以要先处理异常值的存在。
    在这里插入图片描述
    在这里插入图片描述
  • 用【三倍标准差】来进行衡量是否为异常值,大于三倍标准差的为异常值:标准偏差简称标准差,std()方法是用来计算标准偏差的函数。
先来找出【价格】字段的异常值:
  • mean()方法是求平均值,std()方法是求标准差。

在这里插入图片描述

  • abs()方法是取绝对值,[:10]表示前10个,表示只观察前10个数据。
    在这里插入图片描述
  • 大于3倍标准差的为True,否则是False。
    在这里插入图片描述
  • 查看具体的异常信息:
    在这里插入图片描述
分析异常原因:

上面这个旅游线路的价格我们发现是有异常,天价的旅游线路啊,找出来以后,我们就要分析了,是人为录入的问题?还是什么别的原因?

  • 提示:一会再来处理异常的字段值。
再来找出【节省】字段的异常值:

价格字段的值是没有优惠前的价格,所以,我们认为节省字段的最大值应该与价格相等或是比价格字段的值要小,是不能比价格还要大的。
在这里插入图片描述

  • 上面我们发现11的节省字段值比价格字段的值要大,那我们就找到了异常。
统计节省字段异常值的数量:

在这里插入图片描述

  • 上面是统计的价格比节省大的记录数,总共有4952条,总共是5000条记录,那还差48条记录,这48条记录中有可能都是异常,也有可能有的是异常有的是缺失值,也有可能是价格等于节省。
  • 所以,最直观的查法:节省比价格还要大的记录:
    在这里插入图片描述
异常值处理的思想:

在这里插入图片描述

将找到的异常值拼接起来进行处理:

在这里插入图片描述

拿到这些异常值的索引:

在这里插入图片描述

最后,删除这些异常值:

drop()方法在进行删除数据的时候,需要传递的是数据的行索引值。
在这里插入图片描述
上面我们发现已经删除了那4条异常的值了。

需要向上面那样,再来重新的设置一下索引值:

在这里插入图片描述

缺失值的处理:

在这里插入图片描述

查看缺失值:

在这里插入图片描述
上面这个方法是用来判断每一个数据是不是缺失值。那数据太多了,我们可以使用下面的方法进行统计出来:出发地有2个缺失值,目的地有1个缺失值,价格有28个缺失值…
在这里插入图片描述

  • 先来:查看具体的【出发地】的缺失值数据:
    在这里插入图片描述
    但是通过路线名字段的值我们可以知道是从【大连】到【烟台】,另一个是从【济南】到【西安】。
处理【出发地】缺失值:

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

查看是否处理成功:

在这里插入图片描述

  • 这样就解决了。
再来:查看具体的【目的地】的缺失值数据:

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

处理【目的地】的缺失值:

在这里插入图片描述

查看是否处理成功:

在这里插入图片描述

再来:处理价格的缺失值。

提示:价格的缺失值使用均值来进行填充。

先来求出价格的平均值:

在这里插入图片描述

再来对价格的平均值进行四舍五入:

在这里插入图片描述

最后对价格缺失值进行处理:

在这里插入图片描述

再来:处理节省的缺失值:

在这里插入图片描述

最后,再来确认一下:

在这里插入图片描述

(这一步看机器学习算法中需不需要)处理文本型数据:

如果我们想要在一系列文本提取信息,可以使用正则表达式,正则表达式通过被用来检索某个规则的文件。
在这里插入图片描述
在这里插入图片描述

提取酒店评分:

expand参数的值为false表示是一个Series类型,如果是True表示是一个Dataframe类型的。
在这里插入图片描述
在这里插入图片描述

再来:人为的为数据添加一个字段:

在这里插入图片描述
在这里插入图片描述

提取酒店等级:

在这里插入图片描述
在这里插入图片描述

再来:人为的为数据添加一个字段:

在这里插入图片描述
在这里插入图片描述
下面是显示第14行的所有列信息:
在这里插入图片描述

提取酒店天数:

在这里插入图片描述
在这里插入图片描述

  • 数据分析就是一个想像的工作性质…

http://chatgpt.dhexx.cn/article/ym2hhuyk.shtml

相关文章

磁力搜索网站+下载神器放送2019-03-05

先介绍下背景,因为喜欢看的电影因为版权问题,不能用迅雷及百度云离线下载.今天找了好久,终于发现了一个好用的解决方案. 先介绍常用的磁力搜索网站: 搜索网 https://btsow.pw/tags https://cn.torrentkitty.tv https://www.ciliurl.com/ http://www.zhizhuc.com/ https://www.a…

几款磁力搜索引擎,找资料更方便

Bt177.info 一款强大的磁力搜索引擎网站,这款网站包含有7万多个磁力链接,提供提供网盘形式和磁力形式的储存,有很多你想要的东西。如果是音频和视频的话支持在线观看。 Bt977 磁力搜索引擎,支持网盘播放,磁力下载。 To…

搜索下载神器

前言 新闪存云app是一款功能非常强大的云盘软件,为用户提供了非常给力资源搜索功能,支持多种下载方式,让你在这里体验全网最快速的资源下载,多种格式的文件以及视频也都可以在这里进行下载并进行解析,操作十分的简单&a…

基于python的种子搜索网站,你懂得!

该项目是基于python的web类库django开发的一套web网站,给师弟做的毕业设计。本人的研究方向是一项关于搜索的研究项目。在该项目中,笔者开发了一个简单版的搜索网站,实现了对数据库数据的检索和更新。通过开发该项目,笔者学习和巩…

android下载工具 磁力,【安卓+iOS】磁力搜索+下载工具

【安卓iOS】磁力搜索下载工具 2020-03-29 19:46:20 3点赞 16收藏 2评论 1、比特舟Pro(安卓) 比特舟Pro是一款磁力搜索工具,支持BT和磁力搜索。前身是比特羊,后来改名比特知了,现在又一此改名。名字虽然变了,功能还是一样。 想搜什…

Ubuntu 能直接搜 BT 种子了

Ubuntu的Dash搜索工具允许用户搜索本地和在线资源如亚马逊和维基百科上的内容。现在,一位第三方开发者为Dash搜索工具加入了BT搜索功能,允许用户搜索海盗湾上的torrent文件。这项功能获得了 Canonical 创始人Mark Shuttleworth的支持。 Canonical表示&am…

利用Python爬虫建立自己的磁力搜索引擎

现在磁力站很多,但是搜出来的东西乱七八糟的,广告也多,我看多了觉得挺烦的,正好周末无聊,想着自己做一个,下面附上本次利用Python爬虫磁力站点的教程。 下面是我写爬虫时候主要引用的库 当然,抓取的关键词可以自己从代码里设置,比如title,文件大小之类的。 但我怎么知…

TT盒子种子搜索神器

2、软件名称:tt盒子种子搜索神器 3、软件版本:V1.5 4、软件大小:2.31MB 5、软件作者及网址:TT盒子 网站:www.tthezi.com 6、软件类别:搜索引擎 7、软件语言:简体中文 8、软件授权:免…

想做个磁力链搜索引擎 3

上一篇中,我们已经实现了对tracker的访问,从而获取到了peer对等体的ip地址以及端口号。我们这一篇要实现的是对等体之间的通讯。 在bt种子下载中,对等体就是正在下载你需要文件的另一台主机或提供下载你需要文件的主机。每一个种子一开始都是…

[搜片神器]直接从DHT网络下载BT种子的方法

转自:http://www.cnblogs.com/miao31/p/3332819.html DHT抓取程序开源地址:https://github.com/h31h31/H31DHTDEMO 数据处理程序开源地址:https://github.com/h31h31/H31DHTMgr DHT系列文章: 1.[搜片神器] 之P2P中DHT网络爬虫原理 2.[搜片神器]之DHT网络爬虫的代码实现方法…

P2P下载器-P2P种子搜索器

P2P种子搜索器(p2psearcher)是一款集种子搜索器和在线云点播于一身的实用工具,基于先进的P2P搜索技术,可在瞬间搜遍全球ED2k网络资源。p2psearcher搜到的视频资源可以直接在右侧的云点播播放页面试播预览,并且提供高品质观影效果。需要的朋友…

这才是CSDN最系统的网络安全学习路线(建议收藏)

01 什么是网络安全 网络安全可以基于攻击和防御视角来分类,我们经常听到的 “红队”、“渗透测试” 等就是研究攻击技术,而“蓝队”、“安全运营”、“安全运维”则研究防御技术。 无论网络、Web、移动、桌面、云等哪个领域,都有攻与防两面…

网络安全学习资源分享

提高技能 网络安全学习资源汇总 项目描述OWASP安全的牧羊人(https://security-shepherd.ctf365.com/login.jsp)作为11/6破ctflearn(https://ctflearn.com/)基于CTF网站账户,用户可以在解决一系列挑战ctfs写-不间断电…

网络安全学习路线,入门到入坟,史上最全网络安全学习路线整理

很多小伙伴在网上搜索网络安全时,会出来网络安全工程师这样一个职位,它的范围很广,只要是与网络安全挂钩的技术人员都算网络安全工程师,一些小伙伴就有疑问了,网络安全现在真的很火吗? 那么寒哥就带大家看…

网络安全学习:安全学习

特别有用 赶脚,,,赶脚,,,这组比较像,,,因为响应头带了个audio,再巴拉开响应头看看: 就是你了 /20170407233726/7bcb1a38c8e959f677b58519ac8a2958/ymusic/9c2b/57dd/26dc/df6def971d6cdd160d347dcb6a1c18f4.mp3 之后就不在C盘的缓存文件夹里巴拉了&…

网络安全(黑客)学习路线

目录 背景 那么要怎么才能成为一名黑客呢? (1)基础部分 ​编辑(1.1)计算机网络 : (1.2)Linux 系统及命令 : (1.3)Web 框架 : &…

网络安全学习路线

如何成为一名黑客,很多朋友在学习安全方面都会半路转行,因为不知如何去学,今天在知乎看到个不错的,果断收藏学习下路线。此篇博课讲的非常细,有兴趣的同学可以参考。 关于黑客或网络安全如何入门和学习路径,我在去年的问答和专栏中也陆陆续续解读过,近期知乎时间线上又…

网络安全学习篇

提示:学习网络安全,了解网络知识 文章目录 (一)虚拟机环境搭建01虚拟机概述传统运行模式虚拟机运行架构1.寄生架构 (实验环境、测试环境)2.原生架构(生产环境) 虚拟机平台产品FTP服务器 02虚拟机管理2.1关闭…

网络学习---网络安全、HTTPS

网络安全 网络通信中,面临的4种安全威胁 截取:窃听通信内容中断:中断网络通信篡改:篡改通信内容伪造:伪造通信内容 网络层 - ARP欺骗 ARP欺骗可以造成的后果: 可以让攻击者获取局域网上的数据包&#x…

信息安全的一些东西,初步查询了解!

学信息安全需要哪些基础: https://zhidao.baidu.com/question/1864586538306265827.html 有哪些信息安全方面的经典书籍: https://zhidao.baidu.com/question/2207926205965713708.html 信息安全推荐书籍: https://www.cnblogs.com/zytrue/p/…