数据挖掘——数据可视化

article/2025/10/1 3:57:30

数据可视化

    • 1.数据可视化
      • 第一关 数据可视化的内涵
        • 1>数据可视化是什么?
        • 2>为什么需要数据可视化?
        • 3>历史演变
        • 4>习题
      • 第二关 初识数据
      • 第三关 柱状图
      • 第四关 散点图
      • 第五关 直方图
    • 2.数据可视化进阶
      • 第一关 热图
        • 1>热图的作用?
        • 2>习题
      • 第二关 文本可视化
        • 1>文本可视化之wordcloud
        • 2>wordcloud参数
        • 3>习题
      • 第三关 文本调整和美化(主要运用seaborn)

1.数据可视化

第一关 数据可视化的内涵

1>数据可视化是什么?

    数据可视化是将数据和信息通过用图来表示展示其价值。直观来讲,常见画图的目的有:
1.按区间划分的数据,进行比较;
2.展现变量间的关系或分布;
3.展现网络结果的节点、边、集群,寻找路径,找到影响力大的节点;
4.表示关系,将相关性等属性用不同颜色展示;
5.用字词大小展示频率、重要性;
6.在 3D 空间上展示变量关系、分布。

可视化在数据科学中的地位:

在这里插入图片描述

数据可视化的位置虽然靠后,但是十分重要,因为它往往是最后呈现结果的,且本身具有交叉学科属性:信息技术、自然科学、统计分析、图形学、交互、地理信息。

2>为什么需要数据可视化?

哪种数据的表示形式更让人容易接受,是以文字形式还是以图形化呢?“人类有五官,能通过 5 种渠道感受这个物质世界,那么为什么单单要青睐可视化的方式来传递信息呢?这是因为人类利用视觉获取的信息量巨大,人眼结合大脑构成了一台高带宽巨量视觉信号输入的并行处理器。具有超强模式识别能力,有超过 50% 功能用于视觉感知相关处理的大脑。大量视觉信息在潜意识阶段就被处理完成,人类对图像的处理速度比文本快得多。所以数据可视化是一种高带宽的信息交流方式。面对复杂数据,图形化表示更容易让人脑接受,方便挖掘数据中的规律和价值。

3>历史演变

当今世界,数据量猛增,对于如何理解数据提出了更高要求,催生了数据可视化技术的发展。数据表示精细化,高维度化,时序化:
在这里插入图片描述这些进步和演变得益于数据可视化工具,新兴数据可视化工具提高了作图效率

Matplotlib :功能全,可定制性好;
Pandas Visualization :基于 Matplotlib ,接口设计好;
Seaborn :高级作图语言,默认样式精美。

4>习题

在这里插入图片描述

第二关 初识数据

import pandas as pd
import numpy as np
pd.set_option('display.max_columns', 1000)
pd.set_option('display.width', 1000)
pd.set_option('display.max_colwidth', 1000)
def student():# ********* Begin *********#print("""id                                               name  host_id  host_name  neighbourhood_group                           neighbourhood  latitude  longitude        room_type  price  minimum_nights  number_of_reviews last_review  reviews_per_month  calculated_host_listings_count  availability_365
0   2818           Quiet Garden View Room & Super Fast WiFi     3159     Daniel                  NaN  Oostelijk Havengebied - Indische Buurt  52.36575    4.94142     Private room     59               3                262  2019-06-28               2.09                               1               107
1  20168       Studio with private bathroom in the centre 1    59484  Alexander                  NaN                            Centrum-Oost  52.36509    4.89354     Private room     80               1                279  2019-07-08               2.45                               2               140
2  25428    Lovely apt in City Centre (w.lift) near Jordaan    56142       Joan                  NaN                            Centrum-West  52.37297    4.88339  Entire home/apt    125              14                  3  2019-05-11               0.17                               2               106
3  27886  Romantic, stylish B&B houseboat in canal district    97647       Flip                  NaN                            Centrum-West  52.38673    4.89208     Private room    150               2                195  2019-07-01               2.14                               1                74
4  28871                            Comfortable double room   124245      Edwin                  NaN                            Centrum-West  52.36719    4.89092     Private room     75               2                277  2019-07-02               2.56                               3               138""")# ********* End *********#

第三关 柱状图

import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import matplotlib
matplotlib.use("Agg")def student():# ********* Begin *********## 读入数据为DataFramedf = pd.read_csv('Task3/listings.csv', index_col=0)# 绘图:图像大小10×10,fig = plt.figure(figsize=[10, 10])# 设置绘图样式# sns.set(style = 'whitegrid')# 绘制图形sns.countplot(x='room_type',data=df,# 对room_type列的字段进行统计并排序并取前5个order=df['room_type'].value_counts(ascending=False).head(5).index)# 旋转x轴90度plt.xticks(rotation=90)# 保存并显示图像plt.savefig("Task3/img/T1.png")plt.show()# ********* End *********#

第四关 散点图

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import matplotlib
matplotlib.use("Agg")def student():# ********* Begin *********## 读入数据为DataFramedf = pd.read_csv('Task4/listings.csv')# 绘图:图像大小10×10,plt.figure(figsize=(10, 10))# 散点图sns.scatterplot(x="longitude",y="latitude",s=10,data=df)# 保存并显示图像plt.savefig("Task4/img/T1.png")plt.show()# ********* End *********#

第五关 直方图

import warnings
import seaborn as sns
import matplotlib.pyplot as plt
import numpy as np
import matplotlib
matplotlib.use("Agg")
warnings.filterwarnings('ignore')def student(data, x, y):'''根据输入数据将直方图与线形图绘制在同一面板中:param data: 绘制直方图数据,类型为list:param x,y: 绘制线形图数据,类型为list:return: None'''# ********* Begin *********## 绘图:图像大小10×10,plt.figure(figsize=(10, 10))# 直方图sns.distplot(data, kde=False, color="blue")# 折线图sns.lineplot(x=x, y=y, color="orange")# 保存并显示图像plt.savefig("Task5/img/T1.png")plt.show()# ********* End *********#

2.数据可视化进阶

第一关 热图

1>热图的作用?

热图可通过色块颜色展示变量相关性的强弱,能够方便的展示各个属性之间的相关度强弱,通过颜色变化找到一些值得观察的数据。

2>习题

import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import matplotlib
matplotlib.use("Agg")def student():# ********* Begin *********## 读入数据为DataFramedf = pd.read_csv('Task1/listings.csv', index_col=0)# 绘图:图像大小10×10,fig = plt.figure(figsize=[10, 10])# 绘制图形sns.heatmap(df[['price', 'minimum_nights', 'availability_365','reviews_per_month', 'number_of_reviews']].corr(),annot=True)# 保存并显示图像plt.savefig("Task1/img/T1.png")plt.show()# ********* End *********#

第二关 文本可视化

1>文本可视化之wordcloud

数据很多时候是自然语言信息,如何从中进行可视化也是有用的一个问题。
字云:用字词大小形象化字词频率的图形。
如何画一个字云呢?用 wordcloud 插件。
安装 wordcloud 作图插件:https://anaconda.org/conda-forge/wordcloud

2>wordcloud参数

在这里插入图片描述

3>习题

import pandas as pd
import numpy as np
import requests
from PIL import Image
import seaborn as sns
from wordcloud import WordCloud, STOPWORDS
import matplotlib.pyplot as plt
import matplotlib
matplotlib.use("Agg")def student():# ********* Begin *********## 补全所有None的部分df = pd.read_csv("Task2/listings.csv")# 获取图形形状mask = np.array(Image.open(requests.get('http://www.clker.com/cliparts/O/i/x/Y/q/P/yellow-house-hi.png', stream=True).raw))# 填充的单词filtered_words = {"Amsterdam", "apartment","room", "bedroom", "studio", "city"}# 生成词云wordcloud = WordCloud(background_color="white",  # 设置背景色stopwords=set(STOPWORDS).union(filtered_words),  # 过滤词max_words=100,  # 最大显示字数max_font_size=40,  # 最大字体mask=mask,  # mask的形状random_state=2019).generate(str(df.name))  # 基于mask生成字云# 绘图plt.figure(figsize=(10, 10))plt.imshow(wordcloud)plt.axis("off")plt.savefig("Task2/img/T1.png")plt.show()# ********* End *********#

第三关 文本调整和美化(主要运用seaborn)

import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import matplotlib
matplotlib.use("Agg")def student():# ********* Begin *********#df = pd.read_csv("Task3/listings.csv")plt.figure(figsize=[10, 10])sns.set(style='whitegrid')sns.barplot(x='room_type', y='price', data=df, ci=None,order=df.room_type.value_counts(ascending=False).head(5).index)plt.xticks(rotation=90)plt.savefig("Task3/img/T1.png")plt.show()# ********* End *********#

@date: 2021.04.04
@author: zkinglin

(完)


http://chatgpt.dhexx.cn/article/9IlYVB9K.shtml

相关文章

初识前端数据可视化

目录 前端数据可视化的开发工具 前端三件套 Echarts.js Highcharts.js D3.js Vue.js python Tableau 编译器 数据可视化的分支 信息可视化 科学可视化 可视分析学 什么是前端?前端,通俗来说就是网页呈现给我们看的那部分。比如hao123这个…

数据可视化 复习笔记2022

1.可视化释义 可视化对应Visualize和Visualization。Visualize是动词,即“生成符合人类感知”的图像;通过可视元素传递信息。Visualization是名词,表达“使某物、某事可见的动作或事实”,对某个原本不可见的事物在人的大脑中形成一幅可感知的…

前端数据可视化入门

这是一篇给大家提供数据可视化开发的入门指南,介绍了可视化要解决的问题和可以直接使用的工具,我将从下面几个方面给大家介绍,同时以阿里/蚂蚁的可视化团队和资源举例说明: 什么是数据可视化? 怎样进行数据可视化&…

关系数据可视化

关系数据可视化 本文所做的数据的数据可视化实现基于python 3.9.4,需安装matplotlib、numpy、pyecharts、pandas、plotly等依赖库,可通过下述命令完成。 pip install matplotlib pip install numpy pip install -v pyecharts1.1.0 pip install plotly …

Echarts数据可视化

Echarts Echarts 简介Echarts快速上手柱状图柱状图的基本使用其他常见效果 通用配置项titletooltiptoolboxlegend 折线图折线图基本配置其他效果 饼状图 Echarts 简介 Echarts 缩写来自 Enterprise Charts(商业级数据图表),是百度的一个开源的…

实验4 Matplotlib数据可视化

1. 实验目的 ①掌握Matplotlib绘图基础; ②运用Matplotlib,实现数据集的可视化; ③运用Pandas访问csv数据集。 2. 实验内容 ①绘制散点图、直方图和折线图,对数据进行可视化; ②下载波士顿数房价据集,并…

数据可视化-期末复习重点笔记

文章目录 前言一、绘制常见图形。1.1 sinx、cosx曲线图1.2 散点图1.2.1通过matplotlib实现1.2.2通过pyecharts实现 1.3 柱形图1.3.1通过matplotlib实现1.3.2通过pyecharts实现 1.4 柱形堆叠图1.4.1通过matplotlib实现1.4.2通过pyecharts实现 1.5 折线图1.6 拟合曲线1.7 堆叠面积…

【独家】一文读懂数据可视化

前言 数据可视化,是指将相对晦涩的的数据通过可视的、交互的方式进行展示,从而形象、直观地表达数据蕴含的信息和规律。 早期的数据可视化作为咨询机构、金融企业的专业工具,其应用领域较为单一,应用形态较为保守。步入大数据时代,各行各业对数据的重视程度与日俱增,随之…

4.2 数据可视化

一、 数据可视化介绍 1. 概念 数据可视化:是指以 图形、图像、地图、动画 等更为生动、易于理解的方式展现具体数据,诠释数据之间的关系和发展的趋势,以期更好地理解和使用数据。 大数据可视化分析利用支持信息可视化的用户界面以及支持分…

一图胜千言!这10种可视化技术你必须知道

全文共4549字,预计学习时长9分钟 图片来源:Willian Justen deVasconcellos on Unsplash 相比于浩如烟海的数据表格,大部分人还是更喜欢视觉资料,这一点已不足为奇。也是出于这个原因,人们通常才会在学术论文的前几页加上一张图表,并且清楚地标记上各种注释。 当数据科学家…

谷歌浏览器输入网址显示该网页无法正常运作

谷歌浏览器 是一款大家喜爱使用的浏览器,它为我们的生活提供了便捷, 可是,不少朋友还不知道怎么解决谷歌浏览器无法打开网页的问题 具体如下: 首先,请大家找到电脑中的“谷歌浏览器”,点击进入主界面&…

谷歌浏览器无法上网,其他浏览器正常,换chrome搜索引擎

谷歌浏览器无法上网,其他浏览器正常,第一种情况:打开代理设置,开启自动检测设置,重新打卡浏览器 情况二:打开windows注册表,删除配置,重启浏览器不废话,上图 情况三&…

chrome谷歌浏览器通过小米路由器访问网页一会儿后显示:无法访问Internet

近一个月,出现了chrome浏览器国内的网页也没法打开了,使用其他浏览器就能正常使用,比如:Edge。 家里宽带上使用的是小米路由器,用chrome访问网站出现如下截图: 经过网上查找相关资料,结合实践配…

一招搞定谷歌搜索、谷歌学术无法訪问的问题

近期,谷歌搜索、谷歌学术“突然”无法訪问了?我百思不得其解啊,禁不住想问一下:前辈们。你们这是要如何?我们写个论文easy吗?怒火燃尽,言归正传,事实上要解决问题也是非常easy的,原理不赘述。直接上菜。下面谨代表个人意见,大仙们有好的方法记得留言共享讨论。谢谢。…

解决Chrome中打不开Google搜索结果链接

由于Google的搜索结果都要经过Google跳转(Safari上视乎没有跳转,可以直接进入结果页面),默认跳转使用未加密的HTTP连接,经常被我国GFW拦截,导致无法打开Google搜索结果! 解决办法是,…

关于chrome浏览器地址和不能搜索访问的问题

正版的chrome浏览器地址 这里别下载错,我就是重装电脑之后下载chrome浏览器然后发现是盗版本的。正版地址:https://www.google.cn/intl/zh-CN/chrome/ 浏览器默认下载地址最好改为除C盘以外的盘,避免C盘以后爆满,在设置里面改。 不能搜索…

Google chrome谷歌浏览器,打开后是百度搜索或其他搜索怎么办?

如果遇到Google浏览器打开后是百度或者其他浏览器,说明我们在谷歌浏览器的设置有问题,只需要下面简单的操作就可以完成替换。 setting-on start-open a specific page or set of a page,在下面的框中手动敲入www.google.com就欧克了

搜索引擎突然无法访问问题

1.winR键运行 2.输入 inetcpl.cpl 打开 3.点击上方的高级 点击下面重置 勾选删除个人配置 4.最后重启

实用技巧:Google 搜索打不开的解决方法【图文教程】

很多人都喜欢用 Google 搜索,但自从 Google 服务器搬离中国大陆后,大陆用户用 Google 搜索时会自动跳转到 google.com.hk,不仅莫名其妙的关键字被过滤,而且经常出现“无法显示此网页”,相当悲催。 大家比较熟悉的解决方…

股票机械交易系统

最近有一个想法就是开发一个股票机械的交易系统,利用网格法去操作,没有半点人的感情。大家有什么想法可以和我交流,也可以提出您的宝贵意见。