数据分析案例-基于PCA主成分分析法对葡萄酒数据进行分析

article/2025/9/1 7:25:01

🤵‍♂️ 个人主页:@艾派森的个人主页

✍🏻作者简介:Python学习者
🐋 希望大家多多支持,我们一起进步!😄
如果文章对你有帮助的话,
欢迎评论 💬点赞👍🏻 收藏 📂加关注+


目录

1.项目背景

2.项目简介

2.1分析目标

2.2数据集介绍

2.3技术工具

3.算法理论

4.实验过程

4.1数据探索

4.2 PCA主成分分析

4.3 构建模型

5.总结

源代码


摘要

        葡萄酒作为世界上最早的饮料酒之一,其品质和文化早已被人们所认可。据统计2021年,全球葡萄酒产量260亿升,较2020年下降了近1%,至此已连续3年略低于10年平均水平。由于我国本土葡萄酒长期以来受到进口葡萄酒的冲击及2020年疫情期间节日聚会、家庭餐会均被取消,餐饮业完全停滞,导致葡萄酒的需求短期内大幅下降。2020年我国葡萄酒行业市场规模下滑至498.2亿元,2021年小幅度上涨至510.8亿元。预计2022年我国葡萄酒行业市场规模将进一步上升至587.2亿元。本次实验使用葡萄酒数据集进行主成分分析,最后构建葡萄酒分类模型,用来对葡萄酒的分类。

1.项目背景

        作为世界上最早的饮料酒之一,葡萄酒的发展与西方文明紧密相关。根据酿造历史和生产工艺,葡萄酒生产国被划分为传统酿造工艺为代表的“旧世界”,包括法国、意大利、西班牙、德国等,以及以现代酿造技术为代表的“新世界”,包括美国、澳大利亚、新西兰、智利、阿根廷和南非等。据统计2021年,全球葡萄酒产量260亿升,较2020年下降了近1%,至此已连续3年略低于10年平均水平。受霜冻影响,欧盟的葡萄酒产量153.7亿升,较2020年下降8%。这主要是由于2021年4月份霜冻导致法国葡萄酒产量大幅下降。意大利(50.2亿升,增2%)、法国(37.6亿升,降19%)、西班牙(35.3亿升,降14%)三个国家占全球葡萄酒产量的47%。

        由于我国本土葡萄酒长期以来受到进口葡萄酒的冲击及2020年疫情期间节日聚会、家庭餐会均被取消,餐饮业完全停滞,导致葡萄酒的需求短期内大幅下降。2020年我国葡萄酒行业市场规模下滑至498.2亿元,2021年小幅度上涨至510.8亿元。预计2022年我国葡萄酒行业市场规模将进一步上升至587.2亿元。

        葡萄酒行业产业链上游参与主体为原材料及相关设备,主要包括葡萄、淀粉、酵母、食品添加剂、包装材料和酿造设备等;中游为葡萄酒行业,主要有白葡萄酒、红葡萄酒和桃红葡萄酒三大类;下游为各类消费渠道,最后到达终端消费者。近年来,随着葡萄酒产业链延伸,出现了各类“葡萄酒+”产业的新型模式,如“葡萄酒+旅游”、“葡萄酒+科技”等。

        随着我国全面步入小康社会,人们的生活水平不断提高,消费市场持续升级,为具有一定品牌溢价能力的中高端葡萄酒带来较大发展空间。经过近几年的努力,中国葡萄酒的品质与风味已经赢得广大消费者认可,这也为中国葡萄酒搏击中高端葡萄酒市场奠定了基础。综合看来,中高端葡萄酒将是2022年乃至中国葡萄酒产业更长时间的发展热点。

        近年来,随着民族、文化自信等因素助力国产品牌崛起,中国葡萄酒品质与世界接轨,屡次斩获国际性大奖,越来越多的消费者和经销商关注并选择国产葡萄酒。国产葡萄酒收割存量市场持续加速,“国产”替代“进口”的趋势明显。同时,伴随着进口葡萄酒的持续下滑,国产葡萄酒的替代效应越发明显。预计2022年,我国葡萄酒行业国产替代的速度将进一步加快。

2.项目简介

2.1分析目标

        通过研究葡萄酒数据集做出以下分析:

①使用主成分分析对数据进行降维分析

②构建葡萄酒分类模型

2.2数据集介绍

        wine样本数据集中是double类型的178 * 14矩阵包括了三种酒中13种不同成分的数量。文件中,每行代表一种酒的样本,共有178个样本,一共有14列,其中,第一个属性是类标识符,分别是1/2/3来表示,代表葡萄酒的三个分类。后面的13列为每个样本的对应属性的样本值。剩余的13个属性是,酒精、苹果酸、灰、灰分的碱度、镁、总酚、黄酮类化合物、非黄烷类酚类、原花色素、颜色强度、色调、稀释葡萄酒的OD280/OD315、脯氨酸。其中第1类有59个样本,第2类有71个样本,第3类有48个样本。具体属性描述如下:

属性

属性描述

target

类别

Alcohol

酒精

Malic acid

苹果酸

Ash

Alkalinity of ash

灰分的碱度

Magnesium

Total phenoids

总酚

Flavonoids

黄酮类化合物

Noflavanoid phenols

非黄烷类酚类

Proanthocyanins

原花色素

Color intensity

颜色强度

Hue

色调

0D280/0315ofdiluted wines

稀释葡萄酒的0D280/0315

proline

脯氨酸

2.3技术工具

Python版本:3.9

编译工具:jupyter notebook

3.算法理论

主成分分析简介

   主成分分析是数据降维算法的一种,降维是将高维度的数据(指标太多)保留下最重要的一些特征,去除噪声和不重要的特征,从而实现提升数据处理速度的目的。

        主成分分析是利用降维的思想,在损失很少信息的前提下把多个指标转化为几个综合指标的多元统计方法。通常把转化生成的综合指标称之为主成分,其中每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,这就使得主成分比原始变量具有某些更优越的性能。这样在研究复杂问题时就可以只考虑少数几个主成分而不至于损失太多信息,从而更容易抓住主要矛盾,揭示事物内部变量之间的规律性,同时使问题得到简化,提高分析效率。

        主成分分析正是研究如何通过原来变量的少数几个线性组合来解释原来变量绝大多数信息的一种多元统计方法。

主成分分析的思想

假设有 n nn 个样本,p pp 个指标,则可构成大小为 n × p n\times pn×p 的样本矩阵 x xx:

主成分分析的计算步骤

假设有 n  个样本,p 个指标,则可构成大小为 n × p的样本矩阵 x :

1. 首先对其进行标准化处理:

2. 计算标准化样本查的协方差矩阵:

12步骤可以合成一步:

4. 计算主成分共享率以及累计贡献率:

5. 写出主成分:

6. 根据系数分析主成分代表的意义:

 对于某个主成分而言,指标前面的系数越大,代表该指标对于该主成分的影响越大。

部分说明

一组数据是否可以用主成分分析,必须做适合性检验。可以用球形检验和KMO统计量检验。

1)球形检验(Bartlett)

        球形检验的假设:

                 H0:相关系数矩阵为单位阵(即变量不相关)

                 H1:相关系数矩阵不是单位阵(即变量间有相关关系)

2)KMO(Kaiser-Meyer-Olkin)统计量

        KMO统计量比较样本相关系数与样本偏相关系数,它用于检验样本是否适于作主成分分析。

        KMO的值在0,1之间,该值越大,则样本数据越适合作主成分分析和因子分析。一般要求该值大于0.5,方可作主成分分析或者相关分析。

        Kaiser在1974年给出了经验原则:

                0.9以上       适合性很好

                0.8~0.9        适合性良好

                0.7~0.8        适合性中等

                0.6~0.7        适合性一般

                0.5~0.6        适合性不好

                0.5以下       不能接受的       

4.实验过程

4.1数据探索

加载葡萄酒数据集

使用shape属性查看数据共有多少行多少列

原数据有178行,13列

使用info()查看基本信息

从结果中可以看出数据集没有缺失值且都为浮点数类型。

4.2 PCA主成分分析

1.巴特利球形检验

检验总体变量的相关矩阵是否是单位阵(相关系数矩阵对角线的所有元素均为1,所有非对角线上的元素均为零);即检验各个变量是否各自独立。

从结果中看出P值远小于0.05,拒绝原假设,说明变量之间有相关关系,可以做主成分分析。

2.求相关矩阵

①标准化

②求相关系数矩阵

③求特征值和特征向量

3.对特征值进行排序并输出

 4.绘制散点图和折线图

从图中得出主成分分析的K值应为4比较好。

5.求特征值的贡献度

6.求特征值的累计贡献度

7.选出主成分

8.选出主成分对应的特征向量矩阵

9.求主成分得分

10.绘制热力图

4.3 构建模型

在构建模型之前,先进行特征选择,选出建模需要的数据(这里先使用经过主成分分析后的数据),再拆分数据集为训练集和测试集。

构建随机森林模型

可以看出经过主成分分析后的模型准确率为0.972。

接着我们使用原始数据,也就是没有经过主成分分析处理的数据来构建模型看看效果。

从结果看出没有经过主成分分析处理的数据最后构建的模型准确率为0.944,明显看出经过主成分分析处理的模型准确率提高了不少。

5.总结

        本次实验对葡萄酒数据进行了主成分分析,将13维的数据降到了4维,最后通过构建逻辑回归分类模型得出的模型准确率为0.97,相比于没有经过主成分分析处理的数据构建的模型而言,经过处理后的数据构建的模型准确率提高了3%,说明本次主成分分析是有效果的,最后构建的模型效果也很不错。

        通过这次Python项目实战,我学到了许多新的知识,这是一个让我把书本上的理论知识运用于实践中的好机会。原先,学的时候感叹学的资料太难懂,此刻想来,有些其实并不难,关键在于理解。

        在这次实战中还锻炼了我其他方面的潜力,提高了我的综合素质。首先,它锻炼了我做项目的潜力,提高了独立思考问题、自我动手操作的潜力,在工作的过程中,复习了以前学习过的知识,并掌握了一些应用知识的技巧等

在此次实战中,我还学会了下面几点工作学习心态:

1)继续学习,不断提升理论涵养。在信息时代,学习是不断地汲取新信息,获得事业进步的动力。作为一名青年学子更就应把学习作为持续工作用心性的重要途径。走上工作岗位后,我会用心响应单位号召,结合工作实际,不断学习理论、业务知识和社会知识,用先进的理论武装头脑,用精良的业务知识提升潜力,以广博的社会知识拓展视野。

2)努力实践,自觉进行主角转化。只有将理论付诸于实践才能实现理论自身的价值,也只有将理论付诸于实践才能使理论得以检验。同样,一个人的价值也是透过实践活动来实现的,也只有透过实践才能锻炼人的品质,彰显人的意志。

3)提高工作用心性和主动性。实习,是开端也是结束。展此刻自我面前的是一片任自我驰骋的沃土,也分明感受到了沉甸甸的职责。在今后的工作和生活中,我将继续学习,深入实践,不断提升自我,努力创造业绩,继续创造更多的价值。

这次Python实战不仅仅使我学到了知识,丰富了经验。也帮忙我缩小了实践和理论的差距。在未来的工作中我会把学到的理论知识和实践经验不断的应用到实际工作中,为实现理想而努力。

源代码

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.datasets import load_wine
import warnings
warnings.filterwarnings('ignore')
plt.rcParams['font.sans-serif'] = ['SimHei'] #解决中文显示|
plt.rcParams['axes.unicode_minus'] = False   #解决符号无法显示
# 导入数据集
wine = load_wine()
# 将原数据集转为DataFrame类型
data = pd.DataFrame(wine['data'],columns=wine['feature_names'])
data.head()
data.shape
data.info()
# Bartlett's球状检验
from factor_analyzer.factor_analyzer import calculate_bartlett_sphericitychi_square_value, p_value = calculate_bartlett_sphericity(data)
print(chi_square_value, p_value)
# KMO检验
# 检查变量间的相关性和偏相关性,取值在0-1之间;KOM统计量越接近1,变量间的相关性越强,偏相关性越弱,因子分析的效果越好。
# 通常取值从0.6开始进行因子分析
from factor_analyzer.factor_analyzer import calculate_kmokmo_all, kmo_model = calculate_kmo(data)
print(kmo_all)
from sklearn.preprocessing import scale
data_scale = scale(data)  # 数据标准化
data_scale
covX = np.around(np.corrcoef(data.T),decimals=3) # 求相关系数矩阵
covX
featValue, featVec=  np.linalg.eig(covX.T)  #求解系数相关矩阵的特征值和特征向量
featValue, featVec
featValue = sorted(featValue,reverse=True) # 对特征值进行排序并输出
featValue
# 同样的数据绘制散点图和折线图
plt.scatter(range(1, data.shape[1] + 1), featValue)
plt.plot(range(1, data.shape[1] + 1), featValue)
# 显示图的标题和xy轴的名字
plt.title("Scree Plot")  
plt.xlabel("Factors")
plt.ylabel("Eigenvalue")
plt.hlines(y=1,xmin=0,xmax=13)   # 横线绘制
plt.grid()  # 显示网格
plt.show()  # 显示图形
gx = featValue/np.sum(featValue)
gx
lg = np.cumsum(gx)
lg
#选出主成分
k=[i for i in range(len(lg)) if lg[i]<0.80]
k = list(k)
print(k)
selectVec = np.matrix(featVec.T[k]).T
selectVe=selectVec*(-1)
selectVec
finalData = np.dot(data_scale,selectVec)
finalData
# 绘图
plt.figure(figsize = (14,14))
ax = sns.heatmap(selectVec, annot=True, cmap="BuPu")
# 设置y轴字体大小
ax.yaxis.set_tick_params(labelsize=15)
plt.title("主成分分析", fontsize="xx-large")
# 设置y轴标签
plt.ylabel("Sepal Width", fontsize="xx-large")
# 显示图片
plt.show()
X = finalData
y = wine['target']
from sklearn.model_selection import train_test_split
x_train,x_test,y_train,y_test = train_test_split(X,y,test_size=0.2,random_state=42) # 划分数据集
# 逻辑回归模型
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import confusion_matrix,accuracy_score,classification_report
lg = LogisticRegression()
lg.fit(x_train,y_train)
y_pred = lg.predict(x_test)
print('模型准确率',accuracy_score(y_test,y_pred))
print('混淆矩阵',confusion_matrix(y_test,y_pred))
print('分类报告',classification_report(y_test,y_pred))
X = data
y = wine['target']
from sklearn.model_selection import train_test_split
x_train,x_test,y_train,y_test = train_test_split(X,y,test_size=0.2,random_state=666)
# 逻辑回归模型
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import confusion_matrix,accuracy_score,classification_report
lg = LogisticRegression()
lg.fit(x_train,y_train)
y_pred = lg.predict(x_test)
print('模型准确率',accuracy_score(y_test,y_pred))
print('混淆矩阵',confusion_matrix(y_test,y_pred))
print('分类报告',classification_report(y_test,y_pred))


http://chatgpt.dhexx.cn/article/Kh3tQE7Q.shtml

相关文章

基于51单片机的酒精浓度检测仪设计

本设计仅供参考 基于51单片机的酒精浓度检测仪设计&#xff08;proteus仿真程序原理图报告&#xff09; 原理图&#xff1a;Altium Designer 仿真&#xff1a;proteus 8.9 程序编译器&#xff1a;keil 4/keil 5 编程语言&#xff1a;C语言 编号C0031 功能说明&#xff1a; 由S…

以几款火爆链游为例 读懂GameFi常见机制

Axie Infinity Axie Infinity 是一款建立在以太坊区块链上的去中心化回合制策略游戏&#xff0c;起初为以太坊主链&#xff0c;而后由于 gas 费用过高和延迟问题迁移到了自建的 Ronin 侧链上。主要载体为网页端&#xff0c;开发商为越南 Sky Mavis&#xff0c;经历过两轮种子融…

51单片机 酒精浓度测试仪

酒精浓度测试仪 目录 一、绪论... 2 1.选题背景及现实意义... 2 2、任务内容... 2 二、酒精浓度测试仪系统总体设计... 2 1&#xff0e;需求分析及方案设计... 2 2&#xff0e;系统功能... 3 3&#xff0e;系统基本构成及原理... 3 4&#xff0e;功能说明... 4 三、系…

供应链业务架构设计概览

目录 前言 供应链整体流程图 供应链正反案例 供应链金融的具体应用 小公司的供应链管理 O2O供应链系统架构设计 剖析B2B供应链网站系统整体架构 供应链架构思维树 三流集成规划怎么做 拓展阅读 参考文章 前言 通过不同层面的案例引入方法论&#xff0c;用以致学 …

世界很大,一定要出去看看

8月份的后半个月去了欧洲的五六个国家&#xff0c;一路走一路满满的感悟。跟团旅游比较辛苦&#xff0c;期初想把旅途的见闻通过公众号分享给大家&#xff0c;但看着发一篇文章&#xff0c;粉丝不断的掉&#xff0c;就终止了。朋友问&#xff1a;还等着你的游记呢&#xff0c;为…

酒链世界平台 技术支持 系统开发

酒链世界模式系统开发&#xff0c;酒链世界区块链技术开发&#xff0c;酒链世界模式定制开发&#xff0c;等找老何。 关于移动社交网及其应用研究 Bo Zhang等(2013)认为移动社交网络(简称MSNs)是由互联网、移动计算、在线社交网络这三个领域交叉而形成的&#xff0c;并总结了MS…

解析酒链世界系统对企业发展的影响

酒链世界系统开发&#xff0c;酒链世界系统&#xff0c;酒链世界模式&#xff0c;酒链世界商城&#xff0c;酒链世界APP&#xff0c;酒链世界小程序&#xff0c;酒链世界平台&#xff0c;酒链世界软件&#xff0c;酒链世界源码&#xff0c;酒链世界微商系统&#xff0c;酒链世界…

NR/5G - 系统消息变更

​1. 基站怎么通知UE进行系统消息更新&#xff1f; 如果小区的一些系统参数发生变更&#xff0c;例如SIB1中的部分参数发生变更&#xff0c;由于UE也并不是在SIB1的周期性时间点上一直对SIB1进行接收&#xff0c;在当前系统消息还有效的情况下&#xff0c;怎么通知已经驻留在这…

LTE系统信息(2)-SIB的周期调度

MIB中承载的信息只是系统信息中非常有限的一部分&#xff0c;大多数的系统信息仍然需要通过SIB块发送。eNB在发出MIB&#xff08;关于MIB的内容请参考《LTE系统信息&#xff08;1&#xff09;-MIB》&#xff09;之后&#xff0c;会继续发送若干条不同类型的SIB&#xff08;Syst…

java web 系统消息通知功能,实现实时弹窗

项目需求&#xff1a;管理员后台设置通知功能&#xff0c;每当后台有数据更新时&#xff0c;用户端实时提醒 实现方法&#xff1a; 项目所有页面包含公共页面 header.jsp 在公共页面中写入ajax&#xff0c;实现实时提醒 $(function(){$.ajax({type : "POST",url :…

系统信息相关命令

系统信息相关命令 本节内容主要是为了方便通过远程终端维护服务器时, 查看服务器上当前 系统日期和时间 / 磁盘空间占用情况 /程序执行情况本小结学习终端命令都是查询命令, 通过这些命令对系统资源的使用情况有个了解 目标 时间和日期 1.date 2.cal磁盘和目录空间 1.df 2.d…

LTE系统信息(1)-MIB

1.什么是MIB 为了能正常接入小区&#xff0c;UE在完成扫频&#xff08;无论是指定频点扫频还是全频段扫频&#xff0c;目的都是为了找到合适的中心载波频点&#xff0c;参考《LTE物理传输资源&#xff08;3&#xff09;-时频资源》&#xff09;和小区同步之后&#xff08;参考…

Linux查看系统基本信息,版本信息(最全版)

Linux下如何查看版本信息&#xff0c; 包括位数、版本信息以及CPU内核信息、CPU具体型号 1.uname &#xff0d;a &#xff08;Linux查看版本当前操作系统内核信息&#xff09; 2.cat /proc/version &#xff08;Linux查看当前操作系统版本信息&#xff09; 3.cat /etc/issue…

操作系统-消息,消息队列

消息&#xff0c;消息队列 1. 消息 在windows 程序中&#xff0c;消息是由MSG 结构体来表示的。MSG 结构体的定义如下&#xff1a; typedef struct tagMSG {HWND hwnd;UINT message;WPARAM wParam;LPARAM lParam;DWORD time;POINT pt; }MSG;该结构体中各成员变量的含义如下&a…

LTE系统信息(3)-系统信息变更

1.为什么需要加入系统信息变更机制 从《LTE系统信息&#xff08;2&#xff09;-SIB的周期调度》里我们已经知道&#xff0c;UE所需的系统信息绝大多数都包含在不同的SIB块里&#xff0c;分别由SIB1消息和SI消息广播到UE。携带的这些参数信息一般情况下都不会发生变化&#xff…

UE接入LTE网络过程——获取小区系统信息和随机接入

1 系统信息 小区搜索过程之后&#xff0c;UE已经与小区取得下行同步&#xff0c;得到小区的PCI以及检测到系统帧的timing&#xff08;即10ms timing&#xff09;。接着&#xff0c;UE需要获取到小区的系统信息&#xff08;System Information&#xff09;&#xff0c;这样才能…

【5G RRC】5G系统消息介绍

博主未授权任何人或组织机构转载博主任何原创文章&#xff0c;感谢各位对原创的支持&#xff01; 博主链接 本人就职于国际知名终端厂商&#xff0c;负责modem芯片研发。 在5G早期负责终端数据业务层、核心网相关的开发工作&#xff0c;目前牵头6G算力网络技术标准研究。 博客…

LTE网络有关系统消息(MIB/SIB)深度解析

LTE网络有关系统消息&#xff08;MIB/SIB&#xff09;深度解析 参考链接&#xff1a;https://mp.weixin.qq.com/s?__bizMzU1NjU5ODg3NQ&mid2247485713&idx1&sn5f3ccfa33f6ef9713a4246041d5499ae&chksmfbc3da25ccb453337432d64587f7fe005e9a102cc6ff42f9fef14…

LTE系统信息 --- 系统信息变更

1.为什么需要加入系统信息变更机制 世事无绝对&#xff0c;考虑到网侧某些特定情况下可能需要对一些参数进行修改&#xff0c;比如修改SIB1中的RACH参数&#xff0c;或者修改SIB2中的ac-BarringInfo参数&#xff0c;因而需要增加一种机制&#xff0c;可以让SIB参数有变更的时候…

5G NR系统信息

1. 概述 5G NR系统信息包括主信息块&#xff08;MIB&#xff0c;Master Information Block&#xff09;以及一系列的系统信息块&#xff08;SIB&#xff0c;System Information Block&#xff09;。根据系统信息中所包含的内容&#xff0c;可以将其分为Minimum SI以及Other SI…