表结构数据

article/2025/9/27 17:44:29

什么是表结构数据

表结构数据中的“表”来源于关系型数据库中的“table”,关系型数据库中的数据都是以表结构进行存储的,它是数据分析工具中最基本的存储结构。
在这里插入图片描述

在关系型数据库中一个数据库可以有多个数据表,每个数据表都是由固定列和任意行构成的二维表结构的数据集。表中的列称为字段,表中的行称为记录,并以字段为基本的存储单位和计算单位。
在这里插入图片描述

为什么要使用表结构数据

除了Excel和WPS之外的其他分析工具,都是使用二维表结构的存储格式。
在这里插入图片描述

表格与表的区别

  • 表格数据中的最小单位是单元格,表数据中最小单位是字段。
  • 表格数据中可以没有列名,表数据中每个字段必须有字段名,且同一个表中的字段名不能重复。
  • 表格数据中每一列的数据类型可以不一致,表数据中每个字段的数据类型必须一致。
  • 表格数据中每一列的行数可以不一致,表数据中每个字段的记录数必须一致,字段中可以有缺失值,但总记录数是一致的。

表结构数据的特征

  • 表中的第一行是标题行,也称为字段名。
  • 表中第二行开始到最后一行的内容称为记录。
  • 字段名用以定位不同的字段,每个字段必须有字段名,且同一个表中的字段名不能重复。
  • 表中所有字段的记录数一致。

表结构数据的优势

  • 几乎所有数据分析工具都支持表结构的存储格式,可以非常轻松地关联并整合多种不同数据源的数据。
  • 以字段为基本计算单位,运算效率要高于以单元格为计算单位的表格数据,可以对海量数据进行批量计算。
  • 可以在不同表间建立关联关系,将不同维度数据表整合为一个完整的多维数据集,创建统一的数据分析平台,解决信息孤岛问题。
  • 通过搭建多维数据平台,在不同维度下对度量进行汇总观测。

横向连接

表是相关字段的集合,而不相关的字段是存放在不同数据表中的,如果要汇总不同表中的数据,就需要把多个数据表连接起来,生成一个完整的数据源来提取我们需要的数据进行汇总分析。横向连接就是用表中共有的关键字段,将多个表连接起来补充字段信息。
多表连接的结果通过三个属性决定:

  • 方向性:在外连接中写在前边的表为左表、写在后边的表为右表。
  • 主附关系:主表要出所有的数据范围,附表与主表无匹配项时标记为null,内连接时无主附表之分。
  • 对应关系:关键字段中有重复值的表为多表,没有重复值的表为一表。
对应关系
  • 一对一
    在这里插入图片描述
  • 一对多或多对一
    在这里插入图片描述
  • 多对多
    在这里插入图片描述
连接方式

两种基本的连接方式:内连接和外连接(左连接、右连接、全连接)。
为方便演示,我们以两表连接为例。
在这里插入图片描述在这里插入图片描述

  • 内连接:按照连接条件合并两个表,返回满足条件的行。
    在这里插入图片描述
  • 左连接:结果中除了包括满足连接条件的行外,还包括左表的所有行。
    在这里插入图片描述
  • 右连接:结果中除了包括满足连接条件的行外,还包括右表的所有行。
    在这里插入图片描述
  • 外连接:按照连接条件合并两个表,返回两个表中的所有行。
    在这里插入图片描述

维度与度量

表结构数据中的字段作为不同分析角色使用时也被称为变量,分为离散型变量和连续型变量。离散和连续是数学上的概念,离散指“各自分离且不同”,连续指“构成一个不间断的整体”。
不同的分析角色分为维度和度量。
维度:一般为离散型变量,用来分组的分类字段。
名义型变量:字段中的值与值之间没有顺序关系,只单纯用来定义名称的变量,如:姓名、性别、血型等。
有序型变量:字段中的值与值之间有顺序关系但不连续的变量,如:学历、职称、 舱位等。
度量:一般为连续型变量,用来汇总观测的指标值。
连续型变量:字段中的值与值之间不仅有顺序关系而且值与值之间取值连贯的变量,如:年龄、价格、数量等。
常见的聚合方法:总和、平均值、计数、最大值、最小值等。

聚合度量

表中的维度可以进行分组汇总,表中的度量可以进行聚合运算。

  • 维度的汇总是将原始数据中相同的多行值汇总为一行值的过程。
  • 度量的聚合是将原始数据中相同维度值对应的多个度量值按照运算规则计算为一个值的过程。
    在这里插入图片描述

横向连接汇总的注意事项

一对多的表连接时,一表的度量值会在多表重复项下翻倍。
多对多的表连接时,多表的度量值都会翻倍。
因此,在一对多的表连接时,一表汇总维度,多表聚合度量,而多对多的表连接一般不用作汇总分析。
在这里插入图片描述
关键字段有非匹配项时,出维度的表作为主表进行连接时可以保证维度的完整性,出度量的表作为主表进行连接时可以保证度量值的准确性。因此,我们可以根据业务需求选择合适的连接方式。
在这里插入图片描述

纵向合并

表结构数据中的纵向合并就是在一个表中追加另一个表中的记录。
在这里插入图片描述在这里插入图片描述

  • 两张表必须拥有相同数量的字段。
  • 两张表字段的顺序必须相同。
  • 两张表对应字段的数据类型必须一致。
    在这里插入图片描述

http://chatgpt.dhexx.cn/article/bGkCHyFn.shtml

相关文章

数据库表结构关系图生成

Navicat for mySQL 如有你有这个数据库的工具的话,就可以直接将你建好的数据库表直接生成模型图。 打开Navicat,连接我们的数据库 打开数据库表 点击右下角的几个按钮 随便点击试一下,最后你会发现点击从左数第三个的时候,会变成…

MySQL表结构设计

MySQL表结构设计包括:字段类型选择 物理存储设计 表的访问设计。 数字类型 整型类型 在整型类型中,有 signed 和 unsigned 属性,其表示的是整型的取值范围,默认为 signed。在设计时,我不建议你刻意去用 unsigned …

数据库2 表结构的创建

一、内容 数据库YGGL包含下列3个表:Employees(员工自然信息)表、Department(部门信息)表和Salary(员工薪水情况)表,表的结构分别如下所示。 表1 Employees表结构 列名 数据类型…

查询数据库表结构

开发工作中经常碰到需要将表结构发送给团队的其他同事,一个一个粘贴效率太低,可以使用sql查询导出查询结果的方式简单搞定。以navicat为例: 1、新建一个查询窗口,输入如下sql: SET i 0; SELECT( i : i 1 ) 序号,CO…

数据库中表结构

这篇文章主要展示实例中表中的数据: 总共有如下的表: 文章目录 1:表中的数据1、customers2、orderitems3、orders4、productnotes5、products6、vendors 2:创建表的SQL代码:2.1、creat.sql2.2、populate.sql 1&#…

2023年深圳杯数学建模D题基于机理的致伤工具推断

2023年深圳杯数学建模 D题 基于机理的致伤工具推断 原题再现: 致伤工具的推断一直是法医工作中的热点和难点。由于作用位置、作用方式的不同,相同的致伤工具在人体组织上会形成不同的损伤形态,不同的致伤工具也可能形成相同的损伤形态。致伤…

2023深圳杯(东三省)数学建模B题思路 - 电子资源版权保护问题

1 赛题 B题 电子资源版权保护问题 版权又称著作权,包括发表权、署名权、修改权、保护作品完整权、复制权、发行权、出租权、展览权、表演权、放映权、广播权、信息网络传播权、摄制权、改编权、翻译权、汇编权及应当由著作权人享有的其他权利。 在计算机网络广泛…

2018深圳杯数学建模A题

做的还不是很完善,还请大家多多提意见 2018思特奇杯数学建模竞赛题目 (请严格遵守对论文格式的统一要求) A题-人才吸引力评价模型研究 在世界各国和全国各地都加大争夺人才的背景下,一个城市要保持其竞争活力和创新力&#xff0…

2023年深圳杯数学建模A题影响城市居民身体健康的因素分析

2023年深圳杯数学建模 A题 影响城市居民身体健康的因素分析 原题再现: 以心脑血管疾病、糖尿病、恶性肿瘤以及慢性阻塞性肺病为代表的慢性非传染性疾病(以下简称慢性病)已经成为影响我国居民身体健康的重要问题。随着人们生活方式的改变&am…

2023年深圳杯数学建模C题无人机协同避障航迹规划

2023年深圳杯数学建模 C题 无人机协同避障航迹规划 原题再现: 平面上A、B两个无人机站分别位于半径为500 m的障碍圆两边直径的延长线上,A站距离圆心1 km,B站距离圆心3.5 km。两架无人机分别从A、B两站同时出发,以恒定速率10 m/s…

2023年深圳杯数学建模 A题 影响城市居民身体健康的因素分析

以心脑血管疾病、糖尿病、恶性肿瘤以及慢性阻塞性肺病为代表的慢性非传染性疾病(以下简称慢性病)已经成为影响我国居民身体健康的重要问题。随着人们生活方式的改变,慢性病的患病率持续攀升。众所周知,健康状况与年龄、饮食习惯、…

2020深圳杯数学建模C题

2020深圳杯C题(已更新) 之前发过一篇文章,现在已经更新文章部分内容 无线可充电传感器网络充电路线规划 基于蚁群算法和模拟退火算法 无线传感网络中的充电器需要定期充电,一个好的充电路线规划对维持无线传感网 络正常工作有着…

2022年深圳杯数学建模D题复杂水平井三维轨道设计解题全过程文档及程序

2022年深圳杯数学建模 D题 复杂水平井三维轨道设计 原题再现: 在油气田开采过程中,井眼轨迹直接影响着整个钻井整体效率。对于复杂水平井,较差的井眼轨迹很可能会造成卡钻或施加钻压困难等重大事故的发生。因而,在施工之前分析影…

2022年深圳杯数学建模B题基于用电可靠性的配电网规划解题全过程文档及程序

2022年深圳杯数学建模 B题 基于用电可靠性的配电网规划 原题再现: 如果一批用户变压器(下面简称用户)仅由一个电源变电站(下面简称电源)供电,称为单供。这时配电网由电线和开关联接成以电源为根节点的树状…

2021深圳杯数学建模D题---基于DDPG算法的微分博弈问题(思路及代码)

文章目录 前言思路代码gym环境DDPG算法测试代码 结果一只犬一只羊的情况回报收敛的趋势图羊的逃逸路径犬的追捕极角羊的逃逸极角羊的逃逸半径 两只犬一只羊的情况回报收敛的趋势图羊的逃逸路径羊的逃逸极角羊的逃逸半径犬1的追捕极角犬2的追捕极角 conda环境配置 前言 此次拿深…

代码质量管理 阿里Java插件 + Upsource

代码审查的方式 代码审查主要有两种方式: 1. pre-push:在提交合并代码之前,先进行审查,通过和才能合并。这是一种非常严格的审查方式,可以确保每个发布的代码都是已经被审查过的。这种放到在github上维护的开源项目极其合适,代码的所有者可以确保代码是在自己…

windows10安装upsource后更改访问IP地址

前两天办公室网络总是断开,我电脑的ip就从原来的192.168.2.7 变更为 192.168.2.14,在此之前我安装了upsource,访问的ip地址一直是192.168.2.7 ,自从ip变更后,启动upsource系统自动还是会去访问192.168.2.7这个旧地址&a…

代码Review工具upsourse的部署

第1步 解压压缩包找到Upsource目录下的bin目录下的upsource.bat文件,双击启动 进入bin目录 第2步 运行命令行工具,直接把upsource.bat文件拖入命令行工具后空格输入start回车,等待系统安装完即可 第3步 start执行完毕后会打开默认设置的…

Upsource集成Gitlab的身份验证

第一步 打开Upsource,进入到Hub 第二步 进入到Auth Modules 第三步 New module -> Gitlab 第四步 复制下这个Redirect URL,后面有用 第五步 使用管理员账号登录到Gitlab,并打开Settings 第六步 看图 第七步 得到我们的…