掌握这些数据过滤的技巧,再复杂的业务数据也能高效处理!

article/2025/10/31 16:05:06

随着互联网的飞速发展,呈爆炸式增长的数据使用户逐渐迷失在了信息的海洋之中,在进行数据分析时,海量的业务数据往往会带来一些问题:
准确性差:无效数据以及无需进行分析的数据混杂在其中,导致分析结果与实际偏差较大;
效率低:分析无用数据会带来时间浪费、降低分析效率;
成本高:大量数据往往需要投入巨大的人力和时间成本。
想要解决这些问题,其中一个很重要的方式就是「数据过滤」,数据过滤可以对数据进行指定条件的识别和筛选,从而提升数据质量,为后续的数据分析提供有效数据。
明白了数据过滤的重要性之后,那有什么可以高效进行数据过滤的方法吗?数据过滤主要分为行过滤和列过滤,今天就以Tempo 人工智能平台为例,来大家一起来看一下具体的操作。

行过滤

01、比较运算符
可通过数据过滤节点根据用户设置条件完成行数据的过滤和筛选。
TempoAI高效数据过滤

02、逻辑运算符
TempoAI高效数据过滤

►可通过过程查询分析器节点根据指定的条件从接入的数据表中提取数据,通过配置过滤条件,完成数据过滤操作;
►首先使用关系数据库输入节点和过程查询分析器节点构建流程;
►通过关系数据库输入节点上传全国销售订单数据集;
►通过过程查询分析器节点数据选择页签选择全国销售订单数据集选择所需要的数据;
►通过过程查询分析器节点数据过滤页签配置过滤条件以及且/或关系,比如要实现利润大于50的同时订单数量大于30的情况。流程执行成功后,在洞察查看运行结果。
Tempo人工智能平台,如何进行逻辑运算符过滤
在这里插入图片描述在这里插入图片描述在这里插入图片描述
03、通配符
刚才讲解的条件过滤都是对已知值进行的过滤,还有一种情况是我们要检索文本中包含某个词的所有数据,这里就需要使用通配符。通配符就是我们用来匹配值一部分的特殊字符。
►首先使用关系数据库输入节点和数据过滤节点构建流程;
►通过关系数据库输入节点上传全国销售订单数据集;
►通过数据过滤节点配置过滤条件对包含值进行识别,选择保留满足以下全部条件的数据,比如过滤出数据中顾客姓名包含张的数据;
►流程执行成功后,在洞察查看运行结果。
Tempo人工智能平台,如何进行通配符过滤
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述在这里插入图片描述04、高级数据过滤
1)字段与字段
高级数据过滤可分为字段与字段、去重、单类别个数/占比、参数过滤以及扩展方式。
可通过数据过滤节点实现多个字段间进行查询过滤条件
►首先使用关系数据库输入节点和数据过滤节点构建流程;
►通过关系数据库输入节点上传全国销售订单数据集;
►通过数据过滤节点进行条件配置,完成字段与字段间过滤,比如过滤出利润大于运输成本的数据;
►流程执行成功后,在洞察查看运行结果。
Tempo人工智能平台,如何进行多个字段间的过滤
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
2)数据去重
可通过数据去重节点实现支持用户根据指定的方式对数据集的重复行进行处理。支持两种去重方式:
►去掉所有列的完全重复数据;
►随机保留一行和去掉指定列的完全重复数据。
3)单类别个数/占比
可通过数据过滤节点实现用户对数据中的某个字段的取值个数或占比进行计算,并根据实际业务过滤掉所对应行。
4)参数过滤
参数过滤可通过过程查询分析器节点从接入的数据表中提取数据,根据配置参数,从数据表中进行数据过滤操作。
►首先使用关系数据库输入节点和过程查询分析器节点构建流程;
►点击设置,在流程参数配置页签根据所需筛选条件进行参数配置;
►通过关系数据库输入节点上传全国销售订单数据集;
►通过过程查询分析器节点数据选择页签选择全国销售订单数据集选择所需要的数据;
►通过过程查询分析器节点数据过滤页签配置过滤条件选择根据参数进行过滤;
►流程执行成功后,在洞察查看运行结果。
Tempo人工智能平台,如何进行参数过滤

在这里插入图片描述在这里插入图片描述在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
5)扩展方式
我们还可通过SQL编辑节点、计算列、python编程节点等方式进行数据过滤操作。
平台中的计算列内置了多种函数及逻辑处理语句可帮助我们进行数据选择、汇总组、过滤原始数据、过滤汇总数据、数据排序操作。
►首先使用关系数据库输入节点和过程查询分析器节点构建流程;
►通过关系数据库输入节点上传全国销售订单数据集;
►点击计算列,输入列名及对应表达式进行操作。
Tempo人工智能平台,如何通过扩展方式进行过滤
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

列过滤

01、基于业务过滤
在实际应用中,根据业务情况我们可能还需要查询大于某个值或不等于某个值的条件,通过勾选满足条件的记录数的方式筛选数据,可通过数据过滤节点进行过滤操作。还可以 基于业务的列过滤需要根据业务情况,过滤掉与后续建模或分析无关的列。
02、基于模型过滤
使用统计方法识别数据特征,基于识别特征情况进行数据列过滤。比如说预测设备是否发生故障与维修人员的姓名无关,在建模初期就将维修人员字段过滤。
AI支持通过属性过滤节点读取描述数据特征、woe编码、变量选择和相关系数输出的模型,并通过不同的过滤条件添加字段,从而实现列过滤操作。
这里我们以描述数据特征模型进行说明。使用bankloan数据集进行描述数据,并将模型进行保存。
在这里插入图片描述

►首先使用样例数据节点和属性过滤节点构建流程;
►通过样例数据节点上传bankloan_Classification;
►双击属性过滤节点,选择基于模型选变量;
►选择模型并进行筛选配置,筛选出缺失值占比等于0的字段;
►流程执行成功后,在洞察查看运行结果。
Tempo人工智能平台,如何基于模型过滤
在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述
03、高级过滤
除了支持基于业务和基于模型的列过滤方法之外,我们还支持缺失值处理、自动数据处理、SQL编辑节点等其他方式进行数据列的过滤操作。

总结:
Tempo人工智能平台作为一款通用的、企业级、智能化的数据分析模型构建与数据应用场景设计工具,内置了丰富的数据处理节点,支持行、列和高级等近30余种数据预处理方法,让用户能够灵活地运用多种处理手段对数据进行过滤处理,为挖掘分析做好准备。


http://chatgpt.dhexx.cn/article/hInU6s6Q.shtml

相关文章

阿里云服务器初始化

初始化阿里云服务器 进入阿里云服务器,然后在 配置信息 点击 重新初始化磁盘 接着会出现一个提示框,点击 确认 即可 进入实例云盘中,点击 重新初始化磁盘 然后设置密码 完成这一步后,输入手机验证码。这时阿里云服务器就被初始…

腾讯云服务器如何开启虚拟化,腾讯云服务器虚拟化驱动是什么

腾讯云服务器虚拟化驱动是什么? 云服务器虚拟化驱动,为腾讯自研开发,专门用于虚拟化效率提升的驱动程序,云服务器虚拟化驱动在linux系统中驱动文件名是pvdriver,安装路径:/usr/local/qcloud/pvdriver/bin,在…

金山办公CEO章庆元:数字化、云化、订阅化趋势下,组织数字办公走向纵深

关注ITValue,看企业级最新鲜、最价值报道! 企业办公行业今年有3个关键词——数字化、云化、订阅化。 从数字化来说,国家十四五规划明确提出了“加快建设数字经济、数字社会、数字政府,以数字化转型整体驱动生产方式、生活方式和治…

物联网端-云一体化应用管理解决方案

近年来,随着云计算的发展,“云边端一体化”、“云端协同”等词也频繁出现在大众眼。 什么是“端-云一体化”? 这里我们拆开来解释: 云:云计算、云数据中心; 端:指的是终端。 合起来的意思就是…

CloudCore引领核心网云化转型

文/刘皓 2015年7月,全球著名咨询公司IHS Infonetics发布最新NFV(Network Functions Virtualization,网络功能虚拟化)市场调研报告。报告显示,NFV市场空间将从2014年的9.5亿美元增长到2019年的116亿美元,年…

全面推进云化,使能数字化转型 ——徐直军在2016华为全球分析师大会上的发言

文/徐直军 女士们、先生们,各位老朋友、新朋友,大家上午好!非常高兴在同样的地点跟各位老朋友再相会,也非常欢迎各位新朋友来参加华为2016年的分析师大会。 这次大会的组委会给我定的主题是《全面推进云化,使能数字化转…

阿里云人物动漫化

简介 使用阿里云人物动漫化功能制作一款属于自己的专属头像(该功能收费) 功能描述 人物动漫化能力可以将一张人物图像进行转换处理,生成二次元卡通形象,并返回动漫化后的结果图像。效果示例如下。 原图: 日漫风结果图: 3D特效结…

服务器虚拟化与云平台,虚拟服务器和云有哪些区别

原标题:虚拟服务器和云有哪些区别 虚拟服务器和云有哪些区别?如果不是专业的人员,其实对于服务器是搞不懂的,其实虚拟服务器和云都是对硬件的抽象,两者都有很多好处和使用的理由,那么服务器虚拟化和云的区别…

腾云忆想构建云化IT生态,助力我国“双循环经济”数字化升级

新冠肺炎疫情全球蔓延,世界经济与国际局势瞬息万变。时局变化之中展望“十四五”,我国逐步形成了以国内大循环为主体、国内国际双循环相互促进的新发展格局。在新时局中,数字经济是重要的支撑力量,产业的数字化转型成为不可逆的趋势。 面对时代变局,腾云忆想紧抓历史机遇,与腾…

欢迎参与2020年云栖大会——引领企业基础设施云化

**简介:**2020年9月18日,阿里云邀您参加2020年云栖大会——引领企业基础设施云化分会场。 2020年9月18日,阿里云邀您参加2020年云栖大会——引领企业基础设施云化分会场。 在数字新基建时代,IT基础设施成为企业数字化转型的一个瓶…

何朝曦:构建云化安全能力的三个建议

11月12日,深信服智安全创新峰会在云端拉开帷幕,深信服创始人&CEO何朝曦在《构建云化时代的安全能力》主题演讲中指出,业务云化已成为用户实现数字化转型与变革的重要方式,这种跨时代的变迁对用户的安全能力提出了更高的要求&a…

英特尔TCI技术落地,锐捷网络发布OCS终端云化新品

编辑 | 宋慧 出品 | CSDN 云计算 2021 年 6 月,国内一直深耕桌面虚拟化的厂商锐捷正式发布了新一代云桌面解决方案——锐捷三擎云桌面解决方案( “精耕细作”桌面云市场的锐捷,重磅发布三擎云桌面 ),其中三擎指的是终端…

云服务器虚拟化搭建,虚拟化搭建云服务器

虚拟化搭建云服务器 内容精选 换一换 安装传输工具在本地主机和Windows云服务器上分别安装数据传输工具,将文件上传到云服务器。例如QQ.exe。在本地主机和Windows云服务器上分别安装数据传输工具,将文件上传到云服务器。例如QQ.exe。本地磁盘映射(推荐使用)使用远程桌面连接M…

云化要求下,数据库架构的演进

如今,大型企业如金融企业和银行等,在下一代的微服务架构转型要求下,需要基础软件和数据平台能够实现原生的云化,以满足微服务架构的需求。 微服务,也就是一种面向服务的,有特定边界的松散耦合的架构。 主要…

【术语】本地部署、云化部署、混合部署

本地部署就是由用户在自己本地部署服务器环境,本地管理。 云化部署就是采用云化的方案,也叫SaaS模式,使用厂商提供的云服务器。 混合部署,就是一部分上云,一部分本地。

科技云报道:全面云化时代,企业需要怎样的云安全能力?

科技云报道原创。 云安全,无论何时提起,其重要性都不容小觑。 根据网络安全机构Sophos的研究,云安全事件正在时刻发生。根据该公司发布的《2021年云安全状况》显示,近四分之三的企业遭受了云安全攻击,其中恶意软件、…

如何构建一个基于IEC61499 的“云化PLC“

前不久,国内一些单位联合正式发布了全球首个广域云化PLC(可编程控制器)技术试验成果.一时间"云化PLC "又进入了人们的眼帘. 我不来评价云化PLC 具有的实际意义,只是有许多人想了解如何构建这种云化PLC .在本博文中,我介绍构建这种基…

云化Web IDE,在线开发新模式

目录 前言 一、初识云IDE 二、CSDN 云IDE 1、如何使用云IDE 2、使用云IDE 三、云IDE的使用感受 四、总结 前言 工欲善其事必先利其器,作为程序员,我们在编写代码的时候,一定会选用一款得心应手的工具。就像行走江湖的侠客,手…

企业全面云化的时代——云数据库的未来

云数据库 前言传统数据库的不足云原生数据库的优点1.动态可扩展性2.高可用性3.较低的建设成本4.轻松部署5.高可靠性 云原生数据库容器化什么是容器化?为什么需要使用容器?数据库适合容器化吗?1.数据安全性2.性能问题3.资源隔离 亚马逊云原生数…

SASE 本质探究(1):什么是云化

来源 | 好奇瞅瞅 责编 | 寇雪芹 头图 | 下载于视觉中国 为什么先务虚 说明一下,为什么要写这么“务虚”的一篇: SASE的本质是“面向边缘时代的网络和安全的综合云化”,这里有绕不开几个问题:什么是“云化”?什么是“网…