使用TSDB自动检测时序数据的异常情况

article/2025/9/2 20:43:37

本期Jesse就带大家来继续了解一下TSDB的应用问题,小伙伴们,让我们直接步入正题吧。 

本文仅代表个人观点,如有偏颇之处,还请海涵~

现今,每天都有数千亿个传感器产生大量时序数据。公司收集大量数据使得分析和收集洞察力变得具有挑战性。机器学习正在极大地加速时序数据分析,公司希望能够理解并根据他们所积累的时序数据采取行动,以推动重大的创新和改进。有相关分析报告指出,到2025年将有超过1万亿个传感器可用,并生成时序数据。越来越多企业也开始通过SaaS平台的形式将机器学习应用于时序数据,他们通过自动化异常检测和标记过程,然后迭代这些过程以改进数据模型,使其更加有用和高性能。然后服务于航空航天、汽车、电信以及拥有处理大量传感器、遥测和IoT数据的垂直行业。

TSDB存储平台核心

异常检测平台一般依赖TSDB作为其数据存储。在使用TSDB之前,很多公司的技术团队也尝试了多种组合,包括关系数据库、NoSQL数据库以及Hadoop和OpenTSDB的组合,它们本质上是一个NoSQL数据库,针对时序数据进行一些调整。但这些解决方案都无法提供处理异常检测平台所需的时序数据的速度和功能。尤其是开源时序数据库,其拥有着活跃的开发者社区,使用他们可以使这些异常检测平台公司的数据科学家能够专注于数据科学和机器学习,而不是时间序列存储。

异常检测平台从将数据发送到TSDB的数据收集API开始。由于其需要与许多不同的系统交互,平台还构建了一个REST API,作为一个通用层,可以轻松连接到其他技术堆栈。通过该API层,平台可以从TSDB中查询数据以进行可视化。机器学习处理层可以访问相同的数据进行分析,并将处理后的数据写入TSDB存储,以进行更深入的分析和微调数据模型。

机器学习挑战

虽然使用TSDB极大提升了平台的存储效率,但在将机器学习应用于时序数据时仍然存在一些挑战。一是连续数据摄取。系统全天候收集数据,这会消耗一定量的处理资源。这就需要我们保持对这种资源消耗的认识,并将其纳入将同时运行的其他流程中,以便他们可以优化连续和非连续工作负载,以提供预期的用户体验。第二个挑战是构建数据模型需要大量数据,这意味着非常大的读取操作。而且,学习过程需要快速,同时可以与其它过程共享资源。这就是REST API的作用,其将任何读取问题整合到一个技术层中,无论在其上运行什么进程或系统。

异常检测

平台为建模和异常检测提供了许多不同的算法,用户可以为他们的数据和业务目标选择最佳选项。然而,无论算法如何,机器学习都需要大量数据。例如,要开始使用一类SVM或隔离森林算法构建异常检测模型,我们至少需要100万个数据点。在60点窗口上计算特征,这是标准的秒或小时级别,会产生15,000个窗口供算法学习。实际上,这并不多,这只是一个系列的因素。包含多个系列的模型需要为每个附加系列增加一百万个数据点。因此,包含三个系列的模型需要300万个数据点才能生成基本模型。有些算法需要更多的数据。长短期记忆算法需要学习原始数据的特征,这意味着在学习阶段需要500万到1000万个数据点。异常检测的一个重大挑战是缺乏数据的底线真实性。因此,可能会出现误报和误报。为了减轻这些异常情况,机器学习算法需要更多关于数据的信息。这就是标签的用武之地。

使用机器学习标记数据

标签是数据集上的额外信息。标签帮助算法更多地了解数据,从而使用户能够用它做更好的事情。一种方法是,标签通过从数据集中删除异常来帮助机器学习。这有助于为数据建立更真实的基线。标记大型数据集是一项巨大的时间投入。这也是训练机器学习算法的一个关键方面,数据科学家花费了大量时间标记数据。异常检测平台自动识别异常,使数据科学家更快、更轻松地找到他们需要标记的东西。平台的标签功能还允许用户手动识别数据集中的多个标签。然后它使用AI来检查该系列的其余部分并找到类似的模式。这会生成更多标签,从而产生更多关于系列的信息,以及更准确的数据模型。

在整个异常检测和标记过程中,平台使用查询语言从TSDB查询数据的用户生成数据可视化,因为它可以快速返回大型数据集。TSDB提供的后端功能使公司能够专注于数据科学,而不是基础设施,并提供客户想要的最终用户体验。

本期就到这里我们下期再见。

CnosDB简介

CnosDB是一款高性能、高易用性的开源分布式时序数据库,现已正式发布及全部开源。

欢迎关注我们的社区网站:https://www.cnosdb.com


http://chatgpt.dhexx.cn/article/PX70Nus3.shtml

相关文章

TSDB 存储引擎介绍

本文介绍 DolphinDB 在2.0版本中新推出的存储引擎 TSDB。 1. OLAP 与 TSDB 适用的场景 OLAP 是 DolphinDB 在2.0版本之前的唯一存储引擎。数据表中每个分区的每一列存为一个文件。数据在表中的存储顺序与数据写入的顺序一致,数据写入有非常高的效率。 OLAP 引擎的…

TSDB与Blockchain

各位小伙伴们我们又见面了,伴随着区块链技术的推广,很多企业也在思考是否将其应用。其实TSDB与区块链有很多共通之处,本期Jesse就来和大家聊聊TSDB与区块链。本文参考了Nicolas Hourcard的文章“You Don’t Need a Blockchain, You Need a Ti…

FlashDB嵌入式数据库之TSDB数据存储解析

一、驱动层:SFUD(Serial Flash Universal Driver) 是一款开源的串行 SPI Flash 通用驱动库 二、中间层:FAL(FLASH ABSTRACTION LAYER))FLASH 抽象层 三、应用层:FlashDB(FlashDB 是一…

时间序列数据库 (TSDB)

参考文档:时间序列数据库 TSDB_时间序列数据库 TSDB-阿里云帮助中心 什么是时序数据库 时序数据是随时间不断产生的一系列数据,简单来说,就是带时间戳的数据。数据可能来自服务器和应用程序的指标、物联网传感器的读数、网站或应用程序上的…

TSDB在高速公路大数据平台的应用

好久没有跟大家聊TSDB的应用场景了,Jesse也在国庆期间进行了补课,今天就跟大家聊聊TSDB在高速公路大数据平台的应用。本文借鉴了郝建明、袁逸涛发表在《上海船舶运输科学研究生学报》的《基于时序数据库的高速公路数据集成平台》一文,感谢二位…

时序数据库(TSDB)

时序数据库(TSDB)是一种特定类型的数据库,主要用来存储时序数据。随着5G技术的不断成熟,物联网技术将会使得万物互联。物联网时代之前只有手机、电脑可以联网,以后所有设备都会联网,这些设备每时每刻都会吐…

TSDB数据库

目录 为什么需要时序数据库: 时间序列数据库的特点: 常见的时间序列数据库: 时间序列数据库存储: 时间序列数据库问题: 参考资料: 内容是在我球的docs上直接复制过来的,懒得写两份&#x…

关于时许数据库的相关名词解释

1 时序数据库TSDB 英文全称为 Time Series Database,提供高效存取时序数据和统计分析功能的数据管理系统。 2 时序数据(Time Series Data) 基于稳定频率持续产生的一系列指标监测数据。例如,监测某城市的空气质量时&#xff0c…

物联网平台搭建的全过程介绍(六)——物联网TSDB之基本知识及读写代码介绍

目录 一、TSDB基本知识 二、物联网平台数据流通架构 三、TSDB数据结构 1、TSDB数据包的组成 2、TSDB的另外两个相关概念 四、阿里云物联网平台实例内TSDB功能介绍 1、数据写入 (1)需要添加的依赖 (2)写入数据代码 2、数据…

ES6—简介

目录 一、概述 二、扩展:Babel转码器 三、拓展:编译打包 一、概述 概念 ES6全称ECMAScript 6.0,是Javascript语言的下一代标准,2015年6月正式发布。 注意,ES6既是一个历史名词,也是一个泛指,…

深入浅出ES6(一):ES6是什么

深入浅出ES6(一):ES6是什么 作者 Jason Orendorff ,译者 刘振涛 发布于 2015年6月5日 | http://www.infoq.com/cn/articles/es6-in-depth-an-introduction 我的阅读清单 编者按:ECMAScript 6离我们越来越近了&#…

[ 前端开发 ] 为什么要学习ES6?

ECMAScript 6 概念 ECMAScript 6 简称 ES6 为什么要学习ES6? ES6 是 JavaScript 的下一个版本标准,诞生于2015年6月份。ES6 的主要目的是为了解决 ES5 的先天不足。ES6 的终极目标是为了使 JavaScript 语言可以用来编写复杂的大型应用程序,成为企业…

前端基础之ES6

ES6 ES6简介 ES6实际上是一个泛指,泛指ES2015及后续版本 为什么使用ES6? 每一次标准的诞生都意味着语言的完善,功能的加强。JavaScript语言本身也有一些令人不满意的地方。 变量提升特性增加了程序运行时的不可预测性语法过于松散&#x…

第一节:ES是什么?ES6是什么?

系列文章目录 第一节:ES是什么?ES6是什么? 文章目录 系列文章目录前言一、ES是什么?二、ES6是什么? 前言 学习一下ES,都是自己学习的总结和理解,大家有什么问题都可以提出,一起讨论…

1.什么是ES6,为什么使用它

1.什么是ES6? ECMAScript 6(以下简称ES6)是JavaScript语言的下一代标准,已经在2015年6月正式发布了。Mozilla公司将在这个标准的基础上,推出JavaScript 2.0。ES6主要是为了解决ES5的先天不足,比如JavaScri…

ES6是什么

ES6是什么 ECMAScript 6.0(以下简称 ES6)是 JavaScript 语言的下一代标准,已经在 2015 年 6 月正式发布了。 它的目标,是使得 JavaScript 语言可以用来编写复杂的大型应用程序,成为企业级开发语言。 现在大部分的编…

ES6是什么?通俗理解

1.了解一门语言,首先要搞明白它到底是什么? ECMA (Eurupean Compuler Manuluclurers Assuxiation)中文名为欧洲计算机制造商协会,这个组织的日常是评估、开发和认可电信和计算机标准。19919 年后该组织改名为ECMA国际。 ES6是门脚本语言&…

list集合转换成string字符串

集合转换成字符串 闲来无事&#xff0c;总结了几种list转换成string的方法 第一种 <jdk8新特性&#xff0c;string集合、integer集合均可随意转换成string> 个人觉得这个方法应该属于jdk8的新特性 ArrayList<String> arrayList new ArrayList<String>(){{…

python set转为list_python 怎么把set转成list

今天小就为大家分享一篇python-list,set间的转换实例&#xff0c;具有很好的参考价值&#xff0c;推荐手册&#xff1a;Python 基础入门教程 其实python中&#xff0c;set转list的非常的简单&#xff0c;直接将set的值放入list()的括号中即可&#xff0c;相反&#xff0c;list转…

Java list转set;JDK8 下list 集合转Set 集合

List 集合转Set 集合 1. List 集合和Set 集合的区别 在说如何List集合转Set 集合之前我们先回顾一下 List 集合和Set 集合的区别, 细致上说List 集合和Set 集合的区别还是有蛮多的有兴趣的同学可以去看一下源码&#xff0c;粗糙地讲List 集合和Set 集合的区别主要有那么几点 …