数据挖掘简介
数据挖掘(Data Mining, DM)是指从大量数据中提取或“挖掘”知识。数据挖掘是在大量数据中寻找新的有趣模式和关系的科学。它被定义为“通过挖掘存储在仓库中的大量数据来发现有意义的新关联,模式和趋势的过程”。数据挖掘有时也称为数据库知识发现(Knowledge Discovery in Databases,KDD)。它已成功应用于生物信息学中,该技术需要丰富的数据,并对已有的数据进行挖掘,并常常应用于生物学中的基因表达,蛋白质建模,生物标记物鉴定,药物发现等。新数据挖掘方法的开发提供了一种迅速扩展生物数据的有用方法。目前,数据挖掘方法已广泛用于生物信息学数据分析的各个发现。
生物信息学
生物信息学是一门存储,分析和利用来自生物数据(例如基因组数据,转录组数据,蛋白质组数据,微生物数据,代谢组数据,微阵列芯片数据以及通过湿法实验生成的数据)信息的科学。利用这些数据进行挖掘和分析序列,分子,基因表达或途径信息。同样,新型数据挖掘方法的开发将在生物信息学数据分析中发挥重要作用。
数据挖掘的任务
数据挖掘是从现有数据自动生成信息的过程。 数据挖掘的主要目标是“预测”和“描述”。 数据挖掘可以执行的主要任务如下:
- 分类: 分类是对输入数据项分类为几个预定义类别(即现有数据)之一的功能。
- 估计:对于给定的输入数据,得出一些未知连续变量的值。
- 预测:与分类和估计相同,但不同之处在于记录方式是根据将来的结果或者评估值进行分类的。
- 关联规则:确定哪些数据组合在一起,也称为依赖关系建模。
- 聚类:将总体的元素通过聚类分析分为多个组或类。
- 描述和可视化:对数据进行描述或者使用可视化技术表示数据。
数据挖掘流程
FIG1. Process of Knowledge Discovery through Data Mining.
图片来源:https://littlefield.co/an-introduction-into-data-mining-in-bioinformatics-964511e9ea21
数据挖掘在生物学领域中的应用
随着测序技术和生物信息学的发展,越来越多的生物学数据以及数据库产生,存储了大量的生物学数据。因此,通过数据挖掘的方法对现有数据进行挖掘并有效利用,变得越来越重要。
生物医学领域:使用数据挖掘技术有助于在生物医学产业的特定领域内进行全面的研究。并且使研究人员可以更好地了解生物学机制,以便在医疗保健和生命知识领域发现新的治疗方法。
动植物研究:对不同的物种数据库数据进行整合分析,研究不同物种之间的进化关系。对同一物种的不同组学数据库数据进行整合分析,全面系统地对此物种生物学机制进行研究。
参考文献
- Zaki M J ,et al. Data Mining in Bioinformatics (BIOKDD)[J]. Algorithms for Molecular Biology Amb, 2007, 2(1):4-4.
- Khalid R . Application Of Data Mining In Bioinformatics[J]. Indian Journal of Computer Science and Engineering, 2010, 1(2).
- Momeni Z, et al. A Survey on Single and Multi Omics Data Mining Methods in Cancer Data Classification[J]. Journal of Biomedical Informatics, 2020, 107:103466.


















