大数据如果应用不当可能很容易失控,并可能消耗企业资源和预算。在这里将介绍避免混乱的一些大数据的最佳实践。
大数据可以为用户提供卓越的洞察力,也有可能让企业不堪重负。而企业根据其收集数据做出自己的选择。企业面临的主要问题是大数据是由技术专业人员收集的技术解决方案,但最佳实践是其业务流程。
由于资源和输入设备得到爆炸式增长,人们收集到的数据比以往更多。根据IBM公司的调查,大多数美国公司存储的数据量为100TB,而美国的政府部门和企业每年因数据损坏而造成损失高达3.1万亿美元。
然而,企业创建数据湖或数据仓库并将它们存满数据,其中大部分数据未被使用或曾被使用过。企业的数据湖将快速积累成为存满数据的信息池。
最基本的问题是许多数据只得到了部分处理或完全偏离了基础。数据收集不正确或收集手段没有正确定义。企业的业务很明显与大数据有关。
这对于商业数据库中使用的常规的、日常的、小级别的数据来说是个小问题。对于企业来说,需要大数据处理大量的信息。因为其数据的规模巨大,获得收益或混淆的可能性也越大。因此,“正确”变得更为重要。
那么在大数据中“正确”意味着什么呢?
事实是,“大数据的最佳实践”的概念正在演变,因为数据分析领域本身正在迅速发展。不过,企业需要与可能的最佳策略进行竞争。因此提出一些最佳实践,希望企业能够避免被大量无用数据淹没,不会淹没在数据湖中。
(1)定义大数据业务目标
IT行业有一个坏习惯,就是像Hadoop集群这样的新鲜事物容易分散人们的注意力。在企业开始利用大数据分析