浅析海量数据处理问题

article/2025/9/25 9:24:00

生活中我们经常会遇到一些海量数据处理的问题,那么怎样的问题就算是海量数据了呢?来看以下这几个问题:

  1. 给定一个大小超过 100G 的文件, 其中存在 IP 地址, 找到其中出现次数最多的 IP 地址 。
  2. 给定100亿个整数, 找到其中只出现一次的整数(位图变形, 用两位来表示次数)。
  3. 有两个文件, 分别有100亿个query(查询词, 字符串), 只有1G内存, 找到两个文件的交集。
  4. 给上千个文件, 每个文件大小为1K - 100M, 设计算法找到某个词存在在哪些文件中。

首先第一个问题很明确有100G的数据;第二个问题100亿个整数所占的空间大小是:100亿*4byte = 40G;第三个问题100亿也就是10G……要知道我们日常使用的电脑也就是4G、8G的内存大小,远不能满足这里的100G、40G……的数据处理的需求。但是我们又必须要处理类似这样的问题,难道就束手无策了么!!!
为了解决类似这样的问题,我们可以借助之前学的哈希表,位图,布隆过滤器这样的数据结构,接下来我们来了解一下相关知识。

哈希表
详情请移步:哈希表

位图
详情请移步:位图

布隆过滤器
详情请移步:布隆过滤器

哈希切分

所谓的切分就很好理解,就是将一个东西切分开,将一个整体划分为多个更小的小整体。那么这里的哈希切分又是什么操作呢?提到哈希我们就要想到这其中使用了哈希函数,同样 的哈希切分,也需要用到哈希函数,只不过我们这里使用哈希函数的目的在于将一个大文件分割成多个小文件。具体做法就是,我们通过哈希函数计算大文件中的每一个数据的哈希地址,将哈希地址相同的数据存放到同一个地方,所以这里的哈希地址也就是我们新的存放数据的地方(小文件)的编号,这就叫做哈希切分,哈希切分达到的最终的目的就是将相同规律(比如说相同的IP地址,相同的单词)的数据一定是存放在同一个文件中,但同时该文件中也会有其他的不符合同一规律的数据。

了解完相关知识,现在我们就来解决一下先前提到的4个海量数据问题的处理。

1、给定一个大小超过 100G 的文件, 其中存在 IP 地址, 找到其中出现次数最多的 IP 地址(hash文件切分) 。

答:首先我们看到100G的数据,肯定是不能直接处理的。
那么我们就可以考虑使用哈希切分的方法,先将这100G的数据进行切分,切分完成以后就会有多个小文件,按照题目的要求,我们切分完以后,IP相同的一定都在同一个文件中。现在我们就可以借助哈希表,哈希表存在一个键值对(key和value:初始化均为0)。依次遍历每一个小文件,读取其中的数据,通过哈希函数计算哈希地址,如果当前数据还没有存入(对应的key为0)则将对应的哈希地址的key置为1,value值加1。如果发现数据已经被存入过了,则就直接将对应位置的value(出现次数)值加1即可。所有的小文件中的数据遍历完成以后,所有的ip地址已经存入到哈希表中;最后一步,根据哈希表中的value(ip地址出现的次数)进行排序,记录当前出现次数最多的ip地址即可。

2、给定100亿个整数, 找到其中只出现一次的整数(位图变形, 用两位来表示次数)。

答:此时我们可以采用位图来解决。之前我们实现的位图是用一位bit位来标识一个数据是否存在(bit位为1)或者不存在(bit位为0),显然我们继续采用这样的设计并不能解决我们的问题,此时我们只需要扩展一下,用两个bit位。两个bit位就有4种状态:00->表示没有出现,01->表示出现一次,10和11则表示出现的次数超过1次。接下来我们就将处理数据(对应到位图当中),处理完成以后显然我们就可以很轻松的知道谁是只出现一次的数据。

3、有两个文件, 分别有100亿个query(查询词, 字符串), 只有1G内存, 找到两个文件的交集(hash文件切分 + 布隆过滤器)。

答:首先我们分析过数据规模很大,没有办法直接处理。那么我们先采用哈希切分减小问题规模。采用哈希切分将两个文件切分成多个文件,切分完毕以后,就有两组多个小文件
(f1.1,f1.2,f1.3,f1.4,f1.5……和f2.1,f2.2,f2.3,f2.4,f2.5……)
接下来我们将其中一组所有小文件的数据采用布隆过滤器存储,然后在处理第二组所有的小文件中的数据,可想而知,当我们在处理第二组小文件中的数据,如果遇到了相同的数据我们一定就会发现(这里布隆过滤器的作用就是判断某字符串是否存在于一堆数据中),那么当我们发现遇到相同的query就直接将该query放入一个保存最终结果的文件中即可,第二组所有的小文件中的数据处理完毕我们也就找出了这两个文件的交集。

4、给上千个文件, 每个文件大小为1K - 100M, 设计算法找到某个词存在在哪些文件中(倒排索引)。

这里我们先来看一下倒排索引。(注意这里说的倒排和正排索引只是一个相对的概念,一个叫正排索引那么剩下的这一个就叫做倒排索引)
这里写图片描述

答:1、首先我们先将每个文件的数据对应的存到一个布隆过滤器中(注意:数据存储完毕以后我们将得到上千个布隆过滤器,每一个文件对应一个布隆过滤器)。
2、然后我们在读取每一个布隆过滤器中的词,并且记录每一个词对应的所在文件,用一个文件(info)保存词和其所对应的文件信息。(倒排索引)
3、现在我们已经得到了所有的词,那么将这些词分为几个小部分,分别存储到布隆过滤器中(如果单词数量足够大,又u只将其存储到一个布隆过滤器中的话,可能内存会不够用)。
4、现在我们拿到一个单词需要判断他存在于哪些文件中,那么我们就先在存储单词的布隆过滤器查找(布隆过滤器的基本操作:查找某个字符串是否存在),该单词是否存在:
4.1如果不存在则取下一个存储单词的布隆过滤器查找,如果所有的布隆过滤器都查找完了并且都没有找到该单词,那就说明该单词在这上千个文件中没有出现过;
4.2如果我们在某一个存储单词的布隆过滤器中找到了该单词,就说明该单词在这上千个文件中出现过。
5、此时我们就可以去info文件中查找到该单词,那么也就知道该单词在哪些文件中出现过了。

总结一下,处理海量数据的思路,如下图:
这里写图片描述


http://chatgpt.dhexx.cn/article/QmUFnTlu.shtml

相关文章

教你如何迅速秒杀掉:99%的海量数据处理面试题

教你如何迅速秒杀掉:99%的海量数据处理面试题 本文经过大量细致的优化后,收录于我的新书《 编程之法:面试和算法心得》第六章中,新书目前已上架 京东/ 当当 作者:July出处:结构之法算法之道blog 前言 一般而…

ORACLE如何处理海量数据

当前数据存在的问题: 一、 数据量过大,数据中什么情况都可能存在。如果说有10条数据,那么大不了每条去逐一检查,如果数据上到千万级别,甚至过亿,那不是手工能解决的了,必须通过工具或者程序进行处理,尤其海量的数据; 二、 软硬件要求高,系统资源占用率高。对海量的…

海量数据处理的 Top K相关问题

全栈工程师开发手册 (作者:栾鹏) python数据挖掘系列教程 Top-k的最小堆解决方法 问题描述:有N(N>>10000)个整数,求出其中的前K个最大的数。(称作Top k或者Top 10) 问题分析:由于(1)输…

海量数据处理面试题集锦

十七道海量数据处理面试题与Bit-map详解 作者:小桥流水,redfox66,July。 前言 本博客内曾经整理过有关海量数据处理的10道面试题(十道海量数据处理面试题与十个方法大总结),此次除了重复了之前的10道面试题…

海量数据处理问题

转自 作者:July出处:结构之法算法之道blog 前言 一般而言,标题含有“秒杀”,“99%”,“史上最全/最强”等词汇的往往都脱不了哗众取宠之嫌,但进一步来讲,如果读者读罢此文,却无任何…

海量数据的常见处理算法

海量数据的处理算法 海量数据处理,就是基于海量数据上的存储、处理、操作。海量就是数据量太大,所以导致要么是无法在较短时间内迅速解决,要么是无法一次性装入内存。 解决办法: (1)针对时间,可以采用巧…

海量数据处理技巧-转载

[-] 教你如何迅速秒杀掉99的海量数据处理面试题前言何谓海量数据处理第一部分从setmap谈到hashtablehash_maphash_set 第二部分处理海量数据问题之六把密匙密匙一分而治之Hash映射 Hash_map统计 堆快速归并排序密匙二多层划分密匙三Bloom filterBitmap Bloom filterBitmap 密匙…

海量数据处理面试题

前言 一般而言,标题含有“秒杀”,“99%”,“史上最全/最强”等词汇的往往都脱不了哗众取宠之嫌,但进一步来讲,如果读者读罢此文,却无任何收获,那么,我也甘愿背负这样的罪名&#xff…

海量数据处理:算法

海量信息即大规模数据,随着互联网技术的发展,互联网上的信息越来越多,如何从海量信息中提取有用信息成为当前互联网技术发展必须面对的问题。 在海量数据中提取信息,不同于常规量级数据中提取信息,在海量信息中提取有…

分布式系统与海量数据处理

科技发展带来的挑战 在科技的快速发展推动下,在 IT 领域,企业会面临两个方面的问题。 一是如何实现网站的高可用、易伸缩、可扩展、高安全等目标。为了解决这样一系列问题,迫使网站的架构在不断发展。从单一架构迈向高可用架构,…

海量数据处理的方法总结

基础知识: bit:位byte:字节1 byte 8 bit int 类型为 4 byte,共32位bit,unsigned int也是2^32 byte 4G 1G 2^30 10.7亿 海量数据处理概述: 所谓海量数据处理,就是指数据量太大,无法…

海量数据处理算法

原文地址:http://www.2cto.com/kf/201606/519107.html 海量信息即大规模数据,随着互联网技术的发展,互联网上的信息越来越多,如何从海量信息中提取有用信息成为当前互联网技术发展必须面对的问题。 在海量数据中提取信息&#xff…

我的《海量数据处理与大数据技术实战》出版啦!

我是如何持续写作的? 其实,关于写作,我也没多想,就是想着总结自己学习和工作中遇到的一些问题。我最开始写文章并不是在CSDN或者其他的一些博客平台,而是在QQ空间。那时的我还在上学,在QQ空间里写下了自己…

海量数据处理--离线批处理技术(Hadoop)

一、概述 大数据领域的两大难题: 1、存储 2、处理 解决方案:Hadoop解决类存储和处理的两大难题,其主要提供两大核心技术: 1、Hadoop分布式文件系统 2、MapReduce并行计算 二、Google核心云计算技术 海量数据存储的三大核心…

海量数据处理技巧

数据时代来临,数据量的爆炸式增长是最为显著的特征。当高性能硬件的普及还跟不上这样的数据大潮时,如何在有限的时空资源内处理海量数据成为了计算机科学以及数理统计等领域最大的挑战。 所谓“数据处理”,在本文中特指通过计算机技术,对海量数据进行存储、统计、查询等操…

Mysql海量数据处理

一说海量数据有人就说了直接用大数据,那只能说不太了解这块,为此我们才要好好的去讲解一下海量的处理 海量数据的处理分为两种情况 1)表中有海量数据,但是每天不是很快的增长 2)表中有还流量数据,而且每天很…

海量数据处理方法总结

目录 海量数据处理算法与数据结构基础海量数据处理方法归纳分而治之 / hash 映射 hash 统计 堆 / 快速 / 归并排序多层桶结构Bitmap / Bloom filterBitmapBloom filter Trie树/数据库/倒排索引Trie树数据库索引倒排索引(Inverted index) 外排序分布式处理之Hadoop/Mapreduce …

如何解决海量数据的处理问题

一、海量数据,为高效查询,如何处理?分库分表会带来哪些副作用?可能的解决方式有哪些? 目前经常使用的关系型数据库如 MySQL、SQL Server 等,都是以“行”为单位进行存储,为了快速检索&#xff…

海量数据处理

目录 补充 1.位图应用 (1)给定100亿个整数,设计算法找到只出现一次的整数 (2)给两个文件,分别有100亿个整数,我们只有1G内存,如何找到两个文件的交集 (3)一个文件有100亿个整数,1G内存,设计算法找到出现…

H264视频码流格式浅析

针对H264码流格式说明,网上已经有很多介绍了,最近也在看这个,这里根据自己理解,做个记录。 1、H264的功能分为两层:视频编码层(VLC,Video Coding Layer)和网络提取层(NAL, Network Abstraction Layer)。VLC数据即 编码…