为什么arrayList.removeAll(set)的速度远高于arrayList.removeAll(list)?

article/2025/11/8 10:32:46

引言

我们知道,对于集合(Collection)都有一个抽象方法removeAll(Collection<?> c)!

但是你可知道,在集合数据比较多的情况下, ArrayList.removeAll(Set)的速度远远高于ArrayList.removeAll(List)

我简单测试了一下,从1百万数据中remove掉30万数据,前者需要0.031秒,后者需要1267秒!

这不是危言耸听,大家感兴趣可以去实测一下。

探究

类结构分析

先看一下大概的类结构图:

从图中可以看到,图中相关的集合类(HashSetLinkedListArrayList),除了ArrayList自己实现了removeAll()方法外,其他两个集合都是借助父类(或超父类)的Iterator迭代器进行删除。

也许这也是为何ArrayListremoveAll()方法对于不同类型的参数,表现出“与众不同”的原因吧~!

细嚼代码

我们再来细看ArrayList类的removeAll()方法的实现。

为节省各位看官的时间,具体代码我就不贴出来,贴一个伪代码吧,更容易阅读:

如:list.removeAll(subList);//1.将list中不删除的元素移到数组前面(我们知道ArrayList的底层是数组实现)
int w=0; //w为不删除和要删除的分界线
for(var value in 该list的底层数组){if(!subList.contain(value)){该list的底层数组[w]=value;w++;}
}//2.将w后面的元素全部置为null
xxx

其中,我们可以看到影响速率关键的一步:subList.contain(value)

所以速率的差异,其实也就在于参数集合.contain()方法的差异~

HashSet.contains() vs ArrayList.contains()

  1. ArrayList.contains()

实现很简单,即调用indexOf(),一个一个地遍历查找。最坏时间复杂度为O(总数据量)

  1. HashSet.contains()

我们知道,HashSet的底层是HashMap,因此,实际也就是调用map.containKey()方法。

大家都知道,HashMap的查找速度非常快!

因此,到这里,我们也就解释题目的问题。同时也知道了,在数据量比较大的的情况下,使用arrayList.removeAll(subList)时,可以更改为:

  • subList封装为HashSetarrayList.removeAll(new HashSet(subList))
  • arrayList改为LinkedListnew LinkedList(arrayList).removeAll(subList)

再聊HashMap.containKey()

都说到这儿了,不聊聊map的一点东西,也说不过去了。

先上图:

我们知道,HashMap的底层是数组+链表。而containsKey()底层其实也就是getEntry(key),然后判断该Entry是否为null,来达到目的!

在JDK1.8中,getEntry()getNode()。另外,get(key)方法的底层同样也是(e=getEntry(key))!=null?e.value:null

说多了,我们回归正题。

图上,最顶行为一个数组,而每列是一个个链表。

每个元素put进来需要放在哪儿,大概需要这些步骤:

  1. 确定该key放在数组的哪一个索引下:索引位置 = (数组.size-1) & hash(key.hashcode())
  • 之前版本是将上面的位运算&换成了取余%,效果都一样,都是为了防止hashcode值超出数组的长度。不过位运算效率肯定是大于取余的。
  • 科普:a & b = c,那么c<=min(a,b),因此得到的索引始终小于数组.size-1,至于为何会小于等于c<=min(a,b)
  • 如:4 & 8 = 00000100 & 00001000,相同位置进行与运算与运算是两者均真才为真!因此我们看最小的那个数(00000100),任何数与它进行与运算,前面5位都不可能为1,那么结果只能小于等于4~
  • 另外注意,上面用了一个hash()方法,是为了让所有key的hash保持均匀,为什么要这样做呢?
  • 举个例子,你重写了hashcode方法,返回都是1。最后hashmap在存储这类对象时,全都放到同一个索引位置去了!
  1. 给Entry.next=null的Entry,变为Entry.next=new Node()
  • 注意:如果数据过大,JDK1.8会自动切换链表为红黑树实现

因此,就containsKey()而言,最坏的时间复杂度为:O((总数据量/数组长度)*最长链表长度)

而这个数组长度到底有多长?链表有多长?它们和数据量成一个什么关系呢?

我们需要简单探究一下HashMap的实现:

由图可知,数组长度一般都是大于总数据量(负载因子<=1时)。因此最坏时间复杂度≈O(最长链表长度)。

那么链表长度有多长?

设想一下,数组长度>=总数据量,那么最好情况下(各数据的hash均匀分布),可能一个链表就一个元素,即时间复杂度可能为O(1)!

至少大多情况下,链表长度都不会太长,除非你就是那个重写hashcode,始终返回1的人!


http://chatgpt.dhexx.cn/article/4BolArQ0.shtml

相关文章

removeAll引发得java.lang.UnsupportedOperationException异常

异常&#xff1a; java.lang.UnsupportedOperationExceptionat java.util.AbstractList.remove(AbstractList.java:161)at java.util.AbstractList$Itr.remove(AbstractList.java:374)at java.util.AbstractCollection.removeAll(AbstractCollection.java:376)at com.feiniu.t…

一个由List.removeAll()失效引发的思考

前言&#xff1a; 本来以为是个错误使用的问题&#xff0c;稍微那么深究一下&#xff0c;发现脑海中&#xff0c;关于这个部分的知识库存已经告急了&#xff0c;可不能啊。 removeAll() 失效重现 今天做一个批量删除的功能&#xff0c;我使用了 List.removeAll()这个方法&…

java removeall对象_list 删除对象 remove 和 removeAll 区别 及迭代器删除

可以看到remove 有两个方法&#xff0c;一个返回值是Boolean。一个返回值是删除的对象类型&#xff0c;这个参数是该对象在列表中的位置(用的少)。 区别&#xff1a;remove是删除List中的一条数据&#xff0c;参数是List<> 的一个泛型对象&#xff0c;删除也只删除一条。…

Java 中 HashSet 的 removeAll 性能分析

1. 概述 HashSet是一个用于存储唯一元素的集合。 在本文中&#xff0c;我们将讨论java.util.HashSet 类中removeAll()方法 的性能。 2. HashSet.removeAll() HashSet 的 removeAll 方法删除所有包含指定集合的元素&#xff1a; Set<Integer> set new HashSet<In…

Python爬虫案例解析:五个实用案例及代码示例(学习爬虫看这一篇文章就够了)

导言&#xff1a; Python爬虫是一种强大的工具&#xff0c;可以帮助我们从网页中抓取数据&#xff0c;并进行各种处理和分析。在本篇博客中&#xff0c;我们将介绍五个实用的Python爬虫案例&#xff0c;并提供相应的代码示例和解析。通过这些案例&#xff0c;读者可以了解如何应…

python爬虫实验总结_python爬虫总结

python2转成python3的问题: 使用python3下边的2to3.py 打开cmd,进到python安装目录下的 \Tools\scripts文件夹中 输入python 2to3.py -w 目标py文件路径/目标.py 通过这种方式可以将一些格式的区别进行转化。 import格式的区别: py2和py3的import机制不同,详情可以百度…

利用Python爬虫技术爬取京东商品评论

这是我第一次接触python时&#xff0c;我们学校做的项目实训&#xff0c;其实整个项目实训过程很简单&#xff0c;并没有什么难度&#xff0c;认真学学就会。 首先&#xff0c;我们要明确我们的目标&#xff1a;从京东上爬取产品的评论。一般评论都是进行情感分析&#xff0c;但…

通过Python爬虫技术获取小说信息

资源下载地址&#xff1a;https://download.csdn.net/download/sheziqiong/85673772 实验目的 使用Python爬虫技术获取小说信息&#xff0c;包括小说名称、小说作者以及小说简介等作品信息&#xff01;在实验中掌握Python的第三方库requests和lxml 实验内容 明确实验需求—…

Python爬虫详解

从今天开始&#xff0c;给大家介绍Python爬虫相关知识&#xff0c;今天主要内容是爬虫的基础理论知识。 一、爬虫简介 爬虫是指通过编写程序&#xff0c;来模拟浏览器访问Web网页&#xff0c;然后通过一定的策略&#xff0c;爬取指定内容。因此&#xff0c;爬虫的编写通常分为…

python爬虫技术简介-python网络爬虫---简介与认识HTTP

一、python爬虫环境与简介 二、认识HTTP 三、简单静态网页爬取 四、常规动态网页爬取 五、模拟登陆 六、PC客户端抓包 七、Scrapy爬虫 一、python爬虫环境与简介 1、认识爬虫 &#xff08;1&#xff09;爬虫的概念 网络爬虫也被称为网络蜘蛛、网络机器人&#xff0c;…

python 爬虫总结

requests模块 import reqeusts # get 请求 # 网址 url_login "url://123.com"# 请求头 headers {User-Agent: Apipost client Runtime/https://www.apipost.cn/ }# 参数&#xff0c;形式字典 kw {key:value} response reqeusts.get(urlurl_login,paramskw)# pos…

Python爬虫介绍

一、什么是爬虫 爬虫&#xff1a;一段自动抓取互联网信息的程序&#xff0c;从互联网上抓取对于我们有价值的信息 二、Python爬虫架构 Python爬虫架构主要由五个部分组成&#xff0c;分别是调度器、URL管理器、网页下载器、网页解析器、应用程序&#xff08;爬取的有价值数据…

Python实用技术——爬虫(一):爬虫基础

目录 爬虫这门技术本身是不违法的&#xff0c;但是应该注意&#xff1a; 1&#xff0c;爬取什么数据 2&#xff0c;如何爬取得来的 3&#xff0c;爬取之后如何使用 二&#xff0c;HTTP协议 1&#xff0c;万维网 2&#xff0c;协议&#xff1a; 三&#xff0c;HTTP知识 …

Python爬虫讲解(超详细)

Python爬虫是一种通过编写程序自动从互联网上获取数据的技术。下面是Python爬虫的详解&#xff1a; 爬虫的基本原理 爬虫的基本原理是**通过模拟浏览器的行为**&#xff0c;访问目标网站&#xff0c;并获取目标页面中的数据。Python爬虫可以使用requests库来发送HTTP请求&…

python爬虫技术整理

Python爬虫——新闻热点爬取 显示更多 可以看到相关的数据接口&#xff0c;里面有新闻标题以及新闻详情的url地址 如何提取url地址 1、转成json&#xff0c;键值对取值&#xff1b; 2、用正则表达式匹配url地址&#xff1b;根据接口数据链接中的pager 变化进行翻页&#xf…

Pytorch创建多任务学习模型

在机器学习中&#xff0c;我们通常致力于针对单个任务&#xff0c;也就是优化单个指标。但是多任务学习(MTL)在机器学习的许多应用中都取得了成功&#xff0c;从自然语言处理和语音识别到计算机视觉和药物发现。 MTL最著名的例子可能是特斯拉的自动驾驶系统。在自动驾驶中需要…

多任务学习 Pytorch实现

多任务学习MTL的简单实现&#xff0c;主要是为了理解MTL 代码写得挺烂的&#xff0c;有时间回来整理一下 import torch import torch.nn as nn import torchvision import torchvision.transforms as transforms import numpy as np import matplotlib.pyplot as plt import ma…

【综述】多任务学习

前言 本文对多任务学习(multi-task learning, MTL)领域近期的综述文章进行整理&#xff0c;从模型结构和训练过程两个层面回顾了其发展变化&#xff0c;旨在提供一份 MTL 入门指南&#xff0c;帮助大家快速了解多任务学习的进化史。 1. 什么是多任务学习&#xff1f; 多任务学习…

多任务学习原理与优化

文章目录 一、什么是多任务学习二、为什么我们需要多任务学习三、多任务学习模型演进Hard shared bottom 硬共享Soft shared bottom 软共享软共享&#xff1a; MOE & MMOE软共享&#xff1a; CGC & PLE加入FMMMOE/PLE 的调参ESMM 四、 loss权重1&#xff0c; 利用任务的…

【多任务学习-Multitask Learning概述】

多任务学习-Multitask Learning概述 1.单任务学习VS多任务学习多任务学习的提出多任务学习和单任务学习对比 2.多任务学习共享表示shared representation&#xff1a;多任务学习的优点那么如何衡量两个任务是否相关呢&#xff1f; 当任务之间相关性弱多任务MLP特点总结多任务学…