JS实现图片爬虫

article/2025/10/11 3:26:50

最近在在学node.JS,尝试着跟着网上的教程学着写一个JS爬虫,来爬取网上的图片文件,在此记录过程

获取网站的html结构

首先我们引入node.js的http核心模块,初始化并将目标网站地址作为url参数,接受一个回调函数,在这个回调函数里我们可以通过res.on方法对返回值进行监听,当有数据流入时,我们将他放进我们提前准备好的数组中,当数据结束流入时,我们将数组中的所有数据连接起来并以流的形式输出,存入一个变量中,打印这个变量,控制台就会出现整个页面的html结构。


```javascript
`const http = require('http');
let req = http.request('http://www.itheima.com/teacher.html#ajavaee', res => {
let chunks = [];
res.on('data', chunk => {chunks.push(chunk);
})
let img = [];
res.on('end', () => {// console.log(Buffer.concat(chunks).toString('utf-8'))let htmlstr = Buffer.concat(chunks).toString('utf-8')})
req.end();`

页面原本的HTML结构:
在这里插入图片描述

获取图片src

虽然我们这时已经获取到了整个页面的HTML结构,但这时整个结构是在控制台呈现的,我们并没有解析这个结构的能力,所幸我们可以通过一个插件来完成这个工作,我们可以下载cherrio这个插件对这个结构进行解析,这个插件支持我们用jQuery的语法对解析出来的html结构进行操作。首先我们要下载并引入这个插件

下载

`npm install cheerio`

引入

`const cherrio = require('cheerio')`

然后,我们要对这个解析出的html进行挂载,将它们整体挂在在$上,然后用jqury的语法进行调用

`  let $ = cherrio.load(htmlstr);`

然后,我们要点目标网站,打开控制台对整个HTML文件结构进行分析,然后用jQuery的语法对我们要提取的图片的DOM进行选择$(’.tea_box4 .maincon .clears > li .main_pic >img’),这时我们可以用attr来选中目标img的src,但这个方法只能选中一个,我们需要所有的src就必须对他进行遍历,注意由于这个插件是jQuery的语法,因此我们需要使用each方法进行遍历,这个方法的第一个参数是索引,第二个才是每一项。同时注意,使用每一个item也要用jQuery的语法进行

`   $('.tea_box4 .maincon .clears > li .main_pic >img').each((index, item) => {img.push($(item).attr('src'))})`

这里的img是我们提前定义好的一个空数组,用来保存这些图片地址。我们在控制台打印img已经可以看到地址了,但我们会发现这些地址都打不开,这是因为这些图片的位置是相对地址,我们在这些地址前需要补上网站的Baseurl,我们可以将网站的baseurl作为一个常量,在每次遍历时添加

`设置常量
const HOST = 'http://www.itheima.com/'`each遍历部分:img.push(HOST + ($(item).attr('src')))

批量下载

现在,我们已经可以打印出这些可以打开的地址了,现在我们要做的是将他们批量下载下来,这时我们可以使用download这个插件对这些图片地址进行批量下载

下载

`npm install download`

引入

`const download = require('download')`

调用的方式非常简单,只要用一个Proimse即可

`  Promise.all(img.map(x => download(x, 'dist'))).then(console.log('图片下载完成'))`

这个函数中,x是img这个包含了所有要下载的url中的每一项,dist是下载的文件夹,不指定路径则为同级文件夹,then()来指定下载完成后的回调函数。

注意这里还有一个细节,由于这个下载的连接中不能包含中文,所以我们要对图片url中的中文处理为base64,我们使用node.js中自带的encodeURL即可。


```javascript` $('.tea_box4 .maincon .clears > li .main_pic >img').each((index, item) => {img.push(HOST + encodeURI($(item).attr('src')))})`

运行程序,即可成功。

注意,用vscode打开单个JS文件可能导致显示下载成功但没有文件,只要打开爬虫JS文件所在的文件夹姐会成功了

全部代码:


```javascript`const http = require('http');const cherrio = require('cheerio')const download = require('download')const HOST = 'http://www.itheima.com/'let req = http.request('http://www.itheima.com/teacher.html#ajavaee', res => {let chunks = [];res.on('data', chunk => {chunks.push(chunk);})let img = [];res.on('end', () => {// console.log(Buffer.concat(chunks).toString('utf-8'))let htmlstr = Buffer.concat(chunks).toString('utf-8')let $ = cherrio.load(htmlstr);$('.tea_box4 .maincon .clears > li .main_pic >img').each((index, item) => {img.push(HOST + encodeURI($(item).attr('src')))})Promise.all(img.map(x => download(x, 'dist'))).then(console.log('图片下载完成'))})})req.end();`

http://chatgpt.dhexx.cn/article/a9L1YMfF.shtml

相关文章

从零开始学JS爬虫,轻松抓取网页数据!

随着互联网的发展,网页已经成为人们获取信息的重要途径之一。而如何高效地获取所需信息,就成为了很多人关注的问题。本文将介绍JS爬虫入门,帮助读者从零开始抓取网页数据。 一、概述 在介绍JS爬虫之前,我们先来了解一下爬虫的基…

爬虫之JS的解析

JS的解析 学习目标: 了解 定位js的方法了解 添加断点观察js的执行过程的方法应用 js2py获取js的方法 1 确定js的位置 对于前面人人网的案例,我们知道了url地址中有部分参数,但是参数是如何生成的呢? 毫无疑问,参数肯…

JavaScript爬取网页并分析

JavaScript爬取网页并分析 任务分析 爬取三个网站下的新闻数据,这里选择网易新闻网(https://news.163.com/);提取每条新闻的如下字段:标题,内容,发表日期,网址&#xf…

js - 爬虫的实现

爬虫的原理 爬虫,就是一个自动爬取网页上展示的信息的工具。我们要写一款爬虫,就要满足下面的条件: 网络的请求。首先我们要进行网络请求,让目标给我们返回信息(常用的模块有http、http2、https、request、axios、pu…

Node.js实现简单爬虫 讲解

一、什么是爬虫 网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定规则,自动的抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕…

爬虫攻略(一)

互联网 Web 就是一个巨大无比的数据库,但是这个数据库没有一个像 SQL 语言可以直接获取里面的数据,因为更多时候 Web 是供肉眼阅读和操作的。如果要让机器在 Web 取得数据,那往往就是我们所说的“爬虫”了。现在项目需要,所以研究…

javascript爬虫

用js爬虫,使用到nodejs 例子中爬取的是中国新闻网时政频道的最新10条新闻的title和链接 事先准备: 1、先去node官网下载安装一下 2、推荐vs code,需要通过终端下载插件,不想的话用cmd小黑框做终端,记事本写代码也行…

用js写个爬虫

如何用js完成爬虫项目 前言一、node.js的安装二、mysql的安装三、确定爬取网页四、查看分析网页源码五、开始写爬虫npmNode调用mysql定义要访问的网站定义新闻页面里具体的元素的读取方式定义哪些url可以作为新闻页面构造一个模仿浏览器的request读取种子页面解析出种子页面里所…

Docker—容器数据卷

目录 1.什么是容器数据卷 2.数据卷的使用 3.实战MySQL同步数据 4.卷 常用命令 5.匿名挂载与具名挂载 5.1 匿名挂载 5.2 具名挂载 6.数据卷容器 1.什么是容器数据卷 Docker将运用与运行的环境打包形成容器运行, Docker容器产生的数据,如果不通过d…

docker删除已停止的容器

一、docker删除已停止的容器 1、根据容器的状态,删除Exited状态的容器 先停止容器、再删除镜像中的容器、最后删除none的镜像。执行命令如下: docker stop $(docker ps -a | grep "Exited" | awk {print $1 }) #停止容器 docker rm $(docke…

Docker与容器的区别

容器 虚拟机和容器结构主要区别在于中间两层,虚拟机自带了操作系统,这个操作系统可以和宿主机一样,也可以不一样,而容器是和宿主机共享一个操作系统。我们知道,操作系统的内容是很多的,就像我们自己电脑上的…

docker 删除 容器/镜像 方法

docker的删除有两种,一个是rm 删除容器,一个是rmi删除镜像 想要删除运行过的images(镜像) 必须首先删除它的container(容器) 首先查看并找到要删除的镜像 docker images 这里我们要删除hello-world镜像 使用rmi 加 镜像id docker rmi fce289e99eb9 报…

docker多容器操作与强制删除容器的方法步骤

简介: 这是一篇有关【doker的多容器操作和强制删除容器的方法】的文章,用最精简的语言去表达给前端读者们。 1、创建多个容器 在WIndows环境下我们来作这个,先打开三个PowerShell窗口,然后在每个窗口中输入创建容器的命令&#…

Docker删除镜像和容器

一、删除容器 首先需要停止所有的容器(只停止单个时把后面的变量改为image id即可) docker stop $(docker ps -a -q) 删除所有的容器(只删除单个时把后面的变量改为image id即可) docker rm $(docker ps -a -q) 二、删除镜像…

如何删除docker镜像与容器

目录 删除示例: 1.查看docker中要删除的镜像 2.删除镜像,使用命令“docker rmi image id” 3.查看docker中正在运行的容器 4.停止容器 5.删除容器 6.查看容器 7.删除镜像 8.最后查看所有镜像 删除示例: 1.查看docker中要删除的镜像 …

docker删除容器日志

废话不多数,看步骤 查看容器日志命令 docker logs -f 容器id 1.进入docker容器目录 cd /var/lib/docker/containers/ 2.查看容器的id,获取容器id,容器id就是容器目录名字 docker ps -a 3.进入容器,删除以.log结尾的文件就是日志文件了&a…

Docker 删除容器

用docker一段时间后,host上可能会有大量已经退出了的容器, 这些容器依然会占用host的文件系统资源,如果确认不会再重启此类容器,可以通过docker rm删除 docker rm一次可以指定多个容器,如果希望批量删除所有已经退出的…

如何优雅地删除Docker镜像和容器(超详细)

一、前言 大家是怎么删除Docker中的镜像和容器的呢,有没有考虑过如何优雅地删除呢?本教程详细指导如何在优雅地删除Docker容器和镜像。如需了解如何在Centos7系统里面安装Docker,可以参考教程【最新Docker在Centos7下安装部署(参考…

AirPlay

最近一直在研究苹果的AirPlay协议。真是个好东西,基本上现在可以把任何屏幕内容,包括音频,视频和屏幕投射到支持AirPlay接收的设备上,目前是Apple TV或者AirExpress。 网上资料很少,比较有用的是这个哥们写的一篇AirPl…

aplay amixer用法详解

aplay aplay -t raw -c 1 -f S16_LE -r 8000 test2.pcm -t: type raw表示是PCM -c: channel 1 -f S16_LE: Signed 16bit-width Little-Endian -r: sample rate 8000 PCM是最raw的音频数据,没有任何头信息。WAV文件就是PCM头信息,头信息就是上述的声道…