js - 爬虫的实现

article/2025/10/11 5:02:24

爬虫的原理

爬虫,就是一个自动爬取网页上展示的信息的工具。我们要写一款爬虫,就要满足下面的条件:

  1. 网络的请求。首先我们要进行网络请求,让目标给我们返回信息(常用的模块有http、http2、https、request、axios、puppeteer
  2. 对返回来的数据的处理。(这部分可以随意发挥、正则等技术,而对于html文件的话,有 cheerio 模块(客户端的jQuery)、而返回来的数据可能有编码问题,iconv-lite 模块可以用于编码的转换,当然,请求时也可以直接设置response的编码
  3. 数据的储存。(这部分涉及到文件处理和数据库,会在另外的文章叙述)

爬虫的实现

    talk is cheap,show me the code

    让我们开始写代码吧

const cheerio = require('cheerio');
const fs = require('fs');
const request = require('request');// http://www.feizdy.com 是一个电影网站
// 尝试的时候建议选用http的网站,初学者比较好爬
// 我们的目的是爬取电影的名称和图片信息,并把图片下载保存起来// target
let url = 'http://www.feizdy.com';
// savePath
let photoSavePath = './img';run(url, photoSavePath).catch(err => {console.log('运行错误 => ' + err);
});async function run(url, photoSavePath) {//  获得首页const html = await getHTML(url);// 可以直接用正则进行内容匹配// 把首页 用cheerio模块转换成Dom操作 (注意:load转换时可能会乱码,所以要设置{decodeEntities: false})const $ = cheerio.load(html, {decodeEntities: false});// 2.对返回来的数据进行处理// 用元素审查分析html文件结构(见图 1)// 元素选择器获得所需要的结构的集合// 这里是获得电影详情页的链接$('.container .row .col-sm-6 .movie-item a').each((i, item) => {// 这里的item要转换一下,用$(item)变成dom节点// 由图可以看出链接是片段的,要拼接成完整的urllet detailUrl = url + $(item).attr('href');// 利用详情链接获取电影详细信息getDetailMessage(detailUrl).then(movie => {return addToFile(movie);}).then(imgSrc => {downloadPhoto(imgSrc, photoSavePath, i);}).catch(err => {console.log(err);});});
}// 请求资源
function getHTML(url, timeout = 20000) {return new Promise((resolve, reject) => {// 1.发送请求,等待网站回应request.get(url, {timeout: timeout}, function (error, response, body) {error ? reject('Timeout.\n' ) : resolve(body);})})
}// 获得电影相关的信息
async function getDetailMessage(url) {try {let detailHTML = await getHTML(url);// 结构分析在图 2const $ = cheerio.load(detailHTML, {decodeEntities: false});let movie =  {name: await $('.container .container-fluid .row .col-md-12 .movie-title').text(),img:  await $('.container .container-fluid .row .col-md-9 .row .col-md-4 a img').attr('src')};// 去除空电影return movie.name && movie.img ? movie : undefined;} catch (e) {console.log('Method: getDetailMessage =>' + e);}
}// 添加到文件
function addToFile(item) {if (item) {let imgSrc = item.img;item = JSON.stringify(item) + '\n';// 把movie 写入文件fs.appendFile('./data/data.txt', item, {encoding: 'utf-8', flag: 'a'}, error => {error ? console.log('Method: addToFile => data write error.\n' + error) : null;})return imgSrc;}
}// 下载图片
function downloadPhoto(src, photoSavePath, filename, timeout = 20000) {if (src) {// 提取后缀名let suffix = src.toString().slice(-4);// 拼接路径let path = photoSavePath + '/' + filename + suffix;// 下载request.get(src, {timeout: timeout}, err => {err ? console.log('Method: downloadPhoto => download error\n' + err) : null;}).pipe(fs.createWriteStream(path));}
}

图 1
在这里插入图片描述
图2
在这里插入图片描述


http://chatgpt.dhexx.cn/article/0OEoWMXX.shtml

相关文章

Node.js实现简单爬虫 讲解

一、什么是爬虫 网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定规则,自动的抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕…

爬虫攻略(一)

互联网 Web 就是一个巨大无比的数据库,但是这个数据库没有一个像 SQL 语言可以直接获取里面的数据,因为更多时候 Web 是供肉眼阅读和操作的。如果要让机器在 Web 取得数据,那往往就是我们所说的“爬虫”了。现在项目需要,所以研究…

javascript爬虫

用js爬虫,使用到nodejs 例子中爬取的是中国新闻网时政频道的最新10条新闻的title和链接 事先准备: 1、先去node官网下载安装一下 2、推荐vs code,需要通过终端下载插件,不想的话用cmd小黑框做终端,记事本写代码也行…

用js写个爬虫

如何用js完成爬虫项目 前言一、node.js的安装二、mysql的安装三、确定爬取网页四、查看分析网页源码五、开始写爬虫npmNode调用mysql定义要访问的网站定义新闻页面里具体的元素的读取方式定义哪些url可以作为新闻页面构造一个模仿浏览器的request读取种子页面解析出种子页面里所…

Docker—容器数据卷

目录 1.什么是容器数据卷 2.数据卷的使用 3.实战MySQL同步数据 4.卷 常用命令 5.匿名挂载与具名挂载 5.1 匿名挂载 5.2 具名挂载 6.数据卷容器 1.什么是容器数据卷 Docker将运用与运行的环境打包形成容器运行, Docker容器产生的数据,如果不通过d…

docker删除已停止的容器

一、docker删除已停止的容器 1、根据容器的状态,删除Exited状态的容器 先停止容器、再删除镜像中的容器、最后删除none的镜像。执行命令如下: docker stop $(docker ps -a | grep "Exited" | awk {print $1 }) #停止容器 docker rm $(docke…

Docker与容器的区别

容器 虚拟机和容器结构主要区别在于中间两层,虚拟机自带了操作系统,这个操作系统可以和宿主机一样,也可以不一样,而容器是和宿主机共享一个操作系统。我们知道,操作系统的内容是很多的,就像我们自己电脑上的…

docker 删除 容器/镜像 方法

docker的删除有两种,一个是rm 删除容器,一个是rmi删除镜像 想要删除运行过的images(镜像) 必须首先删除它的container(容器) 首先查看并找到要删除的镜像 docker images 这里我们要删除hello-world镜像 使用rmi 加 镜像id docker rmi fce289e99eb9 报…

docker多容器操作与强制删除容器的方法步骤

简介: 这是一篇有关【doker的多容器操作和强制删除容器的方法】的文章,用最精简的语言去表达给前端读者们。 1、创建多个容器 在WIndows环境下我们来作这个,先打开三个PowerShell窗口,然后在每个窗口中输入创建容器的命令&#…

Docker删除镜像和容器

一、删除容器 首先需要停止所有的容器(只停止单个时把后面的变量改为image id即可) docker stop $(docker ps -a -q) 删除所有的容器(只删除单个时把后面的变量改为image id即可) docker rm $(docker ps -a -q) 二、删除镜像…

如何删除docker镜像与容器

目录 删除示例: 1.查看docker中要删除的镜像 2.删除镜像,使用命令“docker rmi image id” 3.查看docker中正在运行的容器 4.停止容器 5.删除容器 6.查看容器 7.删除镜像 8.最后查看所有镜像 删除示例: 1.查看docker中要删除的镜像 …

docker删除容器日志

废话不多数,看步骤 查看容器日志命令 docker logs -f 容器id 1.进入docker容器目录 cd /var/lib/docker/containers/ 2.查看容器的id,获取容器id,容器id就是容器目录名字 docker ps -a 3.进入容器,删除以.log结尾的文件就是日志文件了&a…

Docker 删除容器

用docker一段时间后,host上可能会有大量已经退出了的容器, 这些容器依然会占用host的文件系统资源,如果确认不会再重启此类容器,可以通过docker rm删除 docker rm一次可以指定多个容器,如果希望批量删除所有已经退出的…

如何优雅地删除Docker镜像和容器(超详细)

一、前言 大家是怎么删除Docker中的镜像和容器的呢,有没有考虑过如何优雅地删除呢?本教程详细指导如何在优雅地删除Docker容器和镜像。如需了解如何在Centos7系统里面安装Docker,可以参考教程【最新Docker在Centos7下安装部署(参考…

AirPlay

最近一直在研究苹果的AirPlay协议。真是个好东西,基本上现在可以把任何屏幕内容,包括音频,视频和屏幕投射到支持AirPlay接收的设备上,目前是Apple TV或者AirExpress。 网上资料很少,比较有用的是这个哥们写的一篇AirPl…

aplay amixer用法详解

aplay aplay -t raw -c 1 -f S16_LE -r 8000 test2.pcm -t: type raw表示是PCM -c: channel 1 -f S16_LE: Signed 16bit-width Little-Endian -r: sample rate 8000 PCM是最raw的音频数据,没有任何头信息。WAV文件就是PCM头信息,头信息就是上述的声道…

aplay amixer arecord说明

arecord声音录制 arecord -l列出声卡和数字音频设备 -D参数用于指定音频设备PCM 以hwx,x开头 根据上面l列出的设备,如果选择tvp5158来录制声音的话那么pcm设备就位hw0,0,如果是tlv320aic3x则pcm设备为hw0,1,sii9135则pcm设备为hw0,2。 声卡号,设备号 -r指定采样频率:5512/8000…

【全志T113-S3_100ask】9-音频输入与输出(amixer、aplay、arecord)

【全志T113-S3_100ask】9-音频输入与输出 背景(一)amixer 的使用(二)amixer 设置音频输出参数(三)使用 aplay 播放音乐(四)使用 arecord 录音 背景 之前查看系统命令,发…

如何使用Aplayer播放器

Aplayer 一、部署 1、Aplayer 官网体验网址:https://aplayer.js.org/ Aplayer的GitHub网址: https://github.com/MoePlayer/APlayer 中文文档手册网址:首页 – APlayer 使用方法很简单,加载Aplayer的js和css,在想…

aplay,arec,amix使用

标准的alsa命令为,aplay,amixer,arecord 如下是高通在mdm9x07芯片上做了客制化的命令 aplay aplay -D hw:0,17 -P &arec arec -D hw:0,17 -P -R 8000 -C 1 &-D card 声卡 -d device 设备 -c channels 通道 -r rate 采样率 -b bits…