爬虫中js的解析

article/2025/10/11 2:45:55

每日分享：

做人要狠

任何关系，合得来就合，合不来就散，没有什么大不了的，理解多了，迁就多了，顾忌多了，痛苦自然就多了，完全没这个必要。别说我狠，以前我比谁都善良，可他们都把我当傻子。

你怕的越多，欺负你的人就越多；什么都不怕了，反倒没人敢欺负你，甚至讨好你。现实教导我，好心没好报，该狠就得狠，人善被人欺，马善被人骑。

别问我为什么，生活告诉我的。

了解定位js的方法
js2py简介

一、确定js的位置

url地址中有表单数据（里面有一些参数），这些参数部分是由js生成的，想要获取这些参数的规律，就要找到对应的js

通过initiator（发起程序）定位到is文件

通过search搜索（ctrl+f）关键字定位到js文件

通过元素绑定的事件监听函数找到js文件

二、js2py简介

确定js文件的位置后，我们需要观察来知道js是如何生成我们想要的数据的，之后再使用程序获取js执行后的结果

2.1 js2py的介绍

js2py是一个js的翻译工具，也是一个通过纯python实现的js的解释器

2.2 js的执行思路

js的执行的方式大致分为两种：

在了解了js内容和执行顺序后，通过python来完成js的执行过程，得到结果
在了解了js内容和执行顺序后，使用类似js2py的模块来执行js代码，得到结果

但是在使用python程序实现js的执行的时候，需要观察js的每一个步骤，非常麻烦，所以更多的时候我们会选择类似js2py的模块去执行js。

http://chatgpt.dhexx.cn/article/8dxbK1IM.shtml

相关文章

Node.js爬虫实战：如何快速获取网站数据？

Node.js爬虫实战：如何快速获取网站数据？

思考🤔 假设你正在为公司做市场调研，你需要获得一些能够提供关于你的目标受众的信息以进行研究，但是你发现这些信息并不能直接获取。你人工地搜索每个网站是不现实的，所以你需要一种更高效、更自动化、更快速的方式来获取这些信息…

阅读更多...

Python爬虫：抓取js生成的数据

Python爬虫：抓取js生成的数据

之前的NLP课程作业要求爬取一些科技新闻来训练语言模型，本文就简单来说一说用Python来爬取新闻的过程。虽然以前写过简单的爬虫，但是没有处理过浏览器动态加载数据的情况，这次碰到了就记录一下。这次爬取的新闻来源是新浪科技滚动新闻&…

阅读更多...

js爬虫

js爬虫

互联网 Web 就是一个巨大无比的数据库，但是这个数据库没有一个像 SQL 语言可以直接获取里面的数据，因为更多时候 Web 是供肉眼阅读和操作的。如果要让机器在 Web 取得数据，那往往就是我们所说的“爬虫”了。现在项目需要，所以研究…

阅读更多...

爬虫JS逆向思路 --（几千块钱都学不到的思路）

爬虫JS逆向思路 --（几千块钱都学不到的思路）

网络上几千块都学不到的JS逆向思路这里全都有👏🏻👏🏻👏🏻 本系列持续更新中，三连关注不迷路👌🏻 干货满满不看后悔👍👍👍 &…

阅读更多...

手把手操作JS逆向爬虫入门(一)

手把手操作JS逆向爬虫入门(一)

本文爬取的网站如下（可以找解密工具解码） aHR0cHM6Ly9uZXdyYW5rLmNuLw 爬取的内容为网站的资讯情报版块的新闻资讯鼠标点击翻页，在开发者工具中查看请求包，很容看出请求地址和参数， 其中post请求的参数如图&#x…

阅读更多...

JS实现图片爬虫

JS实现图片爬虫

最近在在学node.JS，尝试着跟着网上的教程学着写一个JS爬虫,来爬取网上的图片文件，在此记录过程获取网站的html结构首先我们引入node.js的http核心模块，初始化并将目标网站地址作为url参数，接受一个回调函数，在这个…

阅读更多...

从零开始学JS爬虫，轻松抓取网页数据！

从零开始学JS爬虫，轻松抓取网页数据！

随着互联网的发展，网页已经成为人们获取信息的重要途径之一。而如何高效地获取所需信息，就成为了很多人关注的问题。本文将介绍JS爬虫入门，帮助读者从零开始抓取网页数据。一、概述在介绍JS爬虫之前，我们先来了解一下爬虫的基…

阅读更多...

爬虫之JS的解析

爬虫之JS的解析

JS的解析学习目标： 了解定位js的方法了解添加断点观察js的执行过程的方法应用 js2py获取js的方法 1 确定js的位置对于前面人人网的案例，我们知道了url地址中有部分参数，但是参数是如何生成的呢？ 毫无疑问，参数肯…

阅读更多...

JavaScript爬取网页并分析

JavaScript爬取网页并分析

JavaScript爬取网页并分析任务分析爬取三个网站下的新闻数据，这里选择网易新闻网（https：//news.163.com/）；提取每条新闻的如下字段：标题，内容，发表日期，网址&#xf…

阅读更多...

js - 爬虫的实现

js - 爬虫的实现

爬虫的原理爬虫，就是一个自动爬取网页上展示的信息的工具。我们要写一款爬虫，就要满足下面的条件： 网络的请求。首先我们要进行网络请求，让目标给我们返回信息（常用的模块有http、http2、https、request、axios、pu…

阅读更多...

Node.js实现简单爬虫讲解

Node.js实现简单爬虫讲解

一、什么是爬虫网络爬虫(又称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者)，是一种按照一定规则，自动的抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕…

阅读更多...

爬虫攻略（一）

爬虫攻略（一）

互联网 Web 就是一个巨大无比的数据库，但是这个数据库没有一个像 SQL 语言可以直接获取里面的数据，因为更多时候 Web 是供肉眼阅读和操作的。如果要让机器在 Web 取得数据，那往往就是我们所说的“爬虫”了。现在项目需要，所以研究…

阅读更多...

javascript爬虫

javascript爬虫

用js爬虫，使用到nodejs 例子中爬取的是中国新闻网时政频道的最新10条新闻的title和链接事先准备： 1、先去node官网下载安装一下 2、推荐vs code，需要通过终端下载插件，不想的话用cmd小黑框做终端，记事本写代码也行…

阅读更多...

用js写个爬虫

用js写个爬虫

如何用js完成爬虫项目前言一、node.js的安装二、mysql的安装三、确定爬取网页四、查看分析网页源码五、开始写爬虫npmNode调用mysql定义要访问的网站定义新闻页面里具体的元素的读取方式定义哪些url可以作为新闻页面构造一个模仿浏览器的request读取种子页面解析出种子页面里所…

阅读更多...

Docker—容器数据卷

Docker—容器数据卷

目录 1.什么是容器数据卷 2.数据卷的使用 3.实战MySQL同步数据 4.卷常用命令 5.匿名挂载与具名挂载 5.1 匿名挂载 5.2 具名挂载 6.数据卷容器 1.什么是容器数据卷 Docker将运用与运行的环境打包形成容器运行， Docker容器产生的数据，如果不通过d…

阅读更多...

docker删除已停止的容器

docker删除已停止的容器

一、docker删除已停止的容器 1、根据容器的状态，删除Exited状态的容器先停止容器、再删除镜像中的容器、最后删除none的镜像。执行命令如下： docker stop $(docker ps -a | grep "Exited" | awk {print $1 }) #停止容器 docker rm $(docke…

阅读更多...

Docker与容器的区别

Docker与容器的区别

容器虚拟机和容器结构主要区别在于中间两层，虚拟机自带了操作系统，这个操作系统可以和宿主机一样，也可以不一样，而容器是和宿主机共享一个操作系统。我们知道，操作系统的内容是很多的，就像我们自己电脑上的…

阅读更多...

docker 删除容器/镜像方法

docker 删除容器/镜像方法

docker的删除有两种，一个是rm 删除容器，一个是rmi删除镜像想要删除运行过的images(镜像) 必须首先删除它的container(容器) 首先查看并找到要删除的镜像 docker images 这里我们要删除hello-world镜像使用rmi 加镜像id docker rmi fce289e99eb9 报…

阅读更多...

docker多容器操作与强制删除容器的方法步骤

docker多容器操作与强制删除容器的方法步骤

简介： 这是一篇有关【doker的多容器操作和强制删除容器的方法】的文章，用最精简的语言去表达给前端读者们。 1、创建多个容器在WIndows环境下我们来作这个，先打开三个PowerShell窗口，然后在每个窗口中输入创建容器的命令&#…

阅读更多...

Docker删除镜像和容器

Docker删除镜像和容器

一、删除容器首先需要停止所有的容器（只停止单个时把后面的变量改为image id即可） docker stop $(docker ps -a -q) 删除所有的容器（只删除单个时把后面的变量改为image id即可） docker rm $(docker ps -a -q) 二、删除镜像…

阅读更多...

推荐文章