如何审查网页元素

article/2025/9/15 19:31:35

如何审查网页元素

对于一个优秀的爬虫工程师而言,要善于发现网页元素的规律,并且能从中提炼出有效的信息。因此,在动手编写爬虫程序前,必须要对网页元素进行审查。本节将讲解如何使用“浏览器”审查网页元素。

浏览器都自带检查元素的功能,不同的浏览器对该功能的叫法不同, 谷歌(Chrome)浏览器称为“检查”,而 Firefox 则称“查看元素”,尽管如此,但它们的功却是相同的,本教程推荐使用谷歌浏览器。

检查百度首页

下面以检查百度首页为例:首先使用 Chrome 浏览器打开百度,然后在百度首页的空白处点击鼠标右键(或者按快捷键:F12),在出现的会话框中点击“检查”,并进行如图所示操作:

python爬虫审查元素

图1:检查百度首页元素(点击看高清图)

点击审查元素按钮,然后将鼠标移动至您想检查的位置,比如百度的输入框,然后单击,此时就会将该位置的代码段显示出来(如图 1 所示)。最后在该代码段处点击右键,在出现的会话框中选择 Copy 选项卡,并在二级会话框内选择“Copy element”,如下所示:

python爬虫网页元素审查

图2:Copy代码段

百度输入框的代码如下所示:

<input type="text" class="s_ipt" name="wd" id="kw" maxlength="100" autocomplete="off">

依照上述方法,您可以检查页面内的所有元素。

编辑网页代码

通过检查元素也可以更改网页代码,下面通过C语言中文网登录界面进行简单演示:

python爬虫检查网页元素

图2:检查网页元素(点击看高清图)

检查密码框的 HTML 代码,代码如下所示:

<input name="password" type="password" id="password" autocomplete="off">

只要在显示出的代码段上稍微做一下更改,密码就会变为可见状态。如下图所示:

python爬虫编辑网页代码

图3:检查网页元素(点击看高清图)

双击 type=“password” 将输入框类型更改为 text,此类操作适用于所有网站的登录界面。但是需要注意,您做的更改仅限本次有效,当关闭网页后,会自动恢复为原来的状态。

检查网页结构

对于爬虫而言,检查网页结构是最为关键的一步,需要对网页进行分析,并找出信息元素的相似性。下面以猫眼电影网为例,检查每部影片的 HTML 元素结构。如下所示:

python爬虫检查网页结构

图4:检查网页结构(点击看高清图)

第一部影片的代码段如下所示:

  <div class="board-item-main"><div class="board-item-content"><div class="movie-item-info"><p class="name"><a href="/films/1299372" title="你好,李焕英" data-act="boarditem-click" data-val="{movieId:1299372}">你好,李焕英</a></p><p class="star">主演:贾玲,张小斐,沈腾</p>
<p class="releasetime">上映时间:2021-02-12</p>    </div><div class="movie-item-number score-num">
<p class="score"><i class="integer">9.</i><i class="fraction">5</i></p>       </div></div></div>

接下来检查第二部影片的代码,如下所示:

  <div class="board-item-main"><div class="board-item-content"><div class="movie-item-info"><p class="name"><a href="/films/553231" title="心灵奇旅" data-act="boarditem-click" data-val="{movieId:553231}">心灵奇旅</a></p><p class="star">主演:杰米·福克斯,蒂娜·菲,菲利西亚·拉斯海德</p>
<p class="releasetime">上映时间:2020-12-25</p>    </div><div class="movie-item-number score-num">
<p class="score"><i class="integer">9.</i><i class="fraction">3</i></p>       </div></div></div>

经过对比发现,除了每部影片的信息不同之外,它们的 HTML 结构是相同的,比如每部影片都使用

标签包裹起来。这里我们只检查了两部影片,在实际编写时,你可以多检查几部,从而确定它们的 HTML 结构是相同的。

提示:通过检查网页结构,然后发现规律,这是编写爬虫程序最为重要的一步。


http://chatgpt.dhexx.cn/article/K08rZeYT.shtml

相关文章

代码审查(文档整理)

常用的代码审查工具 git/SUBVERSIONGerritUpsource显示代码变更√√√使用源码仓库√√在线代码讨论√√异步审查支持√√使用协议GPLv2/Apache License 2.0Apache License 2.0付费license 代码审查 范根检查法 轻量级的审查流程 结对编程同步代码审查异步代码审查 代码审查需…

代码审查“查”什么?

让我们来谈谈代码审查&#xff08;Code Review&#xff09;。如果花几秒钟去搜索有关内容&#xff0c;你会发现许多论述代码审查好处的文章&#xff08;例如&#xff0c;Jeff Atwood的这篇文章&#xff09;。你还会发现许多介绍如何使用代码审查工具的文档&#xff0c;比如我们…

uniapp的uview2.0框架u--textarea组件无法换行,换行无效问题解决方案

问题描述 在使用uniapp的uview2.0框架u–textarea组件时&#xff0c;想要使u–textarea支持换行输入&#xff0c;但是默认不支持换行输入&#xff0c;各种百度&#xff0c;没有找到解决问题的方案&#xff0c;最后只有查看源码如下 但发现源码没有对属性有过多的处理&#xff…

微信小程序textarea问题总结

微信小程序textarea问题总结 1.textarea多行输入框。该组件是原生组件 2.参考文档中的原生组件说明https://developers.weixin.qq.com/miniprogram/dev/component/native-component.html 原生组件的层级是最高的&#xff0c;所以页面中的其他组件无论设置 z-index 为多少&am…

JavaFX设置TextArea文本内容

本篇主要内容为设置TextArea的内容&#xff0c;涉及的知识面包括如何添加视图和控制层的关联&#xff0c;调用TextArea的方法设置文本内容&#xff0c;不仅实用于TextArea&#xff0c;还可以设置其它如Button&#xff0c;Label&#xff0c;TextField等组件的文本域或者其它属性…

原生div实现textarea

文章导航 为什么要用div实现textarea关键词实现效果源码示例 为什么要用div实现textarea div 实现 textarea 可以实现高度自适应 关键词 contenteditable: true|false 可以将元素内容区域调整为可编辑 实现效果 源码示例 &#x1f383; index.html <!DOCTYPE html>…

html textarea设置只读属性吗,HTML

HTML中的只读属性用于指定textarea元素为只读。如果文本区域为只读&#xff0c;则其内容无法更改&#xff0c;但可以复制并突出显示。这是一个布尔属性。 用法: Contents... 范例1&#xff1a;本示例使用只读属性在仅可读的输入textarea上写入内容。 HTML Textarea readonly A…

让textarea 只读

网上找到几种方案 都试了下 editable"false" readonly"readonly" disabled"disabled" 不知道是不是语法我写错了 但这么写效果是 &#xff08;顺寻代码和图片一致&#xff09; 第二个和第三个都是不能点 不能修改 第一个可以点可以修改

html页面只读,textarea只读 readonly =true;

Java TextArea 只读问题 TextArea ta new TextArea("",10,15,TextArea.SCROLLBARS_VEICAL_ON报啥错啊。 textarea怎么设置为只读 readonly true; C#语言&#xff1a;Listview控件中加了一个textarea&#xff0c;怎么在前台页面将textarea转化服务器控件&#xff0c;…

如何让textarea不可编辑只可读(博客常用)

如何让textarea不可编辑只可读&#xff08;博客常用&#xff09;。 Textarea的相关属性解释&#xff1a; rows&#xff1a;行高&#xff0c;就是你这个文本框能显示多少行文字 cols&#xff1a;宽度&#xff0c;代表你这个文本框有多宽 readonly&#xff1a;有个值readonly&am…

[评价体系] 1、数据规范化/无量纲化方法

目录 1 数据格式 2 不同属性类型的指标规范化方法 2.1 效益型指标&#xff1a;即该指标越大越好 2.2 成本型指标&#xff1a;即该指标越小越好 2.3 固定型/中间型指标&#xff1a;在某个固定值处最好 2.4 区间型指标&#xff1a;有最佳区间 2.5 偏离区间型&#xff1a;偏…

机器学习学习笔记(3)——量纲与无量纲,标准化、归一化、正则化

量纲、无量纲&#xff0c;标准化、归一化、正则化是我百度了很多次都不进脑子的知识&#xff0c;所以我决定还是放在博客上面。 不过鉴于我查阅了很多资料&#xff0c;说是有许多的坑&#xff0c;所以我也不清楚我的理解和解释是否是坑&#xff0c;具体的就留给各位来帮忙评判了…

数据的无量纲化处理和标准化处理的区别是什么

数据的无量纲化处理和标准化处理的区别是什么 请教:两者除了方法上有所不同外,在其他方面还有什么区别? 解答: 标准化处理方法是无量纲化处理的一种方法。除此之外,还有相对化处理方法(包括初值比处理)、函数化(功效系数)方法,等等。由于标准化处理方法可以与分布…

数据归归一化方法(标准化)

数据归一化方法 数据标准化&#xff08;normalization&#xff09;数据标准化处理主要包括数据同趋化处理和无量纲化处理两个方面。 数据同趋化处理主要解决不同性质数据问题&#xff0c;对不同性质指标直接加总不能正确反映不同作用力的综合结果&#xff0c;须先考虑改变逆指标…

特征锦囊:特征无量纲化的常见操作方法

今日锦囊 特征无量纲化的常见操作方法 第一招&#xff0c;从简单的特征量纲处理开始&#xff0c;这里介绍了3种无量纲化操作的方法&#xff0c;同时也附上相关的包以及调用方法&#xff0c;欢迎补充&#xff01; 无量纲化&#xff1a;即nondimensionalize 或者dimensionless&am…

数据挖掘——无量纲化

在进行特征选择之前&#xff0c;一般会先进行数据无量纲化处理&#xff0c;这样&#xff0c;表征不同属性&#xff08;单位不同&#xff09;的各特征之间才有可比性&#xff0c;如1cm 与 0.1kg 你怎么比&#xff1f;无量纲处理方法很多&#xff0c;使用不同的方法&#xff0c;对…

量纲与无量纲、标准化、归一化、正则化【能够帮助梯度下降中学习进度收敛的更快、提升模型的收敛速度提升模型的精度、防止模型过拟合,提高模型的泛化能力】

目录 1 量纲与无量纲 1.1 量纲 1.2 无量纲 2 标准化 3 归一化 归一化的好处 4 正则化 5 总结 1 量纲与无量纲 1.1 量纲 物理量的大小与单位有关。就比如1块钱和1分钱&#xff0c;就是两个不同的量纲&#xff0c;因为度量的单位不同了。 1.2 无量纲 物理量大小与单位…

数据预处理----数据无量纲化(归一化和标准化)

文章目录 概述数据挖掘的五大步骤skleran中的数据处理和特征工程 数据预处理Preprocessing数据无量纲化数据归一化---MinMaxScaler示例 数据标准化----StandardScaler示例 MinMaxScaler和StandardScaler应该选哪个 概述 数据挖掘的五大步骤 数据获取数据预处理 数据预处理是从…

数学分析模型(一):数据的无量纲处理方法及示例(附完整代码)

数据的无量纲处理方法及示例(附完整代码) (1)极值化方法(2)标准化方法(3)均值化方法示例要求建模步骤程序结果备注在对实际问题建模过程中,特别是在建立指标评价体系时,常常会面临不同类型的数据处理及融合。而各个指标之间由于计量单位和数量级的不尽相同,从而使得…

数据无量纲化

数据无量纲化 在机器学习算法实践中&#xff0c;我们往往有着将不同规格的数据转换到同一规格&#xff0c;或不同分布的数据转换到某个特定分布的需求&#xff0c;这种需求统称为将数据“无量纲化”。譬如梯度和矩阵为核心的算法中&#xff0c;譬如逻辑回归&#xff0c;支持向…