Python3 网络爬虫 <教程全集>

article/2025/9/7 14:30:40

1.1 最简单的爬虫


@ 我的老师:Jack Cui

PS:我是通过 看 Jack Cui 老师的文章 学习的爬虫,也为我之后的 爬虫打开了大门。


1.1.1 URL 是什么?

在学习 爬虫之前,我们必须知道 我们 平常 所说的网址,实际上 叫做 URL。

即:统一资源定位符(Uniform Resource Locator)

它的格式通常都是:

协议://主机名[:端口]/资源路径/参数

但是我们知道的是,一般我们看到的网址,好像都不是这么全。好像是 隐藏了 什么似的。对!没错,就是隐藏了点儿 东西。(可以用 谷歌浏览器的 NetWork 进行抓包,把所有的数据通通抓到。

举个例子:http://www.baidu.com

实际上 它隐藏了一个 很明显的东西,就是 端口!http 协议默认的端口是 80,而 https 协议 默认的端口是 443。

http://www.baidu.com:80
https://www.baidu.com:443

那么 讲到这里,我们要 回归主题了。我们 说了 URL ,但是 URL 和网络 爬虫有啥关系呢?

答:关系非常非常的大!我们的网络爬虫 是为了 爬网络上的数据的!得到 我们可以利用的数据!而 网络上的数据 最直接的途径 就是 网页。也就是 一个一个 反馈给我们的 资源文件。如果 我们 要得到 这些反馈,就必须 在 浏览器里 输入 这个 URL。

这就类似于 你得到了 地址(URL),然后 我们 根据这个地址 去找 资源文件,找到后,我们 才能够 读取数据!甚至进行 相关的网页操作。


1.1.2 数据在哪里?

我们都知道,每次访问一个网页,得到了反馈后,数据就在眼前。但是 总觉得 缺点儿 什么。

学过 前端知识的人 应该知道,网页所呈现给我们的效果,是浏览器 渲染出来!

其实本质上 它们也都是代码。。。

即使是 没有学过 前端的人其实 也能发现这个秘密。那就是 我们右键 网页,然后点击 查看源代码。在这里插入图片描述
在这里插入图片描述
我们就会 看到 一个 以代码的形式。 突然,在我们面前 出现了。

所以 我才说,数据就在眼前,可是总觉得缺点儿什么。这主要的 原因就是 渲染的太好了。让你无法 直接的 通过某种方式 获取。才会觉得 要得到了,却又 很难。。。

那么 这样的 显示代码的 样子 还有点儿丑,而且 不结构化。我们 怎么解决呢?

答:右键 点击检查

在这里插入图片描述
就会出现 这样的 好看的 工具栏,这个工具栏 里 包括了 很多工具。其中 第一个 工具 就是用来 查看 代码的。而且是 结构化的 查询。还能直接 对网页 进行 相关的更改。只要你 懂 前端代码。。


1.1.3 requests 库

在 cmd 中,使用如下指令安装 requests :

pip install requests

在这里插入图片描述
既然我们已经知道了,它的所有数据 其实 都在 源代码里。那么我们就应该 想办法 获取到 这个 源代码。

即 安装 requests 库,利用 get 方式进行 网页的访问,访问后,它 会 自动的把 源代码 装在 text 这个属性里。

import requestsreq = requests.get("http://www.baidu.com")req.encoding = 'utf-8'print(req.text)

utf-8 是万国码 编码,可以对 几乎 大多数国家的 语言 进行 编码。

如果你不用这个编码,你可能会发现 你读的源代码 很多 地方 都是乱码的。
在这里插入图片描述
这样 我们就把 我们需要的 源代码 爬取下来了。

这个过程其实就是 最简单那的 爬虫。因为 源代码 爬取下来后,我们只要 对 其 进行 re 正则的定位,和 字符串 相关的 处理。得到 准确的 数据。就是 爬虫了。。。


⭐更新列表⭐

Python3 网络爬虫 01 <初识爬虫>
Python3 网络爬虫 02 <爬取文字·元尊小说>

Python3 网络爬虫 03 <下载漫画>


http://chatgpt.dhexx.cn/article/JEGPhAun.shtml

相关文章

爬虫python

一、Urllib 1.什么是互联网爬虫&#xff1f; 如果我们把互联网比作一张大的蜘蛛网&#xff0c;那一台计算机上的数据便是蜘蛛网上的一个猎物&#xff0c;而爬虫程序就是一只小蜘蛛&#xff0c;沿着蜘蛛网抓取自己想要的数据 解释1&#xff1a;通过一个程序&#xff0c;根据Ur…

手把手教你如何入门Python3 网络爬虫

很多朋友学习Python都是先从爬虫开始&#xff0c;其原因不外两方面&#xff1a; 其一Python对爬虫支持度较好&#xff0c;类库众多&#xff0c;其二语法简单&#xff0c;入门容易&#xff0c;所以两者形影相随&#xff0c;不离不弃。 要使用python语言做爬虫&#xff0c;首先需…

python3 爬虫

一.网络爬虫&#xff08;Web Crawler&#xff09; 1.网络爬虫&#xff1a;是一种按照一定的规则&#xff0c;自动地抓取网上信息的程序或者脚本。 2.爬虫&#xff1a;为了获取网上大量的我们能看的到或看不到的数据 3.基本步骤&#xff1a;&#xff08;1&#xff09;定位要爬的…

python 爬虫

Python 爬虫教程(更新中) 目录 1. 简介 2. 注意 3. xpathselenium 4. xpathscarpy&#xff08;更新中&#xff09; 5. icrawler 【借助更加便捷操作的pip包】 1. 简介 爬虫主要有2种方式&#xff1a;API(报文)-静态、模拟鼠标点击形式-动态&#xff1b; Xpath Scrapy(…

【python】python爬虫

爬虫基础 HTTP协议 HTTP是Hyper Text Transfer Protocol&#xff08;超文本传输协议&#xff09;的缩写&#xff0c;是用于从万维网&#xff08;WWW:World Wide Web &#xff09;服务器传输超文本到本地浏览器的传送协议。 HTTP是基于TCP/IP通信协议来传递数据&#xff08;HT…

Python3 网络爬虫(一):初识网络爬虫之夜探老王家(2020年最新版)

一、前言 3年前&#xff0c;我在 csdn 写过 Python3 网络爬虫系列教程&#xff0c;经过三年的积累&#xff0c;累计阅读量近 90W。 同时&#xff0c;我也在 Github 开源了所有 Python3 网络爬虫代码&#xff0c;累积获得 10.3k 的 star&#xff0c;4.1k 的 fork。 可以说&…

Python3 爬虫快速入门攻略

一、什么是网络爬虫&#xff1f; 1、定义&#xff1a;网络爬虫&#xff08;Web Spider&#xff09;&#xff0c;又被称为网页蜘蛛&#xff0c;是一种按照一定的规则&#xff0c;自动地抓取网站信息的程序或者脚本。 2、简介&#xff1a;网络蜘蛛是一个很形象的名字。如果把互…

Python3爬虫(一):Python的入门学习以及Python网络爬虫的初步认识

Author&#xff1a;baiyucraft BLog&#xff1a; baiyucraft’s Home IDE&#xff1a;PyCharm 其实对于Python&#xff0c;一直想去学习&#xff0c;但一直没有足够的的时候去研究&#xff0c;这次趁疫情在家的时间&#xff0c;对于Python好好的研究研究。算是作为自己对于Py…

Python3网络爬虫(一):利用urllib进行简单的网页抓取

运行平台&#xff1a;Windows Python版本&#xff1a;Python3.x IDE&#xff1a;Sublime text3 转载请注明作者和出处&#xff1a;http://blog.csdn.net/c406495762/article/details/58716886 一直想学习Python爬虫的知识&#xff0c;在网上搜索了一下&#xff0c;大部分都是…

python3 爬虫(初试牛刀)

此文章仅供学习交流使用 在学习爬虫之前&#xff0c;把最近对于 VMware 的网络学习做个总结 接下来&#xff0c;步入正题&#xff01; 分析 Robots 协议 禁止所有爬虫访问任何目录的代码&#xff1a; User-agent: * Disallow:/允许所有爬虫访问任何目录的代码&#xff1a; …

Python3爬虫详解

1概述 爬虫在Python中是个实现起来比较简单&#xff0c;关键在于网页的分析和内容的抓取。最近由于个人需要写了些内容&#xff0c;这里总结下爬虫相关的内容。 本文爬虫相关实现没有使用scrapy框架&#xff0c;通过urllib请求、bs4来实现。 2网络请求 网络请求部分用到urlli…

python3爬虫学习

python3爬虫学习 一、爬虫流程&#xff1a; ①先由urllib的request打开Url得到网页html文档 ②浏览器打开网页源代码分析元素节点 ③通过Beautiful Soup或则正则表达式提取想要的数据 ④存储数据到本地磁盘或数据库&#xff08;抓取&#xff0c;分析&#xff0c;存储&…

最通俗、最详细的 Python3 网络爬虫入门指南

很多朋友学习Python都是先从爬虫开始&#xff0c;其原因不外两方面&#xff1a; 其一Python对爬虫支持度较好&#xff0c;类库众多&#xff0c;其二语法简单&#xff0c;入门容易&#xff0c;所以两者形影相随&#xff0c;不离不弃。 要使用python语言做爬虫&#xff0c;首先需…

Maven安装和配置本地仓库和阿里云镜像

maven安装配置换阿里源 1.下载maven 打开maven官网https://maven.apache.org/download.cgi&#xff0c;下载maven安装包&#xff0c;下载完成后解压到你想放的位置&#xff0c;不用安装 2.配置环境变量 3.配置阿里源和repository地址 打开刚才的解压文件conf文件夹下的setting.…

阿里云云效Maven仓库

一、Maven仓库概要 私服的目的&#xff1a;我们有一些自己的公用包&#xff0c;不想拉取工程编译&#xff0c;直接使用已经上传到私服的Jar包&#xff0c;在需要使用的项目工程直接引用使用&#xff0c;加速开发效率和编译效率。 阿里云仓库地址&#xff1a; 公用主仓库&#…

阿里云maven仓库的使用详解以及报错解决方法

仓库介绍 阿里云Maven中央仓库为 阿里云云效 提供的公共代理仓库&#xff0c;帮助研发人员提高研发生产效率&#xff0c;使用阿里云Maven中央仓库作为下载源&#xff0c;速度更快更稳定。阿里云云效是企业级一站式 DevOps 平台&#xff0c;覆盖产品从需求到运营的研发全生命周…

IDEA设置Maven阿里镜像仓库

1.打开IDEA安装目录&#xff0c;并进入如下相对路径 "\IntelliJ IDEA 2022.3.2\plugins\maven\lib\maven3\conf"。 2.打开settings.xml文件&#xff0c;并按照阿里官方指南插入配置项到指定位置。 2.1) 查看官方指南 2.2) 复制配置内容 <mirror><id>al…

IDEA中的maven阿里仓库配置

IDEA中的maven阿里仓库配置 1、进入官网&#xff1a; http://maven.apache.org/download.cgi 下载解压&#xff0c;然后记住解压位置 2、settings.xml配置更改 打开下载的文件 apache-maven-3.6.3 > conf> settings.xml&#xff08;图一为原文件&#xff0c;图二为配置…

gradle配置阿里Maven仓库

使用gradle编译一个开源项目时&#xff0c;发现下载依赖包比较慢,打开项目下的build.gradle文件: 可以看到并没有配置国内Maven仓库&#xff0c;那就配置一个呗,参照Gradle官方文档配置阿里Maven仓库 在build.gradle文件中修改repositories,也就是在mavenLocal()和mavenCentral…

maven配置阿里仓库

大家使用maven下载jar包会很慢&#xff0c;最主要的原因是maven的仓库在英国&#xff0c;但如果使用了阿里的仓库下载jar包就会变得很便捷。下面是如和配置阿里的仓库。 <mirror><id>alimaven</id><mirrorOf>central</mirrorOf><name>ali…