Python3 网络爬虫＜教程全集＞

article/2025/9/7 14:30:40

1.1 最简单的爬虫

@ 我的老师：Jack Cui

PS：我是通过看 Jack Cui 老师的文章学习的爬虫，也为我之后的爬虫打开了大门。

1.1.1 URL 是什么？

在学习爬虫之前，我们必须知道我们平常所说的网址，实际上叫做 URL。

即：统一资源定位符（Uniform Resource Locator）

它的格式通常都是：

协议：//主机名[:端口]/资源路径/参数

但是我们知道的是，一般我们看到的网址，好像都不是这么全。好像是隐藏了什么似的。对！没错，就是隐藏了点儿东西。（可以用谷歌浏览器的 NetWork 进行抓包，把所有的数据通通抓到。）

举个例子：http://www.baidu.com

实际上它隐藏了一个很明显的东西，就是端口！http 协议默认的端口是 80，而 https 协议默认的端口是 443。

http://www.baidu.com:80
https://www.baidu.com:443

那么讲到这里，我们要回归主题了。我们说了 URL ，但是 URL 和网络爬虫有啥关系呢？

答：关系非常非常的大！我们的网络爬虫是为了爬网络上的数据的！得到我们可以利用的数据！而网络上的数据最直接的途径就是网页。也就是一个一个反馈给我们的资源文件。如果我们要得到这些反馈，就必须在浏览器里输入这个 URL。

这就类似于你得到了地址(URL)，然后我们根据这个地址去找资源文件，找到后，我们才能够读取数据！甚至进行相关的网页操作。

1.1.2 数据在哪里？

我们都知道，每次访问一个网页，得到了反馈后，数据就在眼前。但是总觉得缺点儿什么。

学过前端知识的人应该知道，网页所呈现给我们的效果，是浏览器渲染出来！

其实本质上它们也都是代码。。。

即使是没有学过前端的人其实也能发现这个秘密。那就是我们右键网页，然后点击查看源代码。 在这里插入图片描述

我们就会看到一个以代码的形式。突然，在我们面前出现了。

所以我才说，数据就在眼前，可是总觉得缺点儿什么。这主要的原因就是渲染的太好了。让你无法直接的通过某种方式获取。才会觉得要得到了，却又很难。。。

那么这样的显示代码的样子还有点儿丑，而且不结构化。我们怎么解决呢？

答：右键点击检查

在这里插入图片描述
就会出现这样的好看的工具栏，这个工具栏里包括了很多工具。其中第一个工具就是用来查看代码的。而且是结构化的查询。还能直接对网页进行相关的更改。只要你懂前端代码。。

1.1.3 requests 库

在 cmd 中，使用如下指令安装 requests ：

pip install requests

在这里插入图片描述
既然我们已经知道了，它的所有数据其实都在源代码里。那么我们就应该想办法获取到这个源代码。

即安装 requests 库，利用 get 方式进行网页的访问，访问后，它会自动的把源代码装在 text 这个属性里。

import requestsreq = requests.get("http://www.baidu.com")req.encoding = 'utf-8'print(req.text)

utf-8 是万国码编码，可以对几乎大多数国家的语言进行编码。

如果你不用这个编码，你可能会发现你读的源代码很多地方都是乱码的。
在这里插入图片描述
这样我们就把我们需要的源代码爬取下来了。

这个过程其实就是最简单那的爬虫。因为源代码爬取下来后，我们只要对其进行 re 正则的定位，和字符串相关的处理。得到准确的数据。就是爬虫了。。。

⭐更新列表⭐

Python3 网络爬虫 01 <初识爬虫>
Python3 网络爬虫 02 <爬取文字·元尊小说>

Python3 网络爬虫 03 <下载漫画>

http://chatgpt.dhexx.cn/article/JEGPhAun.shtml

相关文章

爬虫python

爬虫python

一、Urllib 1.什么是互联网爬虫？ 如果我们把互联网比作一张大的蜘蛛网，那一台计算机上的数据便是蜘蛛网上的一个猎物，而爬虫程序就是一只小蜘蛛，沿着蜘蛛网抓取自己想要的数据解释1：通过一个程序，根据Ur…

阅读更多...

手把手教你如何入门Python3 网络爬虫

手把手教你如何入门Python3 网络爬虫

很多朋友学习Python都是先从爬虫开始，其原因不外两方面： 其一Python对爬虫支持度较好，类库众多，其二语法简单，入门容易，所以两者形影相随，不离不弃。要使用python语言做爬虫，首先需…

阅读更多...

python3 爬虫

python3 爬虫

一.网络爬虫（Web Crawler） 1.网络爬虫：是一种按照一定的规则，自动地抓取网上信息的程序或者脚本。 2.爬虫：为了获取网上大量的我们能看的到或看不到的数据 3.基本步骤：（1）定位要爬的…

阅读更多...

python 爬虫

python 爬虫

Python 爬虫教程(更新中) 目录 1. 简介 2. 注意 3. xpathselenium 4. xpathscarpy（更新中） 5. icrawler 【借助更加便捷操作的pip包】 1. 简介爬虫主要有2种方式：API(报文)-静态、模拟鼠标点击形式-动态； Xpath Scrapy(…

阅读更多...

【python】python爬虫

【python】python爬虫

爬虫基础 HTTP协议 HTTP是Hyper Text Transfer Protocol（超文本传输协议）的缩写，是用于从万维网（WWW:World Wide Web ）服务器传输超文本到本地浏览器的传送协议。 HTTP是基于TCP/IP通信协议来传递数据（HT…

阅读更多...

Python3 网络爬虫（一）：初识网络爬虫之夜探老王家（2020年最新版）

Python3 网络爬虫（一）：初识网络爬虫之夜探老王家（2020年最新版）

一、前言 3年前，我在 csdn 写过 Python3 网络爬虫系列教程，经过三年的积累，累计阅读量近 90W。同时，我也在 Github 开源了所有 Python3 网络爬虫代码，累积获得 10.3k 的 star，4.1k 的 fork。可以说&…

阅读更多...

Python3 爬虫快速入门攻略

Python3 爬虫快速入门攻略

一、什么是网络爬虫？ 1、定义：网络爬虫（Web Spider），又被称为网页蜘蛛，是一种按照一定的规则，自动地抓取网站信息的程序或者脚本。 2、简介：网络蜘蛛是一个很形象的名字。如果把互…

阅读更多...

Python3爬虫(一)：Python的入门学习以及Python网络爬虫的初步认识

Python3爬虫(一)：Python的入门学习以及Python网络爬虫的初步认识

Author：baiyucraft BLog： baiyucraft’s Home IDE：PyCharm 其实对于Python，一直想去学习，但一直没有足够的的时候去研究，这次趁疫情在家的时间，对于Python好好的研究研究。算是作为自己对于Py…

阅读更多...

Python3网络爬虫(一)：利用urllib进行简单的网页抓取

Python3网络爬虫(一)：利用urllib进行简单的网页抓取

运行平台：Windows Python版本：Python3.x IDE：Sublime text3 转载请注明作者和出处：http://blog.csdn.net/c406495762/article/details/58716886 一直想学习Python爬虫的知识，在网上搜索了一下，大部分都是…

阅读更多...

python3 爬虫（初试牛刀）

python3 爬虫（初试牛刀）

此文章仅供学习交流使用在学习爬虫之前，把最近对于 VMware 的网络学习做个总结接下来，步入正题！ 分析 Robots 协议禁止所有爬虫访问任何目录的代码： User-agent: * Disallow:/允许所有爬虫访问任何目录的代码： …

阅读更多...

Python3爬虫详解

Python3爬虫详解

1概述爬虫在Python中是个实现起来比较简单，关键在于网页的分析和内容的抓取。最近由于个人需要写了些内容，这里总结下爬虫相关的内容。本文爬虫相关实现没有使用scrapy框架，通过urllib请求、bs4来实现。 2网络请求网络请求部分用到urlli…

阅读更多...

python3爬虫学习

python3爬虫学习

python3爬虫学习一、爬虫流程： ①先由urllib的request打开Url得到网页html文档 ②浏览器打开网页源代码分析元素节点 ③通过Beautiful Soup或则正则表达式提取想要的数据 ④存储数据到本地磁盘或数据库（抓取，分析，存储&…

阅读更多...

最通俗、最详细的 Python3 网络爬虫入门指南

最通俗、最详细的 Python3 网络爬虫入门指南

很多朋友学习Python都是先从爬虫开始，其原因不外两方面： 其一Python对爬虫支持度较好，类库众多，其二语法简单，入门容易，所以两者形影相随，不离不弃。要使用python语言做爬虫，首先需…

阅读更多...

Maven安装和配置本地仓库和阿里云镜像

Maven安装和配置本地仓库和阿里云镜像

maven安装配置换阿里源 1.下载maven 打开maven官网https://maven.apache.org/download.cgi，下载maven安装包，下载完成后解压到你想放的位置，不用安装 2.配置环境变量 3.配置阿里源和repository地址打开刚才的解压文件conf文件夹下的setting.…

阅读更多...

阿里云云效Maven仓库

阿里云云效Maven仓库

一、Maven仓库概要私服的目的：我们有一些自己的公用包，不想拉取工程编译，直接使用已经上传到私服的Jar包，在需要使用的项目工程直接引用使用，加速开发效率和编译效率。阿里云仓库地址： 公用主仓库&#…

阅读更多...

阿里云maven仓库的使用详解以及报错解决方法

阿里云maven仓库的使用详解以及报错解决方法

仓库介绍阿里云Maven中央仓库为阿里云云效提供的公共代理仓库，帮助研发人员提高研发生产效率，使用阿里云Maven中央仓库作为下载源，速度更快更稳定。阿里云云效是企业级一站式 DevOps 平台，覆盖产品从需求到运营的研发全生命周…

阅读更多...

IDEA设置Maven阿里镜像仓库

IDEA设置Maven阿里镜像仓库

1.打开IDEA安装目录，并进入如下相对路径 "\IntelliJ IDEA 2022.3.2\plugins\maven\lib\maven3\conf"。 2.打开settings.xml文件，并按照阿里官方指南插入配置项到指定位置。 2.1) 查看官方指南 2.2) 复制配置内容 <mirror><id>al…

阅读更多...

IDEA中的maven阿里仓库配置

IDEA中的maven阿里仓库配置

IDEA中的maven阿里仓库配置 1、进入官网： http://maven.apache.org/download.cgi 下载解压，然后记住解压位置 2、settings.xml配置更改打开下载的文件 apache-maven-3.6.3 > conf> settings.xml（图一为原文件，图二为配置…

阅读更多...

gradle配置阿里Maven仓库

gradle配置阿里Maven仓库

使用gradle编译一个开源项目时，发现下载依赖包比较慢,打开项目下的build.gradle文件: 可以看到并没有配置国内Maven仓库，那就配置一个呗,参照Gradle官方文档配置阿里Maven仓库在build.gradle文件中修改repositories,也就是在mavenLocal()和mavenCentral…

阅读更多...

maven配置阿里仓库

maven配置阿里仓库

大家使用maven下载jar包会很慢，最主要的原因是maven的仓库在英国，但如果使用了阿里的仓库下载jar包就会变得很便捷。下面是如和配置阿里的仓库。 <mirror><id>alimaven</id><mirrorOf>central</mirrorOf><name>ali…

阅读更多...

推荐文章