Python3爬虫(一):Python的入门学习以及Python网络爬虫的初步认识

article/2025/9/7 14:33:16

Author:baiyucraft

BLog: baiyucraft’s Home

IDE:PyCharm


  其实对于Python,一直想去学习,但一直没有足够的的时候去研究,这次趁疫情在家的时间,对于Python好好的研究研究。算是作为自己对于Python3以及Python爬虫的学习笔记,对于以后有一个很好的回顾 。

希望能和大家一起交流,一起进步!!!

一、初步准备

1.Python3开发环境的搭建

  官网下载Python3:https://www.python.org/downloads/windows,一般就下载executable installer的版本,x86是32位的电脑,x86-64是64位电脑

Python下载

  最新的稳定版的Python版本是3.8.2,由于自己电脑上的Python是以前装的,所以在这不阐述如何安装,如果不会安装可以看菜鸟教程的教程:https://www.runoob.com/python3/python3-install.html

2.IDE的安装

  原来是想用VS Code来作为IDE的,毕竟写前端开发的时候就是用的VS Code,而且VS Code也有Python插件支持,但是用了以后发现并不是那么的好用。特别是在用Pylint作为代码检查工具时,导入第三方库时需要配置文件,特别麻烦。

  于是自己就选择了PyCharm,作为JetBrains公司打造的Python IDE,使用的体验还是非常不错的,官网下载链接:http://www.jetbrains.com/pycharm/download,具体的安装过程在这也不做阐述

3.Python3基础知识学习

  1) 菜鸟教程的Python3教程文档:https://www.runoob.com/python3

   如果曾经学过一门编程语言,完全可以通过菜鸟教程的Python3教程来完成自学。

  2) 鱼C工作室的Python教程视频:http://www.fishc.com

   小甲鱼老师的Python零基础教学对于新手还是比较友好的

二、网络爬虫的基本认识

  网络爬虫又叫网页蜘蛛,原来以为英文名应该叫web spider,没想到在百度百科将其定义为web crawler,具体的解释可以看百度百科,太过复杂,作为初学者的我们也看不懂,那从最简单的开始分析。

  众所周知,我们打开浏览器都需要在地址栏输入网址的,这个网址就是一个URL,例如:https://www.baidu.com,这就是个URL,那么URL的定义是什么呢?

  全称统一资源定位系统URL(Uniform Recourse Locater),是因特网的万维网服务程序程序上用于指定信息位置的表示方法。常见的URL协议有ftp(文本传输协议),http(超文本传输协议)等等。而我们一般的Python网络爬虫所针对的就是http。对于http协议,它的一般格式如下:

  http:// <host>:<port>/<path>?<searchpart>

  URL的格式由部分构成:

  1) 协议:一般有两种,一种是http,一种是https,百度用的就是https协议,具体区别自行百度

  2) host:表示主机名,百度的主机名就是www.baidu.com

  3) port:表示端口号,一般来说是80端口,若是80端口可以省略

  4) path:表示主机资源的具体位置,和磁盘地址类似的概念

  了解了URL的概念,我们就开始网络爬虫的简单实例练习

三、Python简单爬虫实例

  在Python3中,有个叫urllib的处理包,这个包集合了用于URL的模块,如下所示:

urllib 是一个收集了多个用到 URL 的模块的包:

  • urllib.request 打开和读取 URL

  • urllib.error 包含 urllib.request 抛出的异常

  • urllib.parse 用于解析 URL

  • urllib.robotparser 用于解析 robots.txt 文件

  我们用到的就是其中的urllib.request这个库,首先我们得导入库(下面给出两种导入库的方式):

# -*- codeing: UTF-8 -*-		#规定编码方式
import urllib.request			#使用该库时:urllib.request.函数名()
from urllib import request		#使用该库时:request.函数名()

  导入库后要运用库的接口函数了,我们使用的urllib.request.urlopen()这个函数,通过这个函数可以模拟浏览器打开网站的行为,读取并打印网站信息

urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)

  我们可以带看到urlopen的第一个参数是url,于是我们可以写出最简单的爬虫程序

# -*- codeing: UTF-8 -*-		#规定编码方式
from urllib import request		#使用该库时:request.函数名()if __name__ == '__main__':								#相当于主函数,不写也可以res = request.urlopen('http://fanyi.youdao.com')	#有道翻译的界面html = res.read()print(html)

   将该程序命名为test.py,在PyCharm中运行,得到如下结果:

  这时候就奇怪了,明明程序并没有报错,为啥是一堆奇怪的代码,有过HTML基础的会觉得这个样式和我们的HTML文本差不多

  其实是urlopen返回的是是一个类文件对象,我们read()方法来获取网页的所有内容,但是这个内容是bytes类型的,我们可以发现在输出值的开头有b‘开头,代表数据类型是bytes,这时候需要对数据进行编码,编码的方法是decode()

# -*- codeing: UTF-8 -*-		#规定编码方式
from urllib import request		#使用该库时:request.函数名()if __name__ == '__main__':								#相当于主函数,不写也可以res = request.urlopen('http://fanyi.youdao.com')	#有道翻译的界面html = res.read()html_t = html.deprint(html_t)

  这时候我们可以看到输出的值就为规范的HTML文档:

result

  这就是浏览器所接受到的信息,只不过我们的浏览器在接收到这个信息的时候,对于这些信息进行了处理,转换成图形界面信息供我们来浏览,这些代码我们其实也可以在浏览器中看到,在浏览器界面按f12可以调出浏览器的开发者工具,以百度为例子,下图是谷歌浏览器的开发者工具:

  我们可以在本地对于这些信息进行改写,当然这个不会影响服务器中的数据

  通过这个工具,我们可以看出这个网页的编码方式,从哪里能看出来呢?

  可以看到在<meta>标签里有个charser='utf-8',这就是我们decode('utf-8')的由来

  理解了这些内容,我们第一次的学习就这样愉快结束了!!!


http://chatgpt.dhexx.cn/article/2k0cWtaR.shtml

相关文章

Python3网络爬虫(一):利用urllib进行简单的网页抓取

运行平台&#xff1a;Windows Python版本&#xff1a;Python3.x IDE&#xff1a;Sublime text3 转载请注明作者和出处&#xff1a;http://blog.csdn.net/c406495762/article/details/58716886 一直想学习Python爬虫的知识&#xff0c;在网上搜索了一下&#xff0c;大部分都是…

python3 爬虫(初试牛刀)

此文章仅供学习交流使用 在学习爬虫之前&#xff0c;把最近对于 VMware 的网络学习做个总结 接下来&#xff0c;步入正题&#xff01; 分析 Robots 协议 禁止所有爬虫访问任何目录的代码&#xff1a; User-agent: * Disallow:/允许所有爬虫访问任何目录的代码&#xff1a; …

Python3爬虫详解

1概述 爬虫在Python中是个实现起来比较简单&#xff0c;关键在于网页的分析和内容的抓取。最近由于个人需要写了些内容&#xff0c;这里总结下爬虫相关的内容。 本文爬虫相关实现没有使用scrapy框架&#xff0c;通过urllib请求、bs4来实现。 2网络请求 网络请求部分用到urlli…

python3爬虫学习

python3爬虫学习 一、爬虫流程&#xff1a; ①先由urllib的request打开Url得到网页html文档 ②浏览器打开网页源代码分析元素节点 ③通过Beautiful Soup或则正则表达式提取想要的数据 ④存储数据到本地磁盘或数据库&#xff08;抓取&#xff0c;分析&#xff0c;存储&…

最通俗、最详细的 Python3 网络爬虫入门指南

很多朋友学习Python都是先从爬虫开始&#xff0c;其原因不外两方面&#xff1a; 其一Python对爬虫支持度较好&#xff0c;类库众多&#xff0c;其二语法简单&#xff0c;入门容易&#xff0c;所以两者形影相随&#xff0c;不离不弃。 要使用python语言做爬虫&#xff0c;首先需…

Maven安装和配置本地仓库和阿里云镜像

maven安装配置换阿里源 1.下载maven 打开maven官网https://maven.apache.org/download.cgi&#xff0c;下载maven安装包&#xff0c;下载完成后解压到你想放的位置&#xff0c;不用安装 2.配置环境变量 3.配置阿里源和repository地址 打开刚才的解压文件conf文件夹下的setting.…

阿里云云效Maven仓库

一、Maven仓库概要 私服的目的&#xff1a;我们有一些自己的公用包&#xff0c;不想拉取工程编译&#xff0c;直接使用已经上传到私服的Jar包&#xff0c;在需要使用的项目工程直接引用使用&#xff0c;加速开发效率和编译效率。 阿里云仓库地址&#xff1a; 公用主仓库&#…

阿里云maven仓库的使用详解以及报错解决方法

仓库介绍 阿里云Maven中央仓库为 阿里云云效 提供的公共代理仓库&#xff0c;帮助研发人员提高研发生产效率&#xff0c;使用阿里云Maven中央仓库作为下载源&#xff0c;速度更快更稳定。阿里云云效是企业级一站式 DevOps 平台&#xff0c;覆盖产品从需求到运营的研发全生命周…

IDEA设置Maven阿里镜像仓库

1.打开IDEA安装目录&#xff0c;并进入如下相对路径 "\IntelliJ IDEA 2022.3.2\plugins\maven\lib\maven3\conf"。 2.打开settings.xml文件&#xff0c;并按照阿里官方指南插入配置项到指定位置。 2.1) 查看官方指南 2.2) 复制配置内容 <mirror><id>al…

IDEA中的maven阿里仓库配置

IDEA中的maven阿里仓库配置 1、进入官网&#xff1a; http://maven.apache.org/download.cgi 下载解压&#xff0c;然后记住解压位置 2、settings.xml配置更改 打开下载的文件 apache-maven-3.6.3 > conf> settings.xml&#xff08;图一为原文件&#xff0c;图二为配置…

gradle配置阿里Maven仓库

使用gradle编译一个开源项目时&#xff0c;发现下载依赖包比较慢,打开项目下的build.gradle文件: 可以看到并没有配置国内Maven仓库&#xff0c;那就配置一个呗,参照Gradle官方文档配置阿里Maven仓库 在build.gradle文件中修改repositories,也就是在mavenLocal()和mavenCentral…

maven配置阿里仓库

大家使用maven下载jar包会很慢&#xff0c;最主要的原因是maven的仓库在英国&#xff0c;但如果使用了阿里的仓库下载jar包就会变得很便捷。下面是如和配置阿里的仓库。 <mirror><id>alimaven</id><mirrorOf>central</mirrorOf><name>ali…

maven 配置阿里云仓库

目录 0. 前置工作&#xff1a;安装jdk1. 配置 maven 环境变量2. 配置阿里云镜像仓库3 idea中maven的相关配置 0. 前置工作&#xff1a;安装jdk 参考步骤 1 2 3 1. 配置 maven 环境变量 2. 配置阿里云镜像仓库 对解压后的maven的conf/settings进行编辑 本地仓库中没有的东…

Maven之阿里云镜像仓库配置

Maven 镜像 简介 阿里云Maven中央仓库为阿里云云效提供的公共代理仓库&#xff0c;帮助研发人员提高研发生产效率&#xff0c;使用阿里云Maven中央仓库作为下载源&#xff0c;速度更快更稳定。阿里云云效 是企业级一站式 DevOps 平台&#xff0c;覆盖产品从需求到运营的研发全生…

阿里云Maven仓库

文章目录 一、仓库介绍二、配置指南1. maven 配置指南2. gradle 配置指南 三、国内Maven仓库搜索地址四、Maven-Search插件使用1. 安装2. 使用 一、仓库介绍 阿里云云效 Maven 是什么 阿里云Maven中央仓库为 阿里云云效 提供的公共代理仓库&#xff0c;帮助研发人员提高研发生…

免费无损高品质音乐下载器V3.5

无损音乐下载器&#xff0c;今天朋友推荐给我的测试的一款 win 平台音乐下载软件&#xff0c;支持无损、超品、高品等音质的下载&#xff0c;此外它还支持在线播放 MV。这款软件经过测试还不错&#xff0c;适合喜欢高品质音乐的朋友。当然如果对于音乐品质没有太高要求还是推荐…

付费音乐下载。

墨灵音乐可以直接下载各大音乐app的付费音乐。 链接&#xff1a;https://music.mli.im/ 打开链接以后点击探索音乐就可以啦。然后进去如下界面。 接着搜索你想要下载的音乐。我们随便搜索一首歌曲。点击下载歌曲。之后会进去这个界面。然后右键点击另存为 就可以下载啦。

抖音歌曲免费下载

无损音乐下载网站http://regeku.top 1、搜索需要下载的歌曲&#xff0c;点击下载。 2、点击下载歌曲 3、点击下载 4、点击下载 5、保存到桌面 6、手机扫码关注&#xff0c;点击热歌下载

如何免费下载网易云收费音乐?不需会员也能做到

今天的主题&#xff0c;就是给大伙介绍个免费下载网易云音乐的收费音乐&#xff08;其他平台也适用&#xff09; 。简单实用&#xff0c;基本不需要什么计算机编程基础&#xff0c;人人都可学会&#xff01; 废话不多说&#xff0c;直接进入主题&#xff01; 先用谷歌浏览器打…

免费下载网易云音乐付费歌曲及下架歌曲

网易云音乐一直被大家称为良心软件、音乐软件神器等等。但是&#xff0c;现在使用网易云音乐听歌&#xff0c;发现好多的歌曲已经不能播放和下载了。会显示灰色&#xff0c;播放时会提示“由于版权保护&#xff0c;您所在的地区暂时无法使用。”或者是“因合作方要求&#xff0…