(一)python网络爬虫(理论+实战)——爬虫的初步认识

article/2025/11/8 16:11:20

小白都能学会的python网络爬虫专栏

      https://blog.csdn.net/c1007857613/category_12127982.html


序言

      本人从事爬虫相关工作已8年以上,从一个小白到能够熟练使用爬虫,中间也走了些弯路,希望以自身的学习经历,让大家能够轻而易举的,快速的,掌握爬虫的相关知识并熟练的使用它,避免浪费更多的无用时间,甚至走很大的弯路。欢迎大家留言,一起交流讨论


前言

    随着大数据,人工智能等领域的快速发展,数据的重要性日益凸显,那么如何获取数据呢?——网络爬虫。作为获取数据,特别是网络公开数据的重要工具,网络爬虫也逐步渗入到我们工作和生活的方方面面,比如抢票软件,招聘网站等等,这些都给我们的生活带来了极大的便利。因此,不论你是想从事大数据,数据分析等相关行业,还是做科学研究写论文,又或者是想通过程序自动的帮助你收集网络上的一些数据,已完成老板交代的任务,等等,了解并掌握网络爬虫的相关知识对你的工作和发展都有百利而无一害。


【本节学习目标】:了解爬虫的相关基础知识,能说上一二,是后续学习的基础。


1 爬虫概述——初步认识

    1.1 爬虫就在我们身边

       之前对爬虫没有了解过的童鞋可能会觉得爬虫是一个技术层面上的东西,离我们的生活和工作都很遥远,其实不然。试想一下,如有你看上了一些好看的图片或者电影,但由于数据量较多,下载时间较长,人工去一个个下载,是一个工作量很大的事情。又或者,如果你老板交代给你一个任务,收集中国目前所有上市公司的名单信息,那是不是要一个个去找,然后一个个复制到excel中,如果要求的公司信息越多,那不就越复杂了。

        那遇到以上情况,怎么办呢?如果你是土豪,直接去买相关的数据,当然没问题!又或者你就是单纯的想锻炼下自己的手指,就是想手动去获取也无可厚非。但如果又你是普通的打工仔,想保护下我们那纤细的手指,又想白嫖的话,就可以使用爬虫来帮你做这些工作,你只需要喝着咖啡,抖着腿,看着电视,刷着抖音,看看靓仔靓女。

        当然,爬虫的用途或者说应用远不止如此,爬虫的应用其实已经渗入到了我们工作和生活的方方面面,很多应用场景大家都见过,只是不知道它是爬虫而已。比如,最常见的爬虫应用,就是我们使用到的搜索引擎,搜索引擎的本质就是一个爬虫,将网络上各个地方的数据抓取过来,从而我们可以通过一个搜索入口就能搜索到各个网站的信息。

        龙券网,是一个提供搜索各大电商平台优惠券信息的网站,其原理也是通过爬虫将各大电商平台上的商品优惠信息抓取过来。

        历史价格查询,这是一个微信小程序,你可以在该应用中查询某个商品的历史价格信息,这样你知道你当前买的这个商品是比之前贵还是便宜(不是打广告哈,确实挺实用,尤其这些商家喜欢搞些什么双十一,双十二活动,通过它你知道商家到底有没有优惠,还是给你偷偷涨价了呢)。言归正传,这个应用也是爬虫应用的一个充分体现,其商品的价格信息也是通过爬虫不断抓取过来,然后绘制了各个商品的价格走势。

        我已经举了很多个爬虫的栗子了,手都酸了,你能帮我举一下吗?哈哈哈

        ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~举栗子中~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

         各大招聘网站(招聘信息就是从各大公司网址抓取过来的)、抢票软件(车票信息从12306等官方售票网站抓取过来的)、舆情监测、金融投资风险分析等等。

          所以说,爬虫和我们并不遥远,爬虫其中就在我们身边!


     1.2 爬虫是什么

          爬虫(spider,又称网络爬虫,网络蜘蛛),从字面上来看,爬虫就像是一只蜘蛛,在互联网上不断爬行,不断的抓取数据。

        从爬虫的本质上来看,爬虫就是一段程序,该程序的作用或者说目的就是自动的向网站/网络发送请求,获取并提取有用的数据。

        从技术层面来说就是通过程序模拟浏览器请求站点的行为,把站点返回的HTML代码/JSON数据/二进制数据(图片、视频) 爬到本地,进而提取自己需要的数据,存放起来使用。这段话,可能很多小可爱不是很理解,但如果我们把浏览器怎么显示网络数据的过程理解一下的话就容易懂了。

        你有没有想过,在你的电脑上为何能够看到别的网站的信息,你的浏览器是在你自己的电脑上,要访问的网站是在对方的机器上。我们结合上面这个示意图来理解,当我们打开一个网站或者在浏览器中输入网址访问时,比如百度网,浏览器会自动帮我们向百度网发送一个请求,百度的网站服务器收到这个请求后会做出请求响应,并把数据返回给浏览器,浏览器接收到数据后再显示出来,所以我们打开一个网站能够看到该网站的信息。当然其中返回的数据不是普通的文字,可能是带有格式的文字、链接等(html格式)、可能是json格式,可能是图片、视频(二进制格式)等等。(这段加粗的文字请重点理解,理解了这个,对爬虫的理解也就差不多

     所以啊,在回过头来理解爬虫就简单了,爬虫就是通过一段程序,来模拟浏览器向目标网站或网页发送请求的这个过程,来拿到其返回的数据,这样就完成对某个网站数据的抓取。


 总结

     本章主要对网络爬虫做了一个初步的介绍,适合对网络爬虫不是很了解的初学者阅读。   

     如对文章内容有疑问或者需要全套的学习资料(配套PPT和本课程的所有项目源码)的,欢迎大家留言。


http://chatgpt.dhexx.cn/article/QXcifWVm.shtml

相关文章

Python网络爬虫经典书籍推荐

1. Python编程:从入门到实践 - 2016 本书是一本针对所有层次的Python 读者而作的Python 入门书。全书分两部分:第一部分介绍用Python 编程所必须了解的基本概念,包括matplotlib、NumPy 和Pygal 等强大的Python 库和工具介绍,以及…

(二)python网络爬虫(理论+实战)——爬虫分类和基本流程

小白都能学会的python网络爬虫专栏: https://blog.csdn.net/c1007857613/category_12127982.html 序言 本人从事爬虫相关工作已8年以上,从一个小白到能够熟练使用爬虫,中间也走了些弯路,希望以自身的学习经历,让大家能…

python网络爬虫实验报告_Python网络爬虫实例讲解

聊一聊Python与网络爬虫。 1、爬虫的定义 爬虫:自动抓取互联网数据的程序。 2、爬虫的主要框架 爬虫程序的主要框架如上图所示,爬虫调度端通过URL管理器获取待爬取的URL链接,若URL管理器中存在待爬取的URL链接,爬虫调度器调用网…

Python网络爬虫简介与环境配置

第一章 Python网络爬虫简介与环境配置 1.1 网络爬虫简介 随着互联网的快速发展越来越多的信息被发布到互联网上,这些信息被嵌入到各种各样的网页结构及样式中。虽然搜索引擎可以辅助用户搜索这些网页信息,但是通用的搜索引擎的目标是尽可能覆盖全网络&…

五分钟学会Python网络爬虫

但不管怎样,爬虫技术是无罪的,还是值得我们开发人员去学习了解一下的。在学习之前,我们还是要先了解一下相关概念。 什么是爬虫 网络爬虫:又被称为网页蜘蛛,网络机器人,是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。 大数据时代,要进行数据分析,首先…

python爬虫简介

python爬虫是收集互联网数据的常用工具,近年来随着互联网的发展而快速发展。使用网络爬虫爬取网络数据首先要了解网络概念和主要分类,各类爬虫的系统结构、运作方式,常用策略,以及主要的应用场景,同时,出于…

python爬虫入门教程(非常详细),超级简单的Python爬虫教程

一、基础入门 1.1什么是爬虫 爬虫(spider,又网络爬虫),是指向网站/网络发起请求,获取资源后分析并提取有用数据的程序。 从技术层面来说就是 通过程序模拟浏览器请求站点的行为,把站点返回的HTML代码/JSON数据/二进制数据&…

python简单实现网络爬虫

前言 在这一篇博客中,我会用python来实现一个简单的网络爬虫。简单的爬取一下一些音乐网站、小说网站的标题、关键字还有摘要!所以这个爬虫并不是万能爬,只针对符合特定规则的网站使用。(只使用于爬标题、关键字和摘要的&#xff…

【海岛吉他1】全面认识吉他谱

调号 拍号 1G 4/4 休止符:

新手小白学吉他,如何掌握基础快速入门

吉他弹唱是非常快乐,非常浪漫,非常酷的一件事。俗话说“不怕流氓有文化,就怕流氓有吉他”,大家也都知道吉他是把妹的神器。相信很多人的床底下,角落里,都扔了一把布满了灰尘的吉他,因为学不会而…

乐理: 认识吉他谱

文章目录 2019/6/20日记调式节奏与拍谱标记参考资料 2019/6/20日记 基本乐理都不会,到处搜资料太乱了,找了几个免费乐理教程先好好系统学习一下吧,不知道好不好。记录一下, 每天做题做累了看一点吧。。。 网易云公开课聆听音乐(耶鲁大大学公…

转自知乎的吉他学习篇

iPhone Android 错过这篇,你可能这辈子都学不会弹吉他了(多图) 图片:《醉乡民谣》 零基础如何自学吉他? 梁策, 非阴谋论者/产品经理/吉他爱好者 错过这篇文章,你可能这辈子都学不会弹吉他了。 …

新手入门吉他推荐,第一把吉他从这十款选绝不踩雷!初学者吉他选购指南【新手必看】#VEAZEN费森#雅马哈#卡马

一、新手购琴注意事项: 1、预算范围 一把合适的吉他对于初学者来说会拥有一个很好的音乐启蒙。选一款性价比高,做工材料、音质和手感相对较好的吉他自然不会是一件吃亏的事。**初学者第一把琴的预算,我觉得最低标准也是要在500元起&#xf…

学吉他该如何科学背谱?

相信对于很多正在学习或者技巧纯熟的吉他手来说,背谱都是一个难题。你可能会说,背谱,背就完事了。但是实际上,对于高手来说,背诵一个乐谱可能都得花十几个小时,对于新手而言,背诵的时间可能是高…

零基础简单的乐理知识

音符以及它的两种表达形式 首先,我们从最基本的开始讲,即七个基本的音符1234567,也音译为​​do​​、​​re​​、​​mi​​、​​fa​​、​​sol​​、​​la​​、​​xi​​,这是每个人都知道的(当然如果这个都不知道那我也…

Ffmpeg视频压制的基础知识

Ffmpeg视频压制的基础知识 ffplay播放 全屏播放 ffplay -i .\0001.mp4以720P播放 ffplay -i -vf scale1280:-1 .\0001.mp4指定分辨率 ffplay -volume 1 -x 1280 -y 720 .\0001.mp4格式转换 码率设置 ffmpeg -i input.mp4 -b:v 1000 output.mp4-i input 输入路径 -b:v 帧率 …

数字音频基础知识

了解声音 声波 声音始于空气中的振动,如吉他弦、人的声带或扬声器纸盆产生的振动。这些振动一起推动邻近的空气分子,而轻微增加空气压力。压力下的空气分子随后推动周围的空气分子,后者又推动下一组分子,依此类推。高压区域穿过…

2022-08-13 零基础吉他入门知识(三) 六线谱,和弦图和爬格子的知识补充,吉他中的和弦:大三和弦的各个和弦图理解

文章目录 1.六线谱2.和弦图(补充)3.爬格子(补充):按照六根弦的音阶来爬格子4.吉他中的大三和弦4.1.C和弦4.2.D和弦4.3.E和弦4.4.G和弦4.5.A和弦4.6.练习和要点 1.六线谱 六线谱的最上面是一品(吉他最下面最细的那根弦)有时候六线谱会标注数字 其中,0代表空弦,1代表一品,其他数…

2022-07-31 零基础吉他入门知识(一):认识吉他(琴弦,品格)等,如何弹奏吉他,左右手指法练习,扫弦,和弦级数和常见和弦

文章目录 0.前言1.吉他的琴弦1.1.叫什么?1.2.分别是什么音? 2.吉他的品格2.1.名词介绍2.2.变调夹2.3.看懂和弦图 3.开始弹吉他3.1.怎么弹3.2.右手指法练习3.2.左手指法练习(爬格子)3.4.左右手配合 4.扫弦4.1.怎么扫4.2.民谣扫弦(节奏型)4.3.慢谣扫弦(节奏型) 5.和弦5.1.和弦级…