工具说明书 - 网页内容抓取工具Web Scraper(一)

article/2025/9/30 2:07:42

Web Scraper,官网自称为排名第一的网页抓取/提取插件,可以安装在Chrome和Firefox上。

安装路径:

https://chrome.google.com/webstore/detail/web-scraper-free-web-scra/jnhgnonknehpejjnehehllkliplmbmhn?hl=enhttps://chrome.google.com/webstore/detail/web-scraper-free-web-scra/jnhgnonknehpejjnehehllkliplmbmhn?hl=en

Web Scraper – Get this Extension for 🦊 Firefox (en-US)https://addons.mozilla.org/en-US/firefox/addon/web-scraper/

也可以用浏览器打开官网,点击Install,则自动选择安装。

Web Scraper - The #1 web scraping extensionhttps://webscraper.io/

也可以在浏览器右上方找到Extensions图标,点开,下拉菜单,找到Manage Extensions,也就是进入了chrome://extensions。

左上角点开,然后左下角进入Web Store,之后打开新页面,在里面搜索web scraper,安装即可。

相关使用说明,最好看一下视频:

Web Scraper Tutorialshttps://webscraper.io/tutorials

不过是Youtube链接,可能有点困难,网上也可随便搜搜也有教学。

这个插件普通版是免费的,加强版要收费,如果有钱有需要,不花就浪费。

使用这个插件,因为集成在浏览器里,使用起来很方便,很适合菜鸟和普通非专业技术人员使用,如果是需要更强大更定制化的网页数据抓取,可能需要更专业的工具或者自己编程实现了。

下面就我使用这个插件的情况做一下介绍,以作记录供你我他参考。

-------------------------------------------------------------------- 

第一步,安装,如上介绍。

第二步,以Chrome为例,在浏览器地址栏输入:chrome://extensions/

查看Web Scraper是否安装成功并启用。

第三步,F12或者Ctrl+Shift+I,打开开发者工具:

打开后,选择底部显示模式:

然后找到最后一个WebScraper标签,点击进入。

好了,准备工作已经完成。

---------------------------------------------------------- 

第一个例子,按照官网的教学视频,操作一遍。

打开官方提供的测试网站:

Web Scraper Test Siteshttps://webscraper.io/test-sites/e-commerce/allinone

官方提供的测试网站是一个电商网站,我们先简单浏览一下,里面分了两级,一级是主分类:电脑和手机;一级是子分类,在电脑和手机下面的分类包含具体的产品项,产品项点开是具体的产品信息。

我们的目标是要通过浏览两级的目录结构,把所有的产品信息提取出来。

先设置登录页面,入口网址,landing page。从这个页面开始,Web scraper会浏览整个网站,我们需要创建多个选择器,形成一个树结构,类似于网站构建时的结构。

这些选择器定义了网站如何被浏览和数据如何被提取。

如下图所示操作,就是要Create Sitemap,输入地址为上面的浏览器显示地址:Web Scraper Test Siteshttps://webscraper.io/test-sites/e-commerce/allinone

一个完整数据提取就是基于一个sitemap,我们配置好sitemap后,设置可以保存后下次继续使用,需要重新提取直接执行即可。

Create site时命名为E-commerce。

这时后面有个Data preview按键,点开后发现目前是什么数据都没有的,需要添加选择器。

初始页面里的分级的栏目,为了访问,我们要创建链接形式的选择器。点击Add new selector。

然后点击select进行选择链接形式的网页元素。

选择器命名为category-linkm,类型为link,点击select后选择两个链接,勾选Multiple,Parent Selectors就是登录页面。

点击Select后在网页上选择元素,完成后点击Done selecting。

验证选择结果,可以点击Element preview查看选择是否正确,并点击data preview看是否正常工作。

然后Save selector。

下一步我们创建下一级链接的选择器。

网页上点击Computer,继续创建链接形式的选择器。

点击保存。然后创建产品页的链接选择器,先点击Laptops进入产品列表页。

点击产品链接进入产品页,创建Text类型的选择器,将需要的数据提取出来。

 

        

 

选择器创建完毕,让我们看一下,按照层级关系点开selectors,并随时点开选择器后面的Data preview查看数据是否正常。

还可以使用selectors graph查看我们创建的选择器的结构。

点击Scrape开始抓取数据,会看到新网页打开,按照我们设置的登录网址和选择器,浏览页面,提取数据。

休息一下,等待数据提取。

完成后会关闭弹出的网页,并有提示。

然后点击Refresh,显示提取的数据。

选择导出到CSV文件。

 打开CSV文件,数据如下:

OK,CSV文件到手,告一段落。

点击Browse回到数据显示。

还可以导出Export Sitemap,将Sitemap JSON内容保存下来,下次创建Sitemap时直接导入,更加方便快捷。

如果有多个Sitemap,操作前可以选择或切换执行数据提取的Sitemap。


http://chatgpt.dhexx.cn/article/cfjZKmbK.shtml

相关文章

如何进行网页抓取数据??

最近老是做导数据,有时候没有旧库了,我们可以从老网页抓取数据 主要思路:通过把网页转换成doc式的html,然后进行获取元素的值 我来写个案例: 这是目标网页: http://zxjg.yn.gov.cn/zxjg/gongshi?rowIndex1&re…

网页抓取及信息提取(三)

R星校长 第3关:网页数据分析 任务描述 下图是2016年国防科技大学分数线的网页,在浏览器中我们可以看到,各省的最高分、最低分、平均分都整齐地排列自在表格中。一个网页的源代码时常有成百上千行,其中很多代码都是为了布局页面样…

爬虫入门(五)抓取网页数据

前面已经实现了获取整个网页HTML的功能,并且在获取HTML的基础上,加上一些诸如:下载出错自动重试、用户代理、服务器代理、爬取深度、避免重爬、id遍历、链接遍历等进阶功能。而且在处理过程中也初步使用了正则表达式。 但是前面我们获取的HT…

网页抓取数据-网页抓取数据的软件免费

在互联网络的时代,信息如同大海般没有边际。甚至我们获取信息的方法已经发生改变:从传统的翻书查字典,继而变成通过搜索引擎进行检索。我们从信息匮乏的时代一下子走到了信息极大丰富今天。 随着互联网的发展及普及,互联网用户迅速…

使用爬虫抓取网页内容

对于爬虫我们首先想到的是 python,但是对于前端来说我们通常是 node 来写爬虫,去抓取网站的数据而已。 爬虫的基本流程 1、发起请求 使用http库向目标站点发起请求,即发送一个Request,第三方请求库如 request,axios 等…

网页数据抓取-网页实时数据抓取软件

网页数据抓取,随着社会的发展,互联网的普及,不管是企业还是个人都意识到数据的重要性。今天给大家分享一款免费的网页数据抓取软件。只要点点鼠标就能轻松采集你想要的内容不管是导出还是自动发布都支持!详细参考图片!…

网页抓取软件-免费网页自动采集抓取任意内容软件

网页抓取工具,网页抓取工具主要是用来收集数据。这也是网页抓取工具最直接和最常见的用途。由于网页抓取是一个工具是一个软件,程序运行速度极快,而且不会因为做重复的事情而感到疲劳,所以使用数据提取来获取大量的数据就变得非常…

Python网页抓取教程

​— Python网页抓取教程:循序渐进 — 抓取网页入门其实挺简单的。在之前的文章中我们介绍了怎么用C#和JAVA两种方法来抓取网页,这一期给大家介绍一种更容易,也是使用最广泛的一种抓取方法,那就是Python。 说起Python,大家应该并…

网页抓取及信息提取(一)

R星校长 第1关:利用URL获取超文本文件并保存至本地 当我们想要在浏览器中打开一个网页时,需要在浏览器的地址栏中输入该网页的url,例如在地址栏中输入百度搜索网站的首页url:https://www.baidu.com/ ,点击确认后&…

五,网页抓取

五,网页抓取 前言一、Requests库的使用二、定制Requests1.传递URL参数2.定制请求头3.设置超时2.发送post请求 感谢 前言 看完前几章,你可能已经对爬虫有了一个大概了解,接下来让我们深入学习静态网页的抓取。 一、Requests库的使用 在静态网…

网站抓取工具

经常由于某些原因我们需要爬取某一个网站或者直接复制某一个站点,到网上找了很多工具进行测试,试了很多各有各的问题,最终选择了Teleport Ultra,用起来效果很好;具体的操作手册等东西就不在这里说了,网上搜…

网页信息抓取

——看到社区里面好多人都有抓取网页信息的需要,特地把我自己做的DEMO放上来,供大家参考,也希望大家多提意见,共同学习完善这个小程序. 准备工具:Dreamweaver,RegexBuddy 抓取分3步进行: 1)下载网页数据; 2)处理网页得到想要的数据; 3)保存数据 一、下载网页源代码 …

网页抓取 - 完整指南

💂 个人网站:【海拥】【摸鱼游戏】【神级源码资源网】🤟 前端学习课程:👉【28个案例趣学前端】【400个JS面试题】💅 想寻找共同学习交流、摸鱼划水的小伙伴,请点击【摸鱼学习交流群】 目录 介绍什么是网页抓…

使用 Python 进行网页抓取

如果您知道如何做到这一点,那么对于企业和个人使用来说,网络抓取似乎是一种非常有用的节省时间的工具。我们将重点介绍为什么您应该使用 Python 进行网页抓取,并为您提供有关如何完成它的快速教程,包括使用哪些Python 开发工具。 …

网页数据抓取工具 (谷歌插件 web Scraper)

最简单的数据抓取教程,人人都用得上 Web Scraper 是一款免费的,适用于普通用户(不需要专业 IT 技术的)的爬虫工具,可以方便的通过鼠标和简单配置获取你所想要数据。例如知乎回答列表、微博热门、微博评论、电商网站商品…

国内五大主流网站内容抓取工具/采集软件大盘点

大数据技术用了多年时间进行演化,才从一种看起来很炫酷的新技术变成了企业在生产经营中实际部署的服务。其中,数据采集产品迎来了广阔的市场前景,无论国内外,市面上都出现了许多技术不一、良莠不齐的采集软件。 今天,我…

排名前20的网页爬虫工具

网络爬虫在许多领域都有广泛的应用,它的目标是从网站获取新的数据,并加以存储以方便访问。而网络爬虫工具越来越为人们所熟知,因为它能简化并自动化整个爬虫过程,使每个人都可以轻松访问网络数据资源。 1. Octoparse Octoparse是一个免费且功能强大的网站爬虫工具,用于从网…

2020年30种最佳的免费网页爬虫软件

原文链接:2020年30种最佳的免费网页爬虫软件 网页抓取(也称为网络数据提取,网络爬虫,数据收集和提取)是一种网页技术,从网站上提取数据。将非结构化数据转换为可以存储在本地计算机或数据库中的结构化数据…

12款最常使用的网络爬虫工具推荐

网络爬虫在当今的许多领域得到广泛应用。它的作用是从任何网站获取特定的或更新的数据并存储下来。网络爬虫工具越来越为人所熟知,因为网络爬虫简化并自动化了整个爬取过程,使每个人都可以轻松访问网站数据资源。使用网络爬虫工具可以让人们免于重复打字…

推荐15款免费的网页抓取软件

网页抓取(也称为网络数据提取或网页爬取)是指从网上获取数据,并将获取到的非结构化数据转化为结构化的数据,最终可以将数据存储到本地计算机或数据库的一种技术。 网页抓取是通过抓取软件实现的。当你在使用浏览器如Chorme浏览页面…