神箭手云爬虫平台 如何在1小时内编写简单爬虫

article/2025/10/4 5:30:49

既然你来到了这里,想必你肯定已经知道了神箭手云爬虫平台是干什么的,目的也是非常的明确。
那么接下来的过程中,我将给你演示如何在最快时间内编写一个简单的爬虫,每一个属性的讲解,将会让你一路顺风。

demo项目GitHub地址:
https://github.com/zhou1178539345/shenjianshou_spiders/


####进入爬虫市场

首先进入爬虫市场,登录,链接在这–爬虫市场。
这里写图片描述

在这里也可以使用别人的爬虫和API,但是这不是我们的目的,况且博主自己把大部分爬虫看了,很少会有人将爬虫的代码开源出来,只有去官方的GitHub能看到几个例子,但是对于初学者来说,还是稍微难了一点。

这里是神箭手的开发文档,如果你想真的写爬虫,最好还是先过一遍文档,链接在这–开发文档。

第一遍应该能了解个大概,但是又不知从何入手,没关系,主题来了。


####创建爬虫

这里写图片描述

进入我的控制台或者我的爬虫,点击新建应用。

然后弹窗中选择自己开发,输入名字,点击创建。

进入到项目中。


####编辑代码

这里是我一个采集名叫牛人微信的一个小网站。

var configs = {domains: ["weixin.niurenqushi.com"],//定义爬虫爬取哪些域名下的网页, 非域名下的url会被忽略以提高爬取速度scanUrls: ["http://weixin.niurenqushi.com/"],//定义爬虫的入口链接, 爬虫从这些链接开始爬同时这些链接也是监控爬虫所要监控的链接contentUrlRegexs: "http://weixin\\.niurenqushi\\.com/article/list\\-\\d+.html",//定义”内容页”url的规则“内容页”是指包含要爬取内容的网页, 比如,“http://www.qiushibaike.com/article/117844937“就是糗事百科一个”内容页”helperUrlRegexes: ["http://weixin\\.niurenqushi\\.com/article/2016-11-30/\\d+.html"],//定义”列表页”url的规则对于有列表页的网站, 使用此配置可以大幅提高爬虫的爬取速率“列表页”是指包含”内容页”列表的网页, 比如,“http://www.qiushibaike.com/8hr/page/2/?s=4867046“就是糗事百科的一个”列表页”enableJS: false,//是否使用JS渲染默认值是false, 如果需要使用JS渲染, 可以设置此项为trueinterval: 3000,//爬虫爬取每个网页的时间间隔单位: 毫秒fields: [//定义”内容页”的抽取规则规则由一个个field组成, 一个field代表一个数据抽取项{name: "article_title",//名称字段,可以随便取selector: "//div[contains(@class,'contitle')]/h1",//指的是你要抓取的内容在哪个标签中,这里就是在一个名叫contitle的div中的h1中抓取内容required: false//是否能为空},{name: "article_content",selector: "//div[contains(@id,'contentbody')]",required: false},{name: "article_publish_time",selector: "//div[contains(@class,'contitle')]//div",required: false},{name: "article_topic",selector: "//a[contains(@class,'ly')]",required: false}]
};//下面这个方法,当一个field的内容被抽取到后进行的回调, 在此回调中可以对网页中抽取的内容作进一步处理
configs.afterExtractField = function(fieldName, data, page){if (fieldName == "article_content") {return cacheImg(data); // 返回可被托管到图片云服务器上的url,如果你只想将数据保存在本地,那么这个可以不写。}if(fieldName=="article_publish_time"){data = Date.parse(new Date())/1000+"";//将抓取到的时间转换成2016-12-4形式}return data;
};var crawler = new Crawler(configs);
crawler.start();//开启爬虫

可以在右边测试栏先测试。

####抓取结果

这里写图片描述

点击左侧总览,然后右上角启动。

稍作等待。

点击左侧爬取结果。

####发布结果
不论你是想发布到网站上还是保存数据下来,平台都有方法。

如果想要导出Excel表格形式,点击左侧导出到文件。按需求选择,点击生成文件即可。

如果是想发布到网站上,点击这里,会有很好的解释。–数据发布

这里有很多集成式网站的接口,可以直接使用,博主就是用的wecenter发布的数据,www.nicesunny.com,网站没啥东西。

如果在发布过程后,数据被发布了,但是其中的图片没有显示出来,那么可以试试神箭手平台的图片托管,有三种,阿里,七牛,神箭手,为了方便,我用的神箭手。

如何将图片托管到神箭手?

这里写图片描述

如果喜欢的话,请在GitHub上给上一颗star吧!


http://chatgpt.dhexx.cn/article/w7DOrvYO.shtml

相关文章

神箭手云爬虫工具

title: 神箭手云爬虫 categories: 神箭手 tags:爬虫 分为: 入口页,帮助页,内容页 入口页: scanUrl 爬虫网页的入口 帮助页:helperurl 一帮包含大量的内容页(列表),多数情况下事业…

JS求绝对值

微信小程序开发交流qq群 173683895 承接微信小程序开发。扫码加微信。 需求,一个变量,需要判断它的值为负数时不能小于-20,正数也不能小于20,这个时候就需要用到求绝对值了。 Math.abs(num) > 求绝对值 使用示例&#xf…

javascript:求绝对值最小的数

问题来源:http://androidguy.blog.51cto.com/974126/1129543 有一个已经排序的数组(升序),数组中可能有正数、负数或0,求数组中元素的绝对值最小的数,要求,不能用顺序比较的方法(复杂…

力扣 -----最小绝对值(JavaScript解法)

一、题目描述 二、示例 三、解题思路 先进行一个排序,然后使用双指针,依次进行比较,将比较的值进行存储,最小值改变的话,数组置空,最小值改变,如果和最小值相等的话直接push。我刚开始写的排序…

python3 绝对值_python3对序列求绝对值

原博文 2018-11-08 11:27 − http://www.cnblogs.com/itdyb/p/5731804.html 一开始我是这样写的,据说这样写python2是可以的: myList [-1,2,-3,4,-5,6]absList map(abs, myList) &... 0 1936 相关推荐 2019-12-23 10:33 − ## Python3使用sud…

【前端】JavaScript基础(二)

目录 一、内置对象 Math对象 Data日期 数组对象 字符串对象 字符串的不可变 根据字符返回位置 根据位置返回字符(重点) 字符串基本方法(重点) 字符串的替换与转换 二、简单类型和复杂类型 简单类型传参 复杂类型传参 一、内…

LeetCode 任意子数组和绝对值的最大值(JavaScript)

这道题目,我是通过看题解,然后通过自己思考才写出来的,第一次写博客,如果有不好之处,请谅解。 写这个题目之前,我们先了解一下前缀和,通过下面例子,或许你就明白了什么是前缀和了。…

常用JavaScript控制结构语句,绝对值,累加,阶乘,循环

计算一个数的绝对值 function abs(x) {if (x > 0) {return x;} else {return -x;} } console.log(abs(10) abs(-10)); //>true计算数组元素之和 let arr [1, 3, 5];function sum(array) {let sum 0;for (let x of array) { //循环数组把每个元素赋给xsum x;}return…

02-Node.js基础(一)

目录 一、什么是Node.js二、Node.js在软件架构中的地位三、Node.js 可以做什么(作用)浏览器端的 JavaScriptNode端的JavaScript 四、Node.js APIsWeb端APINode.js端APIWeb端JS与Node端JS对比 五、安装 Node.js第一步:在官网下载 Node.js 安装…

vue取绝对值

先放效果&#xff1a; 代码 <template><el-input v-model"num" placeholder"请输入数字" /><el-button type"primary" click"changeNum">取绝对值</el-button> </template> import { ref } from &quo…

关于JSZIP压缩图片打包下载的一些用法

功能介绍 前端在处理一些批量文件或者图片时候&#xff0c;通过使用异步上传&#xff0c;减少表单一次性提交的的数据量。并将这些图片或者文件根据用户自定义压缩、分类保存到本地。是一个用于压缩文件和解压的JavaScript库。 官网地址 https://stuk.github.io/jszip/docume…

jsZip将多个文件压缩成一个压缩包

在项目开发中&#xff0c;搭档大佬要做一个断点续传的功能&#xff0c;让我帮忙研究一下前端将多个文件压缩成一个压缩包的方法&#xff0c;所以就有了这篇文章。 我的demo是写在vue中的&#xff0c;所以首先要有一个vue环境&#xff0c;才能进行接下来的步骤。那么下面我们就…

前端vue使用jszip压缩文件

一.引入element的上传文件组件 <el-form-item label"文件"><el-uploadclass"upload-demo"dragaction"https://run.mocky.io/v3/9d059bf9-4660-45f2-925d-ce80ad6c4d15"multiple:before-upload"beforeUpload"><el-icon …

vue3中使用jszip压缩文件

1、安装依赖 npm install jszip npm install file-saver --save 2、使用 <template><el-card class"mb15"><template #header><span>jszip</span></template><!-- 二维码容器 --><div id"qrCodeBox">&…

docxtemplater、pizzip、jszip-utils、file-saver 前端实现导出word

一、准备工作 1、插件安装&#xff1a; npm i docxtemplater pizzip jszip-utils file-saver -S2、安装完成&#xff1a; 3、导出的模板文件。 我这里是将其命名word-export.docx,并将其放在public/docxs目录下&#xff0c;如图所示&#xff1a; 二、实现代码 页面使用&…

【sduoj】前端JSZip库的使用

2021SCSDUSC 文章目录 JSZIP安装使用引入实例化读取zip文件读取压缩包中的文件遍历压缩包内的所有文件&#xff08;单层&#xff09; 小结 JSZIP JSZip是一个用于创建、读取和编辑.zip文件的javascript库&#xff0c;具有好用而简单的 API。 安装 在sduoj项目中&#xff0c…

zipJS 前端压缩使用

前端在处理文件时&#xff0c;对于大文件或者多个文件上传、下载、编辑&#xff0c;直接使用原文件不方便&#xff0c;最近使用一个可以前端中处理 zip 文件的库&#xff0c;JSzip&#xff0c;主要功能&#xff1a;前端中压缩、解压缩、编辑zip文件。 在 nodeJS 中&#xff0…

一篇文章介绍JSZip预览压缩包中的文件

安装依赖 npm i jszip 前提准备 准备好一个压缩包&#xff0c;格式为zip&#xff0c;存放两张png图片。 代码实现 <template><h1>JSZip,预览压缩包中的文件</h1><img v-for"(n,m) in picArr.arr":src"n":style"{width:200px}&qu…

VUE+jszip实现下载多个文件导出为一个zip格式

项目需求&#xff1a;将多个文件/图片导出为一个zip格式压缩包&#xff0c;点击<下载全部附件>按钮下载上面三个文件 1、安装jszip和file-saver插件 npm install jszip npm install file-saver2、在所需页面引入 import JSZip from "jszip";import FileSaver …