打开爬取工具页面,使用爬虫工具列表:
开始节点
仅仅是爬虫的起点,所有流程图必须有该节点。
爬取节点
该节点用于请求HTTP/HTTPS页面或接口
请求方法:GET、POST、PUT、DELETE等方法
URL: 请求地址
延迟时间:单位是毫秒,意思是爬取之前延迟一段时间在执行抓取
超时时间:网络请求的超时时间,单位也是毫秒
代理:请求时设置的代理,格式为host:port 如 192.168.1.26:8888
编码格式:用来设置页面的编码格式默认为UTF-8,当解析出现乱码时,可以修改此值
跟随重定向:默认是跟随30x重定向,当不需要此功能时,可以取消勾选
TLS证书验证:此项默认是勾选的,当出现证书一类的异常可以取消勾选此项尝试
自动管理Cookie:请求时自动设置Cookie(自己手动设置的与之前请求的Cookie都会设置进去)
自动去重:勾选时会对url进行去重处理,如果重复则跳过。
重试次数:当请求发生异常或状态码不为200时会进行重试
重试间隔:重试期间的间隔时间(单位为毫秒)