抓取网站的5种方法

article/2025/9/30 2:04:27

来自维基百科
Web爬虫（有时也称为蜘蛛）是一种Internet机器人，通常系统地浏览Web索引，以进行Web索引。
Web搜寻器以要访问的URL列表（称为种子）开始。搜寻器访问这些URL时，它会识别页面中的所有超链接，并将它们添加到要访问的URL列表中。如果搜寻器正在执行网站的归档，它会复制并保存信息。该档案库被称为存储库，旨在存储和管理网页的集合。信息库类似于存储数据的任何其他系统，例如现代数据库。
让我们开始！！

Metasploit

此辅助模块是模块化的Web爬网程序，可与wmap（有时）或独立使用。
use auxiliary/crawler/msfcrawler
msf auxiliary(msfcrawler) > set rhosts www.example.com
msf auxiliary(msfcrawler) > exploit
从屏幕快照中，您可以看到该屏幕快照已加载了搜寻器，以便从任何网站中精确地隐藏文件，例如about.php，jquery联系人表格，html等，而使用浏览器无法从网站上精确地进行隐藏。为了收集任何网站的信息，我们可以使用它。
在这里插入图片描述

Httrack

HTTrack是Xavier Roche开发的免费开放源代码Web搜寻器和脱机浏览器
它允许您将Internet上的万维网站点下载到本地目录，以递归方式构建所有目录，并从服务器到计算机获取HTML，图像和其他文件。HTTrack安排原始站点的相对链接结构。
在终端内输入以下命令
httrack http://tptl.in –O /root/Desktop/file
它将输出保存在给定目录/ root / Desktop / file中。
在这里插入图片描述

从给定的屏幕截图中，您可以观察到这一点，它使包含html文件以及JavaScript和jquery的网站信息变得愚蠢
在这里插入图片描述

Black Widow

此Web Spider实用程序检测并显示用户选择的网页的详细信息，并且它提供其他网页工具。
BlackWidow的干净，逻辑标签式界面足够简单，适合中级用户使用，但在底层却足以满足高级用户的需求。只需输入您选择的URL，然后按Go。BlackWidow使用多线程来快速下载所有文件并测试链接。对于小型网站，该操作仅需几分钟。
您可以从此处下载。
在地址字段中输入您的URL http://tptl.in，然后按执行。
在这里插入图片描述

点击上start按钮就开始对左边URL扫描，然后选择一个文件夹来保存输出文件按钮。
从屏幕截图中，您可以观察到我浏览了C：\ Users \ RAJ \ Desktop \ tptl以便将输出文件存储在其中。
在这里插入图片描述

当您打开目标文件夹tptl时，您将获得图像或内容的网站完整数据，html文件，php文件和JavaScript都保存在其中。
在这里插入图片描述

Website Ripper Copier

Website Ripper Copier（WRC）是一种通用的高速网站下载器软件，用于保存网站数据。WRC可以将网站文件下载到本地驱动器以进行脱机浏览，提取特定大小和类型的网站文件，例如图像，视频，图片，电影和音乐，并以具有恢复支持的下载管理器的身份检索大量文件，和镜像站点。WRC还是站点链接验证器，资源管理器和选项卡式反弹出Web /脱机浏览器。
Website Ripper Copier是唯一可以从HTTP，HTTPS和FTP连接恢复中断的下载，访问受密码保护的网站，支持Web Cookie，分析脚本，更新检索到的网站或文件并启动五十多个检索线程的网站下载器工具
您可以从此处下载。
选择“websites for offline browsing（用于脱机浏览的网站）”选项。
在这里插入图片描述

输入网站URL作为http://tptl.in，然后单击下一步。
在这里插入图片描述

提取目录路径以保存输出结果，然后单击立即运行。
在这里插入图片描述

当您打开选定的文件夹tp时，将在其中获取CSS，php，html和js文件。
在这里插入图片描述

Burp Suite Spider

Burp Spider是用于自动爬网Web应用程序的工具。通常最好手动映射应用程序，但是对于非常大的应用程序或时间不足的情况，可以使用Burp Spider来部分自动化此过程。
有关更多详细信息，请从此处阅读我们以前的文章。
从给定的屏幕截图中，您可以观察到我已经获取了http://tptl.in的http请求；现在借助“操作”标签发送给Spider。
在这里插入图片描述