网页抓取:PHP实现网页爬虫方式小结

article/2025/5/16 23:40:52

抓取某一个网页中的内容,需要对DOM树进行解析,找到指定节点后,再抓取我们需要的内容,过程有点繁琐。LZ总结了几种常用的、易于实现的网页抓取方式,如果熟悉JQuery选择器,这几种框架会相当简单。

一、Ganon

项目地址: http://code.google.com/p/ganon/

文档: http://code.google.com/p/ganon/w/list

测试:抓取我的网站首页所有class属性值是focus的div元素,并且输出class值

<?phpinclude 'ganon.php';$html = file_get_dom('http://www.ido321.com/');foreach($html('div[class="focus"]') as $element) {echo $element->class, "<br>\n"; }
?>

 

结果:

ganon

二、phpQuery

项目地址:http://code.google.com/p/phpquery/

文档:https://code.google.com/p/phpquery/wiki/Manual

测试:抓取我网站首页的article标签元素,然后出书其下h2标签的html值

<?php
include 'phpQuery/phpQuery.php'; 
phpQuery::newDocumentFile('http://www.ido321.com/'); 
$artlist = pq("article"); 
foreach($artlist as $title){ echo pq($title)->find('h2')->html()."<br/>"; 
} 
?>

 

结果:

pq

  三、Simple-Html-Dom

项目地址: http://simplehtmldom.sourceforge.net/
文档: http://simplehtmldom.sourceforge.net/manual.htm

测试:抓取我网站首页的所有链接

<?php
include 'simple_html_dom.php';
//使用url和file都可以创建DOM
$html = file_get_html('http://www.ido321.com/');//找到所有图片
// foreach($html->find('img') as $element)
//        echo $element->src . '<br>';//找到所有链接
foreach($html->find('a') as $element)echo $element->href . '<br>'; 
?>

 

结果:(截图是一部分)

shd

 

四、Snoopy

项目地址:http://code.google.com/p/phpquery/

文档:http://code.google.com/p/phpquery/wiki/Manual

测试:抓取我的网站首页

<?php
include("Snoopy.class.php");
$url = "http://www.ido321.com";
$snoopy = new Snoopy;
$snoopy->fetch($url); //获取所有内容echo $snoopy->results; //显示结果
// echo $snoopy->fetchtext ;//获取文本内容(去掉html代码)
// echo $snoopy->fetchlinks($url) ;//获取链接
// $snoopy->fetchform ;//获取表单 
?>

 

结果:

snoopy

 

五、手动编写爬虫

如果编写能力ok,可以手写一个网页爬虫,实现网页抓取。网上有千篇一律的介绍此方法的文章,LZ就不赘述了。有兴趣了解的,可以百度  php 网页抓取。

ps:资源分享

常见的开源爬虫项目请戳:http://blog.chinaunix.net/uid-22414998-id-3774291.html


注:原文博客地址 http://www.ido321.com/1158.html


http://chatgpt.dhexx.cn/article/2LT2275h.shtml

相关文章

php中取页面的值_php如何抓取网页上的数据

php中抓取网页内容的实例详解 方法一&#xff1a;使用file_get_contents方法实现$url "http://news.sina.com.cn/c/nd/2016-10-23/doc-ifxwztru6951143.shtml"; $html file_get_contents($url); //如果出现中文乱码使用下面代码 //$getcontent iconv("gb2312…

关于如何使用PHP抓取网页数据并进行处理的经验

在网络时代&#xff0c;数据是无处不在的。很多时候&#xff0c;我们需要从网页上获取特定的数据&#xff0c;以便进行进一步的处理和分析。而PHP作为一种强大的编程语言&#xff0c;提供了丰富的函数和库来帮助我们实现这个目标。本文将分享一些关于如何使用PHP抓取网页数据并…

php根据URL获得网页内容

php 中根据url来获得网页内容非常的方便&#xff0c;可以通过系统内置函数file_get_contents(),传入url,即可返回网页的内容&#xff0c;比如获得百度首页的内容代码为&#xff1a; <?php $html file_get_contents(http://www.baidu.com/);echo $html; 就可以显示出百度首…

php抓取网页内容,获取网页数据

php通过simple_html_dom实现抓取网页内容&#xff0c;获取核心网页数据&#xff0c;将网页数据写入本地 xxx.json 文件 其代码实现逻辑&#xff1a; 1. 引入simple_html_dom.php文件 require_once simple_html_dom-master/simple_html_dom.php; 2. 获取远程或者本地html文件…

PS Adobe软件使用 快捷键

两年前学的&#xff0c;为了考一个高新 怕自己忘了 仅为防止以后自己忘记而做的备忘笔记&#xff0c;请勿吐槽 图片类型 JPEG 有损压缩格式(能够将图像压缩在很小的储存空间&#xff0c;图像中重复或不重要的资料会被丢失&#xff0c;因此容易造成图像数据的损伤。尤其是…

html选区控制怎么用,ps载入选区的快捷键是什么?

ps载入选区的快捷键是&#xff1a;ALTSO。在ps中&#xff0c;使用“ALTSO”快捷键&#xff0c;会弹出“载入选区”对话框&#xff0c;然后选择相应的通道&#xff0c;点击“确定”&#xff0c;即可载入选区。 ps载入选区有三种方法&#xff1a;右键菜单、ps载入选区快捷键、以及…

计算机中的PS颜色填充快捷键,ps颜色填充快捷键【设置办法】

喜欢使用电脑的小伙伴们一般都会遇到win7系统ps颜色填充快捷键的问题&#xff0c;突然遇到win7系统ps颜色填充快捷键的问题就不知道该怎么办了&#xff0c;其实win7系统ps颜色填充快捷键的解决方法非常简单&#xff0c;按照 1&#xff1a;首先我们先打开打开ps软件&#xff0c;…

html自由变换图形,ps自由变换的快捷键是什么?

在当前图层中&#xff0c;执行“编辑”——“自由变换”&#xff0c;或者使用ps自由变换快捷键ctrlT&#xff0c;周围会出现变换控件定界框。 当我们使用ps自由变换快捷键ctrlT&#xff0c;开启自由变换之后&#xff0c;然后再配合Ctrl、Shift、Alt&#xff0c;可以对图像进行缩…

计算机中的PS颜色填充快捷键,ps颜色填充快捷键【解决技巧】

很多小伙伴都遇到过ps颜色填充快捷键的困惑吧&#xff0c;一些朋友看过网上零散的ps颜色填充快捷键的处理方法&#xff0c;并没有完完全全明白ps颜色填充快捷键是如何解决的&#xff0c;今天小编准备了简单的解决办法&#xff0c;只需要按照 1&#xff1a;首先我们先打开打开ps…

计算机中的PS颜色填充快捷键,ps中填充颜色的快捷键是什么(填充Shift+F5)

很多小伙伴都遇到过ps颜色填充快捷键的困惑吧&#xff0c;一些朋友看过网上零散的ps颜色填充快捷键的处理方法&#xff0c;并没有完完全全明白ps颜色填充快捷键是如何解决的&#xff0c;今天小编准备了简单的解决办法&#xff0c;只需要按照下面方法操作就行。 PS填充快捷键是S…

PS常用快捷键

PS常用快捷键 1. PS工具快捷键2. 常用的通用快捷键2.1 文档操作2.2 画面显示操作2.3 其他操作 3. 图层操作的快捷键4. 图像调整操作快捷键5. 移动工具模式快捷键6. 选区类工具模式快捷键6.1 选框工具模式6.2 套索工具模式6.3 快速选择工具模式 7. 画笔工具模式快捷键 声明&…

html5如何快速选择工具,PS快速选择工具怎么使用?快捷键是什么?

快速选择工具是创建选区时使用频率相当高的一个工具&#xff0c;不但使用起来十分方便&#xff0c;创建的选区精度也十分高。下面我们就一起来看看PS快速选择工具怎么使用&#xff1f;快捷键是什么吧&#xff01; 1、快速选择工具 快速选择工具使用一个可以调节大小的原型笔尖来…

Ps怎么进行反选

Ps怎么进行反选&#xff0c;ps是我们日常生活中也会经常用到的一款强大的图像处理软件&#xff0c;不论是美工还是平面设计师、插画设计师等等&#xff0c;都会用到ps软件&#xff0c;那么在ps软件里面&#xff0c;怎么样对图像进行反选&#xff1f;其实也很简单哦&#xff01;…

应用商店的ASO和搜索引擎的SEO的区别

ASO和SEO&#xff0c;目标相似&#xff0c;有着异曲同工之妙&#xff0c;两者都是提高搜索排名的方式&#xff0c;具体有什么区别呢&#xff1f;今天柚鸥ASO给大家做一下总结。 SEO是指搜索引擎优化&#xff0c;利用搜索引擎的规则来提高网站&#xff08;例如&#xff1a;百度…

关于ASO优化和ASM投放

ASO是指应用商店搜索优化&#xff0c;有助于提高应用商店中产品的访问量和下载转化率。ASM是指官方应用市场提供的竞价广告位。无论进行的是ASO优化还是ASM投放&#xff0c;我们都要给应用进行标题、副标题、关键词、详情描述、截图预览、视频预览进行具体设置和初步优化。 应…

aso是做什么的_ASOer的目标

ASO是“应用商店优化”的简称。ASO(App store Optimization)就是提升你APP在各类APP应用商店/市场排行榜和搜索结果排名的过程。类似普通网站针对搜索引擎的优化,即SEO(Search Engine Optimization)优化。 ASO优化就是利用App Store的搜索规则和排名规则让APP更容易被用户搜…

ASO优化之应用商店关键词的实现

投放正确的合适的关键词&#xff0c;能够确保我们的应用获得更高的相关性和知名度。如果我们已经完成研究并想要竞争目标关键词&#xff0c;就需要在商品详情中去实施投放它们。 要在 Google Play Store 中投放——我们要打开 Google Play 控制台并点击“主要应用详情”选项卡…

海外ASO优化之如何给应用选择正确的类别

将我们的应用程序放在Apple App Store和Google Play正确的类别中&#xff0c;不仅对按类别浏览应用的用户有帮助&#xff0c;而且能够帮助我们的应用程序获得良好排名。 1、应用程序属于多个类别的解决方案。 需要选择最能描述我们应用程序的类别&#xff0c;检查一下每个类别…

关于ASO优化的搜索指数

搜索指数指数可以看出该关键词的热度&#xff0c;每一个关键词都对应着相应的指数&#xff0c;它代表着有多少人在搜索这个词。同一个词搜索的人越多&#xff0c;该关键词的热度指数就越高。 在应用商店内每天都会有用户去搜索应用&#xff0c;那么关键词的热度值至少是100。热…

ASO优化之新应用该如何推广

不同的应用它的属性也是不同的&#xff0c;所用的推广套路也是不一样的&#xff0c;所以在推广产品的时候&#xff0c;首先要做竞品分析、产品定位、人群定位等等&#xff0c;然后再制定一系列推广计划。 当我们想要抢占市场份额&#xff0c;首先要知道竞争对手有哪些&#xf…