- 先贴效果图片
适合学过php基础和微信开发的朋友共同学习
第1步.微信配置接口url
<?php
//必须写这一句 token可以任意,但必需和微信那里填写的token一致
define("TOKEN","weixin");
if(isset($_GET['echostr'])){$echoStr = $_GET["echostr"];if(checkSignature()){echo $echoStr;//成功则返回exit;}
}
function checkSignature(){$signature = $_GET["signature"];$timestamp = $_GET["timestamp"];$nonce = $_GET["nonce"];$token = "weixin";$tmpArr = array($token, $timestamp, $nonce);sort($tmpArr, SORT_STRING);$tmpStr = implode( $tmpArr );$tmpStr = sha1( $tmpStr );if( $tmpStr == $signature ){return true;echo "成功";}else{return false;echo "失败";}}checkSignature();
?>
第二步:开始写爬虫代码爬数据啦
先看一下,我们要爬的界面是长这个样子的
输入的关键字是微信:
拦截到的查询图书的请求长这样:
http://.../searchresult.aspx?anywords=%ce%a2%d0%c5&ecx=1&efz=0&dt=ALL&cl=ALL&dp=20&sf=M_PUB_YEAR&ob=DESC&sm=table&dept=ALL&code=gb2312
可以看到anywords 后面的不是中文的微信,而是gbk编码的文字再经过urlencode编码后得到的
直接贴爬虫代码:
//获取书列表------------------------------------------------------------------header("Content-type: text/html; charset=utf-8");//根据搜索关键字和页码返回图书数据----------------------------------------function all($key,$page){$key = iconv("utf-8","gb2312",$key); $key = urlencode($key);$url = "http://***.**.**.**/searchresult.aspx?anywords=$key&page=$page&dp=4";$ch = curl_init($url); curl_setopt($ch, CURLOPT_HTTPHEADER, array("Accept-Language: zh-CN,zh", )); curl_setopt($ch, CURLOPT_RETURNTRANSFER, TRUE);$con = curl_exec($ch);
结果如下:
接着是用正则表达式匹配出图书的id,图书名称,图书名,图书责任者,图书出版者,图书出版年,图书索取号,图书馆藏,图书可借
f12查看源代码:
消除换行后:
正则匹配开始~:
$str1=preg_replace("/\s+/", "", $con); //过滤多余回车
//这个正则有点长。。。。
$preg = "/ctrlno=(.*)\"target=\"_blank\">(.*)<\/a><\/span><\/td><td>([^<input].*)<\/td><td>(.*)<\/td><td>(.*)<\/td><tdclass=\"tbr\">(.*)<\/td><tdclass=\"tbr\">(.*)<\/td><tdclass=\"tbr\">(.*)<\/td>/U";
结果图如下:
接下来计算总页数
//获取图书结果数计算出页数-------------------------------------------------------//这里看源代码里显示的是总记录数$preg = "/<fontcolor=\"Red\">(.*)<\/font>/U";preg_match($preg,$str1,$num);//根据总记录数/页面条数 然后向上取整 就得到总页数啦$num = ceil($num[1]/4);//另外判断如果用户输入的页数大于总页数,则返回空数组if($page>$num){$arr = array();return $arr;}
接下来将获得的数据拼接成一本书一本书的数据(不知道怎么说,就大白话说啦)
//用数组拼接数据---------------------------------------------------------------
$arr = array();
//遍历四次,将数据装入四个数组里面,一个大数组装四本书的小数组
for($i=0;$i<4;$i++){//获取图书的馆藏地,因为图书室通过索取号拼的链接另外拿的,不清楚的看下面的方法getAddress$bookAddr=getAddress($mesArr[1][$i]);//0=>书名 1=>出版社 2=>馆藏 3=>可借 4=>作者 5=>出版年 6=>索取号 $arr[$i] = array("0"=>$mesArr[2][$i],"1"=>$mesArr[4][$i],"2"=>$mesArr[7][$i],"3"=>$mesArr[8][$i],"4"=>$mesArr[3][$i],"5"=>$mesArr[5][$i],"6"=>$mesArr[6][$i],"7"=>$bookAddr);}
结果图:吼吼~ 出现啦:
//根据书ctrlno获取藏书点-------------------------------------------------------function getAddress($id){//这个ctrlno就是在匹配图书的详情链接时就有匹配到$url = "http://***.**.**.**/bookinfo.aspx?ctrlno=$id";$ch = curl_init($url);curl_setopt($ch, CURLOPT_HTTPHEADER, array("Accept-Language: zh-CN,zh",));curl_setopt($ch, CURLOPT_RETURNTRANSFER, TRUE);$con = curl_exec($ch);//echo $con;$preg = "/onclick='showLibInfo\(\"[0-9]+\"\)'>(.*)<\/a>/";preg_match_all($preg,$con,$a);//return $a[1];$str = "";//将匹配到的数组生成一个字符串for($i=0;$i<count($a[1]);$i++){$str.=$a[1][$i]."-";}$str = substr($str,0,strlen($str)-1);//$str = str_replace("-", "\n",$str );return $str;}
馆藏地结果图如下:
接下来是细活啦:拼接返回微信的图文里的图书标题,考虑到标题太长不美观,所以只拼接书名,出版社,馆藏还有可借
还是直接贴代码:
//将大数组中的每一个图书小数组转成字符串-------------------------------------------function makeMess($arr,$i,$str){$str = "";$key = "";for($j=0;$j<4;$j++){switch($j){case 0:$key = "书名";break;case 1:$key = "\n"."出版社";break;case 2:$key = "\n"."馆藏";break;case 3:$key = " 可借";break;}$str.= $key.":".$arr[$i][$j]; }return $str;}
另外,点击多图文里的每一个小图文时,要跳到详情页显示所有图书信息给用户看,但如果再用正则匹配一遍明显很费时,所以我决定用url后带参数的方法提交过去,很懒的做法有木有,所以接下来是拼接多图文里面图文的超链接啦,将第一次查询图书时匹配到的图书信息拼在url后面带过去给详情页
一言不合又是贴代码:
//拼接每本书的详情页url---------------------------------------------------------function makeUrl($arr,$i,$str){//这个是我自己做的简单响应式页面,跳转到这里显示图书详细信息啦$url = "http://www.kimtaeyoen.com/library/bookDetail.php?";$str = "";$key = "";for($j=0;$j<8;$j++){switch($j){case 0:$key = "书名";break; case 1:$key = "&出版社";break;case 2:$key = "&馆藏";break; case 3:$key = "&可借";break;case 4:$key = "&责任者";break;case 5:$key = "&出版年";break;case 6:$key = "&索取号";break;case 7:$key = "&馆藏地";break;}$str.= $key."=".$arr[$i][$j];}return $url.$str;}
最后返回微信客户端那边的格式大概是这样的:
没错,不是json格式。。。没打算做成接口,没打算考虑扩展。。
原理如下:
当用户第一次关注时,将用户的openid存入数据表book(字段:openid[与当前公众号联系的唯一标示],book[搜索关键字])中,为什么要存,因为当用户选择页数时候,我们可以通过用户的openid在book表中查出刚才他查的是什么书,当用户输入另外的关键字时,则更新book表里用户对应的book字段为用户当前输入的关键字工具类tool.php的代码如下:
//当用户关注公众号时插入book表openid
function insertuser($openid){//连接数据库$link = mysql_connect("localhost","root","123");//选择数据库mysql_select_db("weixin");$sql = "insert into book(openid) values ('$openid')"; mysql_query($sql);}//当用户非第一次输入搜索关键字时更新book表的book属性function updateSerch($openid,$book){//连接数据库$link = mysql_connect("localhost","root","123");//选择数据库mysql_select_db("weixin");$sql = "update book set book='$book' where openid='$openid'";mysql_query($sql);}//当用户选择页数时查出用户之前输入的查询关键字bookfunction findSerch($openid){//连接数据库$link = mysql_connect("localhost","root","123");//选择数据库mysql_select_db("weixin");$sql = "select book from book where openid='$openid'";$result = mysql_query($sql);if($mess = mysql_fetch_assoc($result)){return $mess['book'];}}
接下来是写微信的接口页面,这个比较简单,
<?php$wechatObj = new Wechat();//如果没有通过GET收到echostr字符串, 说明不是再使用token验证if (!isset($_GET['echostr'])) {//调用wecat对象中的方法响应用户消息$wechatObj->responseMsg();}else{//调用valid()方法,进行token验证if($wechatObj->valid()){echo $echoStr;exit;}}//声明一个Wechat的类, 处理接收消息, 接收事件, 响应各种消息, 以及token验证class Wechat {//相应消息处理public function responseMsg(){//接收微信传过来的xml消息数据$postStr = $GLOBALS["HTTP_RAW_POST_DATA"];//如果接收到了就处理并回复if(!empty($postStr)){//将接收到德xml字符串写入日志,用R标记表示接收到消息$this->logger("R \n".$postStr);//将接收到的消息处理返回一个对象$postObj = simplexml_load_string($postStr,'SimpleXMLElement',LIBXML_NOCDATA);$fromUsername = $postObj->FromUserName;$toUsername = $postObj->ToUserName;$keyword = trim($postObj->Content);$time = time();$RX_TYPE = trim($postObj->MsgType);//消息类型分离,通过RX_TYPE类型作为判断,每个方法都需要将对象$postObj传入switch($RX_TYPE){case "event":$this->receiveEvent($postObj);break;case "text":$this->receiveText($keyword, $fromUsername, $toUsername, $time);break;default:break;}}}//接收事件消息private function receiveEvent($object){//临时定义一个变量, 不同的事件发生时, 给用户反馈不同的内容$content = "";//通过用户发过来的不同事件做处理switch ($object->Event){//用户一关注 触发的事件case "subscribe":include "tool.php";insertuser($object->FromUserName);$content = "欢迎关注图书馆图书查询!";break;//取消关注时触发的事件case "unsubscribe":$content = "取消关注";break;}$result = $this->transmitText($object, $content);echo $result;}//整理好回复图书多图文的回复格式private function getBook($keyword, $fromUsername, $toUsername, $time,$pagesize){// 回复图文的模板$textTpl = "<xml><ToUserName><![CDATA[%s]]></ToUserName><FromUserName><![CDATA[%s]]></FromUserName><CreateTime>%s</CreateTime><MsgType><![CDATA[news]]></MsgType><ArticleCount>5</ArticleCount><Articles><item><Title><![CDATA[%s]]></Title><Description><![CDATA[4]]></Description><PicUrl><![CDATA[http://img3.imgtn.bdimg.com/it/u=3937886759,1529255090&fm=21&gp=0.jpg]]></PicUrl><Url><![CDATA[%s]]></Url></item><item><Title><![CDATA[%s]]></Title><Description><![CDATA[2]]></Description><PicUrl><![CDATA[]]></PicUrl><Url><![CDATA[%s]]></Url></item><item><Title><![CDATA[%s]]></Title><Description><![CDATA[3]]></Description><PicUrl><![CDATA[]]></PicUrl><Url><![CDATA[%s]]></Url></item><item><Title><![CDATA[%s]]></Title><Description><![CDATA[4]]></Description><PicUrl><![CDATA[]]></PicUrl><Url><![CDATA[%s]]></Url></item><item><Title><![CDATA[%s]]></Title><Description><![CDATA[5]]></Description><PicUrl><![CDATA[]]></PicUrl><Url><![CDATA[%s]]></Url></item></Articles><FuncFlag>1</FuncFlag></xml>";include "WelibrarySUC.php";$arr = all($keyword,$pagesize);$point = ($arr==null)? "当前页已经没有图书啦~ 点图有放送~" : "第$pagesize/{$arr[0][4]}页 回复数字选页 点图有放送~";$resultStr = sprintf($textTpl, $fromUsername, $toUsername, $time,$point,"http://bd.kuwo.cn/yinyue/6421359?from=baidu",$arr[0][0],$arr[1][0],$arr[0][1],$arr[1][1],$arr[0][2],$arr[1][2],$arr[0][3],$arr[1][3]);return $resultStr;}//接收文本消息并准备文本信息private function receiveText($keyword, $fromUsername, $toUsername, $time){include "tool.php";//从接收到德消息中获取用户输入的文本内容,作为一个查询的关键字,使用trim()函数去掉两边的空格$keyword = trim($keyword);if(is_numeric($keyword)){$book = findSerch($fromUsername);echo $this->getBook($book, $fromUsername, $toUsername, $time,$keyword);}else{updateSerch($fromUsername,$keyword);echo $this->getBook($keyword, $fromUsername, $toUsername, $time,1);}}//整理好回复文本的回复格式private function transmitText($object,$content){$xmlTpl = "<xml><ToUserName><![CDATA[%s]]></ToUserName><FromUserName><![CDATA[%s]]></FromUserName><CreateTime>%s</CreateTime><MsgType><![CDATA[text]]></MsgType><Content><![CDATA[%s]]></Content></xml>";$result = sprintf($xmlTpl,$object->FromUserName,$object->ToUserName,time(),$content);return $result;}}
接下来就是那个所谓的图书详情页了:
<?php
error_reporting(E_ALL^E_NOTICE^E_WARNING);$b_name = $_GET["书名"];$b_publish = $_GET["出版社"];$b_holding = $_GET["馆藏"];$b_borrow = $_GET["可借"];$b_author = $_GET["责任者"];$b_published = $_GET["出版年"];$b_number = $_GET["索取号"];$b_address = $_GET["馆藏地"];$b_address = str_replace("-", "<br/>",$b_address);//echo $b_name;
?><!DOCTYPE html>
<html lang="en">
<head><meta charset="UTF-8"><title>图书详情页</title><meta name="viewport" content="width=device-width,initial-scale=1.0"><link href="css/bootstrap.min.css" rel="stylesheet" type="text/css"/><style type="text/css">
body{ align:center;margin:0;}</style>
</head>
<body background="13.jpg"><!--用户列表--><div class="container" id="user_list"><h2 align=center>图书详情</h2><div class="table-responsive"><table class="table table-bordered "> <tbody id="user_list_tbody"><tr><td>书 名</td><td><?php echo $b_name?></td></tr><tr><td>责任者</td><td><?php echo $b_author?></td></tr><tr><td>出版者</td><td><?php echo $b_publish?></td></tr><tr><td>出版年</td><td><?php echo $b_published?></td></tr><tr><td>索取号</td><td><?php echo $b_number?></td></tr><tr><td>馆 藏</td><td><?php echo $b_holding?></td></tr><tr><td>可 借</td><td><?php echo $b_borrow?></td></tr><tr><td>馆藏地</td><td><?php echo $b_address?></td></tr></tbody></table> </div></div><script src='js/jquery.min.js'></script><script src='js/bootstrap.min.js'></script><script src="js/common.js"></script><!-- <script src="js/userList.js" type="text/javascript" charset="utf-8"></script> -->
</body></html>
结束、效果图如顶图所示~ 好了,菜鸟一枚,各位道友不喜勿喷,