如何爬取微信公众号文章(二)

article/2025/10/6 16:33:20

在如何爬取微信公众号(一)中完成了将爬取公众号文章的元数据存入数据库,其中包括文章的连接、标题、发布时间、摘要和封面图片等信息。下面介绍如何根据文章链接来爬取文章内容。

开发环境

  • windows 7 x64
  • python3.7 (Anaconda)
  • vscode 编辑器
  • mongodb4.0 数据库
  • Nosqlbooster mongodb数据库的可视化管理工具

mongodb数据库中以文档格式来存储数据,如一条文章数据是这样存储的。

//Copy from NoSQLBooster for MongoDB free edition. This message does not appear if you are using a registered version.{"_id": "5e134903dd371d087640065b","aid": "2247518136_1","appmsgid": 2247518136,"cover": "https://mmbiz.qlogo.cn/mmbiz_jpg/DCftNYRGoKWG0USHVfs1FG2pGKfz0BMUI3FLibHTrYe1a7WMKzZnazCKDJ9OUfuibGbewFqIiakic8MEqDkNiaXHH7w/0?wx_fmt=jpeg","create_time": 1578235906,"digest": "三不管地带容易出问题","is_pay_subscribe": 0,"item_show_type": 0,"itemidx": 1,"link": "http://mp.weixin.qq.com/s?__biz=MzI1ODUzNjQ1Mw==&mid=2247518136&idx=1&sn=812ec79199ae793f28770287969d0f2b&chksm=ea0462d2dd73ebc40f6ecc4f1f52fb2a3e0c798ca152aa89cc42b8e77ef6e54234695ad43025#rd","post_date": "2020-01-05","tagid": [],"title": "肆虐非洲的“博科圣地”究竟是什么?","update_time": 1578235905
}

里面的link字段为文章的url。
下面我们根据这个url来爬取文章的内容。
爬取文章内容,主要包括文章的html页面,引用的js和css,以及页面中的图片。微信公众号的js和css都是内嵌在页面当中,没有引用的外部文件,所以只需爬取页面中的图片,并将公网的url替换成本地的相对uri即可。
下面看代码。

代码实现

# -*- coding:utf-8 -*-
# written by wlj @2020-1-7 13:52:34
#功能:从数据库读取文章url,将公众号文章爬取到本地
#用法:python get_article.py [本地存储路径] 如python get_article.py wx_articles
import time
import json
import requests,re,sys,os
from requests.packages import urllib3
from bs4 import BeautifulSoup
import hashlib
from pymongo import MongoClient
urllib3.disable_warnings()#全局变量
#存储路径,去掉前后的连接符
path = sys.argv[1].strip('/').strip('\\')
#静态文件的存储路径
static_path = ''
#HTTP请求的headers
headers = {'User-Agent':"Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:72.0) Gecko/20100101 Firefox/72.0"
}#计算x的md5()
def md5(x):m = hashlib.md5()m.update(x.encode('utf-8'))return m.hexdigest()#根据url爬取文章,article_filename要保存的html文件名
def get_article(url,article_filename):global static_path#requests会话对象s = requests.Session()#主页文章页面res = s.get(url,headers = headers,verify=False)if res.status_code == 200:#html文档content = res.text#使用bs库解析文档结构soup = BeautifulSoup(res.text,'lxml')#找出html中的图片for img in soup.find_all('img'):#找到图片的url,有的img的图片源在data-src字段中img_url = img.attrs.get('src','').strip()img_url = img_url if img_url else img.attrs.get('data-src','').strip()if img_url:#处理img_url是 //xxx.xxx.xx.jpg的情况if img_url.startswith('//'):img_url = 'http:'+img_url#图片在本地的存储路径,文件名为img_url的md5值img_filename = '%s/%s' % (static_path,md5(img_url))#图片在本地的相对urilocal_img_uri = 'static/%s' % md5(img_url)#若该图片本地不存在,对其进行下载if  not os.path.isfile(img_filename):#请求图片res = s.get(img_url,headers = headers,verify=False)if res.status_code == 200:#保存图片open(img_filename,'wb').write(res.content)#将html文档中的互联网url替换成本地的相对uricontent = content.replace(img_url,local_img_uri)#将img标签的data-src替换为src,因为data-src属性不会显示出来content = content.replace('data-src','src')#保存html文档open('%s/%s.html'% (path,article_filename),'w',encoding='utf-8').write(content)print(article_filename,'下载完毕!')#主函数
def main():#声明全局变量global static_path#静态文件的存储路径static_path = '%s/static' % path#若该路径不存在,将其创建if not os.path.isdir(static_path):os.makedirs(static_path)#mongodb数据库,存储有文章的元数据mongo = MongoClient('localhost',27017).wx.gzh#作为示例,返回前10条文章数据for item in mongo.find({},limit=10,skip=0):#爬取文章,并以"[发布时间]标题.html"保存为本地文件get_article(item['link'],'[%s]%s' % (item['post_date'],item['title']))main()

结果

程序运行结果输出
本地的存储结构
能够离线正常打开

参考资料

  • What are all the differences between src and data-src attributes?

http://chatgpt.dhexx.cn/article/v3bgC1yv.shtml

相关文章

如何爬取微信公众号文章(一)

微信公众号是目前最为流行的自媒体之一,上面有大量的内容,如何将自己感兴趣的公众号内容爬取下来,离线浏览,或者作进一步的分析呢? 下面我们讨论一下微信公众号文章的爬取。 环境搭建 windows 7 x64python3.7 (Anac…

Python 爬虫之微信公众号

Python 爬虫之微信公众号 源代码放在文末。 本次爬虫需要的工具如下: selenium 驱动器对应浏览器的 webdriver一个微信订阅号在 2017 年 6 月左右,微信官方发布一篇文章 https://mp.weixin.qq.com/s/67sk-uKz9Ct4niT-f4u1KA,大致意思就是以后发布文章的时候可以插入其他公…

公网访问局域网家用nas

提到外网访问不得不说说家里局域网的搭建结构了,就拿大众最常用的方式举例,网络运营商的光纤入户,通过运营商提供的光猫直接pppoe进行拨号,再连接自己的路由器,分配至各网口。 自从上次充当灵魂画手被嘲笑了以后就改用…

外网访问群晖NAS VMM搭建Openwrt的admin界面

偶然在网上看到很多的帖子使用群晖搭建openwrt搭建旁路由,心血来潮体验了一把,记录一下自己的搭建的整个过程,并最终实现外网访问Openwrt的admin界面。 本人使用的群晖nas DS220+,其他品牌未尝试。 一、前期配置 1、先在套件中心下载VMM(Virtaul Machine Manager) 2、下…

2022年10月 cpolar软件实现内网穿透连接群晖NAS

前言 1.cpolar简介 cpolar是一款拥有远程控制和内网穿透功能的软件。而且还可以监控端口的HTTP请求,利用实时的cpolar Web UI开发者工具,让您调试代码更容易。您可以监听所有隧道上的HTTP消息包,分析消息包的结构内容,找出问题点…

群晖内网穿透 实现外网快速访问 无需公网

有群晖的情况下,在内网我们可以通过ip正常访问我们的群晖/NAS;但是我们想要在外网访问的时候该怎么办,没有公网ip,扯专线太贵,自己搭建太麻烦。这无疑是个难题; 今天,小编找到了一款免费的内网穿透工具来实…

通过公网+域名访问家里的群晖服务器

公网域名访问群晖服务器 前言准备的东西如何判断你家里的宽带是公网IP通过公网IP网访群晖,端口映射申请域名和DDNS添加DDNS映射写在最后 前言 最近换了个工作,然后有代码的托管需求。想想用GitHub太卡了,国内的开源托管网站因为一些国人的素…

猫盘群晖外部网络访问的三种方法:公网IP、内网穿透、qc的实际评测

目录 具体过程概述内网穿透公网IPQuickconnect(QC)结语 具体过程 概述 最近想入手一个NAS,由于我是新手入门,就选择入手了便宜的猫盘。我的猫盘是白群晖系统所以支持QC的功能,因此对目前猫盘群晖的DiskStation Manager&#xff…

特征值和特征矩阵

写一点对矩阵特征值和特征矩阵的理解 1. A是一个矩阵,它作用在向量v上。如果A是2阶对角阵的话,它起到的作用是将向量v在横纵方向拉伸 2. 当A是一个普通2阶矩阵时,它对v的拉伸不再是横纵方向,而是任意方向的,这取决于实…

三阶矩阵求特征值的快速算法

一般的三阶矩阵求特征值其实是解析不了的,因为特征方程对应的是三次方程,对于一般的三次方程,是很难求解的。要想方程有三个整数根,并且能够不用完全暴力展开三阶行列式这样的矩阵实际是很特殊的。 1.某一行有两个0的情况是最好算…

用R求矩阵的特征值和特征向量

最近在学习多元统计分析的主成分分析时&#xff0c;发现需要经常计算矩阵的特征值和特征向量&#xff0c;自己就找了下用R来做计算的函数。 我们可以用sigen()函数来计算特征对。 #创建一个矩阵 a <- matrix(c(11,sqrt(3)/2,3/2,sqrt(3)/2,21/4,5*sqrt(3)/4,3/2,5*sqrt(3)/…

怎么算特征值和特征矩阵?

怎样更通俗的理解特征值和特征矩阵&#xff1f; 设A是一个n阶矩阵&#xff0c;若数和n维非零列向量满足&#xff0c;数称为A的特征值&#xff0c;x称为A对应于特征值的特征向量。此时叫做特征多项式&#xff0c;若特征多项式为0则称为A的特征方程&#xff08;齐次线性方程组&a…

矩阵特征值和特征向量的求取

最近项目中有一个模块需要求矩阵的最大特征值和特征值对应的特征向量&#xff0c;无奈&#xff0c;又重新将以前学习的这方面的知识重新温习了一遍&#xff0c;感觉还是当时学的不够深&#xff0c;所以谢谢感悟&#xff0c;顺便对知识点进行一个总结。 首先特征值和特征向量的…

matlab如何求矩阵特征值

根据线性代数理论&#xff0c;特征值与特征向量只存在于方阵。如下所示为一方阵A&#xff1a; 在matlab输入矩阵&#xff1a; A [1 2 4; 4 0 7 9 1 3]; 查阅matlab help可以知道&#xff0c;利用eig函数可以快速求解矩阵的特征值与特征向量。 格式&#xff1a;[V,D] eig(A) 说…

delphi 连接轻量级数据库 sqlite3

环境: windows7-64, delphi7, sqlite3 最近搞个小工具&#xff0c;要用到轻量级数据库。以前小型数据库是用mdb的&#xff0c;但连接mdb 需要odbc的支持。 对环境依赖性很大&#xff0c;于是换了一种传说中的轻量级数据库。 sqlite 很小巧&#xff0c;delphi 7 连接sqlite…

轻量级数据库sqlite,spring boot+sqlite的配置详解 (一)

spring bootsqlite的配置&#xff0c;及成功运行详解 sqlite数据库的安装与调试 首先&#xff0c;通过sqlite官方地址下载对应的安装包 https://www.sqlite.org/download.html 下载对应版本的安装包和工具包 解压后会得到这几个文件&#xff0c;将这几个文件放在同一目录下 …

腾讯云——轻量数据库服务

轻量数据库服务采用腾讯云自研的新一代云原生数据TDSQL-C&#xff0c;融合了传统数据库、云计算与新硬件技术的优势&#xff0c;100%兼容 MySQL&#xff0c;实现超百万级 QPS 的高吞吐&#xff0c;128TB 海量分布式智能存储&#xff0c;保障数据安全可靠。 定制内核&#xff1…

轻量级关系数据库SQLite的安装和SpringBoot整合

简介 SQLite是轻量级的关系型数据库&#xff0c;适用于中小型应用场景&#xff1a;如安卓、网站、终端设备。并且轻量&#xff08;服务端1M&#xff09;、方便移植&#xff08;只需要移动*.db文件到另外一台电脑&#xff09; 安装 官网链接&#xff1a;https://www.sqlite.o…

HarmonyOS之数据管理·轻量级偏好数据库的应用

一、简介 ① 基本概念 轻量级偏好数据库主要提供轻量级 Key-Value 操作&#xff0c;支持本地应用存储少量数据&#xff0c;数据存储在本地文件中&#xff0c;同时也加载在内存中的&#xff0c;所以访问速度更快&#xff0c;效率更高。轻量级偏好数据库属于非关系型数据库&…

使用 C# 开发的轻量级开源数据库 LiteDB

你好&#xff0c;这里是 Dotnet 工具箱&#xff0c;定期分享 Dotnet 有趣&#xff0c;实用的工具或组件&#xff0c;希望对您有用&#xff01; 简介 LiteDB 是一个小型、快速、轻量级的 .NET NoSQL 嵌入式数据库&#xff0c;也就是我们常说的 K/V 数据库&#xff0c;完全用 C…