爬取京东一万条评论-python

article/2025/10/13 15:33:25

要求: 1 万条以上的京东手机评论爬取(爬取内容为评论 +score)

浏览器部分

 为了一次爬取评论更多的手机所以在选取url的时候优先筛选相应品牌评论更多的款,以我爬取的vivo品牌为例:

1.筛选评论

 2.选择一款商品后点击对应评论

3.f12键进入调试界面

4.选择js文件格式:因为我们想要获取的评论是保留在JSON格式里面的而不是在url里面,通过检查与ctrl+F就可以发现。

 5.分别点击好评、中评、差评,就可以看到分别出现三个JSON格式文件与他们对应

 6 以好评对应JSON文件为例,点击第一个:可以看到请求url,问号之前为不带参数的url,问号之后为带参数的,我们如果调params话直接

comment_url = 'https://club.jd.com/comment/productPageComments.action'

 7.下滑查看参数值:直接复制过来

params = {'productId': 100022108734,  # 商品id,先写死'score': 3,'sortType': 5,'page': page,'pageSize': 10,'callback': 'fetchJSON_comment98','isShadowSku': 0,'fold': 1}

 8.编写header:

 headers = {'cookie':'shshshfpa=980322f4-0d72-08ea-9cb2-4fcadde80a00-1562576627; shshshfpb=ymAFpsvPn5OjLe2TxXJVyZQ==; __jdu=16150341377512100580391; mt_xid=V2_52007VwMVUllZUF8fSx9aAWcAElNcXFtbHUEZbAYwVhdbDVkCRh9AEFsZYgdBBkEIVw1IVUlbA24KQVEPXFcIGnkaXQZnHxNaQVhbSx5AElgAbAITYl9oUWocSB9UAGIzEVVdXg==; unpl=V2_ZzNtbUBVREUmC0QBfkkMDGJRQlwSV0ATIQFGUnIZCwBnABRYclRCFnUUR1xnGl4UZwYZXEtcQRBFCEdkeBBVAWMDE1VGZxBFLV0CFSNGF1wjU00zQwBBQHcJFF0uSgwDYgcaDhFTQEJ2XBVQL0oMDDdRFAhyZ0AVRQhHZHseXAFmARddQFFFEXULRlV6HVUEZQsSbXJQcyVFDENceRhbNWYzE20AAx8TcwpBVX9UXAJnBxNfR1dBE3MMRld7GF0BbgIQVUJnQiV2; PCSYCityID=CN_110000_110100_110108; user-key=0245721f-bdeb-4f17-9fd2-b5e647ad7f3e; jwotest_product=99; __jdc=122270672; mba_muid=16150341377512100580391; wlfstk_smdl=ey5hfakeb6smwvr1ld305bkzf79ajgrx; areaId=1; ipLoc-djd=1-2800-55811-0; __jdv=122270672|baidu|-|organic|not set|1632740808675; token=48ce2d01d299337c932ec85a1154c65f,2,907080; __tk=vS2xv3k1ush1u3kxvSloXsa0YznovSTFXUawXSawushwXpJyupq0vG,2,907080; shshshfp=3da682e079013c4b17a9db085fb01ea3; shshshsID=2ee3081dbf26e0d2b12dfe9ebf1ac9a8_1_1632744359396; __jda=122270672.16150341377512100580391.1615034138.1632740809.1632744359.28; __jdb=122270672.1.16150341377512100580391|28.1632744359; 3AB9D23F7A4B3C9B=OOGFR7VEBOKC3KPZ6KF3FKUOPTYV2UTP6I26CTJWT6CBR7KDFT6DA7AKGYBOIC5VE3AGWVCO44IPRLJZQM5VPBDKRE; JSESSIONID=82C0F348483686AC9A673E31126675D3.s1','referer': 'https://item.jd.com/','user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36'}

 

 代码编写部分

 1.采用解析方式:re解析(不了解同学可以看b站学习,参考链接:2021年最新Python爬虫教程+实战项目案例(最新录制)_哔哩哔哩_bilibili)

通过带参数的url查看JSON格式

关键代码:

 obj1 = re.compile(r'.*?"comments":(?P<coments>.*?)[)];', re.S)obj2 = re.compile(r'.*?"content":"(?P<content>.*?)",".*?"score":(?P<score>.*?),"', re.S)

2.去除评论中的多余字符

dic['content'] = dic['content'].replace('\\n', '').replace('&hellip;','') #去掉换行字符存入字典中

3.附上完成参考代码:

import requests
import csv
import re
import timecomment_url = 'https://club.jd.com/comment/productPageComments.action'f = open("JDcontents_vivo.csv", mode="a", encoding="utf-8", newline='')
csvwriter = csv.writer(f)
row = ('评论', '评分')
csvwriter.writerow(row)for i in range(200):print(i)page = iparams = {'productId': 100010624227,  # 商品id,先写死'score': 3,'sortType': 6,'page': page,'pageSize': 10,'callback': 'fetchJSON_comment98','isShadowSku': 0,'fold': 1}headers = {'cookie':'shshshfpa=980322f4-0d72-08ea-9cb2-4fcadde80a00-1562576627; shshshfpb=ymAFpsvPn5OjLe2TxXJVyZQ==; __jdu=16150341377512100580391; mt_xid=V2_52007VwMVUllZUF8fSx9aAWcAElNcXFtbHUEZbAYwVhdbDVkCRh9AEFsZYgdBBkEIVw1IVUlbA24KQVEPXFcIGnkaXQZnHxNaQVhbSx5AElgAbAITYl9oUWocSB9UAGIzEVVdXg==; unpl=V2_ZzNtbUBVREUmC0QBfkkMDGJRQlwSV0ATIQFGUnIZCwBnABRYclRCFnUUR1xnGl4UZwYZXEtcQRBFCEdkeBBVAWMDE1VGZxBFLV0CFSNGF1wjU00zQwBBQHcJFF0uSgwDYgcaDhFTQEJ2XBVQL0oMDDdRFAhyZ0AVRQhHZHseXAFmARddQFFFEXULRlV6HVUEZQsSbXJQcyVFDENceRhbNWYzE20AAx8TcwpBVX9UXAJnBxNfR1dBE3MMRld7GF0BbgIQVUJnQiV2; PCSYCityID=CN_110000_110100_110108; user-key=0245721f-bdeb-4f17-9fd2-b5e647ad7f3e; jwotest_product=99; __jdc=122270672; mba_muid=16150341377512100580391; wlfstk_smdl=ey5hfakeb6smwvr1ld305bkzf79ajgrx; areaId=1; ipLoc-djd=1-2800-55811-0; __jdv=122270672|baidu|-|organic|not set|1632740808675; token=48ce2d01d299337c932ec85a1154c65f,2,907080; __tk=vS2xv3k1ush1u3kxvSloXsa0YznovSTFXUawXSawushwXpJyupq0vG,2,907080; shshshfp=3da682e079013c4b17a9db085fb01ea3; shshshsID=2ee3081dbf26e0d2b12dfe9ebf1ac9a8_1_1632744359396; __jda=122270672.16150341377512100580391.1615034138.1632740809.1632744359.28; __jdb=122270672.1.16150341377512100580391|28.1632744359; 3AB9D23F7A4B3C9B=OOGFR7VEBOKC3KPZ6KF3FKUOPTYV2UTP6I26CTJWT6CBR7KDFT6DA7AKGYBOIC5VE3AGWVCO44IPRLJZQM5VPBDKRE; JSESSIONID=82C0F348483686AC9A673E31126675D3.s1','referer': 'https://item.jd.com/','user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36'}comment_resp = requests.get(url=comment_url, params=params, headers=headers)comment_resp.close()obj1 = re.compile(r'.*?"comments":(?P<coments>.*?)[)];', re.S)obj2 = re.compile(r'.*?"content":"(?P<content>.*?)",".*?"score":(?P<score>.*?),"', re.S)file_json = 'comments.json'comment_str = obj1.finditer(comment_resp.text)for it in comment_str:json = it.group('coments')print(json)result = obj2.finditer(json)for it in result:#print(it.group('content'))dic = it.groupdict()  # 字典dic['content'] = dic['content'].replace('\\n', '').replace('&hellip;','') #去掉换行字符存入字典中csvwriter.writerow(dic.values())print("over!")time.sleep(5)
f.close()

如何完成一万条

 因为京东评论一次性不能对同一手机爬取那么多评论,所以要不断调参来爬取同一品牌其他手机来完成一万条评论实验,为后面情感分析做好数据准备。


http://chatgpt.dhexx.cn/article/3JB7s104.shtml

相关文章

用户评论观点抽取

1.目的&#xff1a;从用户的订单评论里&#xff0c;抽取观点&#xff0c;进行标签化&#xff0c;此标签可以用来作一些辅助决策或者填充到用户画像体系里。 其实评论挖掘的主要有两个部分&#xff0c;观点抽取和情感判断&#xff0c;主要的作用还是间接或直接引导用户购买意向…

京东API分享:获取京东商品评论接口

接口名称&#xff1a;item_review-获得JD商品评论 接口背景介绍&#xff1a; 京东是一家中国知名的综合性电商平台&#xff0c;成立于1998年。作为中国最大的B2C在线零售商之一&#xff0c;京东提供了包括电子产品、家居用品、服装配饰、食品饮料等在内的广泛商品选择。为了…

京东用户行为分析

京东用户行为分析 项目背景 京东作为传统电商巨头&#xff0c;京东商城与京东物流的发展相得益彰&#xff0c;然而各种新兴的电商模式&#xff0c;带来了千人千面的购物方式和电商平台更加激烈的竞争&#xff0c;电商平台发展初期的粗放式经营也转向了利用大数据和算法&#…

京东商城评论爬虫

一、前言 基于评论信息做情感分析模型第一步&#xff0c;收集数据。这里准备抓取京东商城的物品评论&#xff0c;大致可以分为两步。 1、获取商品id 2、获取商品评论 二、实战 接下来的代码都基于scrapy框架编写&#xff0c;请确保已经了解scrapy基础知识。 1、获取商品i…

京东商品及评论 数据采集

好吧&#xff0c;下面的爬虫是同步的&#xff0c;其实可以用协程来写&#xff0c;效率会增加很多&#xff01; 对京东的商品基本信息&#xff0c;产品参数&#xff0c;商品评论进行采集 使用BeautifulSoup解析 注意&#xff1a;由于每个产品的评论只能采集100页&#xff0c;为…

爬虫京东评论+可视化

前期工作 选取一个网站&#xff0c;最好是教育网站&#xff0c;因为教育网站很少有反爬虫机制。 在网站内打开开发者工具&#xff0c;不同的浏览器开发者工具也不同&#xff0c;但都大同小异(这里使用的是谷歌)。 在开发者工具中确定你要爬虫的部分&#xff0c;找到我们爬取数…

京东手机评论的爬取

开篇 做论文的时候&#xff0c;最多接触的就是标准的数据集&#xff0c;几乎不需要太多的结构化处理&#xff0c;下载下来就是可以直接加载使用的数据&#xff0c;课题是有关评论分析的&#xff0c;但是论文针对的都是英文数据&#xff0c;而国内电商平台其实积累了大量的评论…

京东也做社交电商了

不知道大家有没有注意到&#xff0c;这两天朋友圈好像被京东商品给刷屏了&#xff0c; 身边不少大佬朋友都通过【芬香】在朋友圈带货。 我作为一个IT技术男&#xff0c;对于新出现的事物&#xff0c;自然也去研究了一番。下面就把我了解的信息分享给大家。 1、什么是「芬香」&a…

主存与内存

计算器内存条采用的是DRAM(动态随机存储器)&#xff0c;即计算机的主存。我们通常所说的内存容量即指内存条DRAM的大小。 但是&#xff0c;严格地说&#xff0c;内存是包括主存与高速缓存(Cache&#xff0c;基于SRAM)的。可能是由于Cache相较内存条容量很小&#xff0c;毕竟内…

CPU/内存分析

一、概念理解 程序运作原理&#xff1a;一个请求发送到服务器&#xff0c;首先经过网卡&#xff0c;然后通知cpu有待处理任务&#xff0c;CPU去运行操作系统指令&#xff0c;根据请求的端口号&#xff0c;找到对应的应用程序代码&#xff0c;安排线程去处理&#xff1b;由于程…

linux服务器查看cpu和内存

一、服务器CPU情况 1 查看物理CPU个数 cat /proc/cpuinfo | grep "physical id" | sort | uniq | wc -l 2 查看服务器CPU内核个数 cat /proc/cpuinfo | grep "cpu cores" | uniq 3 查看虚拟机查看核数 grep processor /proc/cpuinfo|wc -l 4 查看cpu内核频…

计算机中CPU是如何与内存交互的

这篇文章主要整理了一下计算机中的内存结构&#xff0c;以及 CPU 是如何读写内存中的数据的&#xff0c;如何维护 CPU 缓存中的数据一致性。什么是虚拟内存&#xff0c;以及它存在的必要性。如有不对请多多指教。 概述 目前在计算机中&#xff0c;主要有两大存储器 SRAM 和 D…

CPU访问内存

首先我们需要一个引子&#xff0c;引子如下&#xff1a; 作为一个计算机领域的工程师&#xff0c;这里有一个问题&#xff1a;有一个10米深的水池需要测量其水深&#xff0c;并在计算机&#xff08;或者微机&#xff09;上显示测量结果&#xff0c;保留小数点后一位。请概要的设…

计算机cpu、寄存器、内存区别

1、寄存器是中央处理器内的组成部分。它跟CPU有关。寄存器是有限存贮容量的高速存贮部件&#xff0c;它们可用来暂存指令、数据和位址。在中央处理器的控制部件中&#xff0c;包含的寄存器有指令寄存器(IR)和程序计数器(PC)。在中央处理器的算术及逻辑部件中&#xff0c;包含的…

CPU、内存、磁盘性能监控

CPU监控 网络由设备、服务器、路由器、交换机和其他网络组件组成。CPU 是网络中所有硬件设备的组成部分。它负责设备的稳定性和性能。企业严重依赖网络&#xff0c;企业硬件的处理能力决定了网络的容量。随着 CPU 功能和硬件的快速发展&#xff0c;组织必须规划其容量并监控其…

内存、CPU、硬盘

目录 内存虚拟内存 硬盘扩充内存和硬盘CPUCPU 频率CPU 高速缓存CPU三级缓存缓存行 CPU-内存的工作原理 内存 内存是外存与CPU进⾏沟通的桥梁&#xff0c;计算机中所有程序的运⾏都在内存中进行。 内存(Memory)也称内存储器和主存储器&#xff0c;它用于暂时存放CPU中的运算数据…

内存、CPU、显存、GPU

底盘中经常会出现资源、算力等词语&#xff0c;对于里面的CPU、内存、GPU、显存&#xff0c;究竟是什么&#xff0c;这里主要对此进行一个基础认识。 一、内存 内存(Memory)也被称为内存储器&#xff0c;主要用来暂时存放CPU中的运算数据及与硬盘等外部存储器交换的数据。只要…

CPU 与 内存

CPU 与 内存 CPU控制器控制单元指令译码器指令寄存器 运算器ALU算数运算器逻辑运算器 寄存器L1&#xff0c;L2数据寄存器&#xff0c;程序计数器&#xff0c;段寄存器&#xff0c;通用寄存器&#xff0c;标志寄存器 内存 CPU 控制器 控制单元 时序控制&#xff0c;指令控制 …

cpu与内存的工作原理

计算机最核心的俩大部分&#xff1a;cpu和内存。哪它们之间有什么联系呢&#xff1f; 程序是在内存里运行的&#xff0c;程序要运行语句需要cpu发出指令给程序&#xff0c;程序收到指令后就会找到main方法&#xff0c;把执行语句的指令和需要的数据分别给cpu里的pc和registers…

cpu和内存

CPU ( Central Processing Unit &#xff09;是一块超大规模的集成电路板&#xff0c;是计算机的核心部件&#xff0c;承载着计算机的主要运算和控制功能&#xff0c;是计算机指令的最终解释模块和执行模块。硬件包括基板、核心、针脚&#xff0c;基板用来固定核心和针脚&#…