利用在京东上爬取的商品评论做分析

article/2025/10/13 15:37:06

利用在京东上爬取的商品评论做分析

1.读入数据


Python中读入数据,查看数据

import pandas as pd
import re
import os
os.chdir("C:/Users/Administrator/Desktop")
base_data =  pd.read_excel('A.xls')
base_data.head()

数据描述

2.对数据进行处理

base_data.drop_duplicates(inplace=True)#删除重复值
base_data.info()
import matplotlib.pyplot as plt
import seaborn as sns
plt.rcParams['font.sans-serif']=['SimHei']
plt.rcParams['axes.unicode_minus'] = False#定义过后可以显示中文sns.heatmap(base_data.isnull(), yticklabels=False, cbar=False, cmap='viridis', )  # yticklabels=False 不显示纵轴   cmap 颜色组
plt.title('缺失值查看')
plt.show()

把评论时间的字段进行修改,方便后续使用

base_data['评论时间']= base_data['评论时间'].astype(str)
base_data['评论时间']= base_data['评论时间'].apply(lambda x :re.sub("\D", "", x) )
base_data['评论时间'] = pd.to_datetime(base_data['评论时间'])# 将20200301转换为2021-03-01
base_data['评论时间'] = base_data['评论时间'].map(lambda x: 100*x.year + x.month) #只要年月例如202103
base_data.to_excel('C:\\Users\\Administrator\\Desktop\\test.xlsx') #把数据另存为桌面的xlsx格式

处理评论长度

import math
import numpy as np
base_data =  pd.read_excel('test.xlsx')
%time base_data['评论长度'] = base_data['评论内容'] .str.len()#增加字段:计算评论内容的字符长度
base_data['评论长度'] = base_data['评论长度'].astype(int)
base_data["评论长度"] = np.log10(base_data["评论长度"]) # 评论长度求对数

3.数据探索

# 进行单变量探索,绘制直方图
plt.rcParams['font.sans-serif']=['SimHei']
plt.rcParams['axes.unicode_minus'] = False#定义过后可以显示中文
fig,ax = plt.subplots(nrows=1,ncols=5,figsize=(20,4))
base_data["回复数"].hist(ax=ax[0])
ax[0].set_title("Hist plot of 回复数")base_data["点赞数"].hist(ax=ax[1])
ax[1].set_title("Hist plot of 点赞数")base_data["图片数量"].hist(ax=ax[2])
ax[2].set_title("Hist plot of 图片数量")base_data["时间跨度"].hist(ax=ax[3])
ax[3].set_title("Hist plot of 时间跨度")base_data["评论长度"].hist(ax=ax[4])
ax[4].set_title("Hist plot of 评论长度")

单变量探索
对评论内容进行处理

import pandas as pd
import re
#去噪
r1 = '[\s+\.!\/_,$%^*(+\"\')]+|[::+——()?【】“”!,。?、~@#¥%……&*()]+'
r2 = '[^\u4e00-\u9fa5]'
base_data['评论内容1'] = base_data['评论内容'].str.replace(r1,'') #删除标点符号
base_data['评论内容1'] = base_data['评论内容'].str.replace(r2,'') #删除英文和数字
base_data['评论内容1'].drop_duplicates(inplace=True)#去除重复值
base_data['评论内容1']= base_data['评论内容1'].dropna() #删除标题中存在缺失值的行
base_data.index = range(base_data.shape[0])#恢复索引
data = base_data[base_data['评论内容1'].apply(len)>=4]#短句去除
data.shape

http://chatgpt.dhexx.cn/article/5c9gkl3K.shtml

相关文章

uniapp实现一个订单下多个商品的评论

1.先来看需求分析,一个订单下的多个商品的评论说明了在一个订单中点击评论按钮直接跳转到评论页面中,同时渲染订单下的三个商品,如下图所示: 并且要实现在不同的商品评论下输入的评论内容互不影响,这就对第一次做该业务…

【京东API】京东app获得JD商品详情原数据接口

京东是中国最大的综合型电商网站之一,其app端是用户购买商品的主要途径之一。为了更好地满足用户的需求,开发人员提供了商品原数据接口,让第三方开发者可以获取京东商品的详细信息。 开发背景: 随着移动设备用户数量的不断增加&a…

bilstm+attention机制对京东评论数据进行数据处理加情感分类(能跑通)

#此数据为京东评论数据分为两列一列为text,一列为target分数需要数据集私信 #1.处理数据 #导入数据处理的基础包 import numpy as np import pandas as pd #导入用于计数的包 from collections import Counter import os import requests#这里label的评分有1-5有5类…

爬取京东一万条评论-python

要求: 1 万条以上的京东手机评论爬取(爬取内容为评论 score) 浏览器部分 为了一次爬取评论更多的手机所以在选取url的时候优先筛选相应品牌评论更多的款,以我爬取的vivo品牌为例: 1.筛选评论 2.选择一款商品后点击对应…

用户评论观点抽取

1.目的:从用户的订单评论里,抽取观点,进行标签化,此标签可以用来作一些辅助决策或者填充到用户画像体系里。 其实评论挖掘的主要有两个部分,观点抽取和情感判断,主要的作用还是间接或直接引导用户购买意向…

京东API分享:获取京东商品评论接口

接口名称:item_review-获得JD商品评论 接口背景介绍: 京东是一家中国知名的综合性电商平台,成立于1998年。作为中国最大的B2C在线零售商之一,京东提供了包括电子产品、家居用品、服装配饰、食品饮料等在内的广泛商品选择。为了…

京东用户行为分析

京东用户行为分析 项目背景 京东作为传统电商巨头,京东商城与京东物流的发展相得益彰,然而各种新兴的电商模式,带来了千人千面的购物方式和电商平台更加激烈的竞争,电商平台发展初期的粗放式经营也转向了利用大数据和算法&#…

京东商城评论爬虫

一、前言 基于评论信息做情感分析模型第一步,收集数据。这里准备抓取京东商城的物品评论,大致可以分为两步。 1、获取商品id 2、获取商品评论 二、实战 接下来的代码都基于scrapy框架编写,请确保已经了解scrapy基础知识。 1、获取商品i…

京东商品及评论 数据采集

好吧,下面的爬虫是同步的,其实可以用协程来写,效率会增加很多! 对京东的商品基本信息,产品参数,商品评论进行采集 使用BeautifulSoup解析 注意:由于每个产品的评论只能采集100页,为…

爬虫京东评论+可视化

前期工作 选取一个网站,最好是教育网站,因为教育网站很少有反爬虫机制。 在网站内打开开发者工具,不同的浏览器开发者工具也不同,但都大同小异(这里使用的是谷歌)。 在开发者工具中确定你要爬虫的部分,找到我们爬取数…

京东手机评论的爬取

开篇 做论文的时候,最多接触的就是标准的数据集,几乎不需要太多的结构化处理,下载下来就是可以直接加载使用的数据,课题是有关评论分析的,但是论文针对的都是英文数据,而国内电商平台其实积累了大量的评论…

京东也做社交电商了

不知道大家有没有注意到,这两天朋友圈好像被京东商品给刷屏了, 身边不少大佬朋友都通过【芬香】在朋友圈带货。 我作为一个IT技术男,对于新出现的事物,自然也去研究了一番。下面就把我了解的信息分享给大家。 1、什么是「芬香」&a…

主存与内存

计算器内存条采用的是DRAM(动态随机存储器),即计算机的主存。我们通常所说的内存容量即指内存条DRAM的大小。 但是,严格地说,内存是包括主存与高速缓存(Cache,基于SRAM)的。可能是由于Cache相较内存条容量很小,毕竟内…

CPU/内存分析

一、概念理解 程序运作原理:一个请求发送到服务器,首先经过网卡,然后通知cpu有待处理任务,CPU去运行操作系统指令,根据请求的端口号,找到对应的应用程序代码,安排线程去处理;由于程…

linux服务器查看cpu和内存

一、服务器CPU情况 1 查看物理CPU个数 cat /proc/cpuinfo | grep "physical id" | sort | uniq | wc -l 2 查看服务器CPU内核个数 cat /proc/cpuinfo | grep "cpu cores" | uniq 3 查看虚拟机查看核数 grep processor /proc/cpuinfo|wc -l 4 查看cpu内核频…

计算机中CPU是如何与内存交互的

这篇文章主要整理了一下计算机中的内存结构,以及 CPU 是如何读写内存中的数据的,如何维护 CPU 缓存中的数据一致性。什么是虚拟内存,以及它存在的必要性。如有不对请多多指教。 概述 目前在计算机中,主要有两大存储器 SRAM 和 D…

CPU访问内存

首先我们需要一个引子,引子如下: 作为一个计算机领域的工程师,这里有一个问题:有一个10米深的水池需要测量其水深,并在计算机(或者微机)上显示测量结果,保留小数点后一位。请概要的设…

计算机cpu、寄存器、内存区别

1、寄存器是中央处理器内的组成部分。它跟CPU有关。寄存器是有限存贮容量的高速存贮部件,它们可用来暂存指令、数据和位址。在中央处理器的控制部件中,包含的寄存器有指令寄存器(IR)和程序计数器(PC)。在中央处理器的算术及逻辑部件中,包含的…

CPU、内存、磁盘性能监控

CPU监控 网络由设备、服务器、路由器、交换机和其他网络组件组成。CPU 是网络中所有硬件设备的组成部分。它负责设备的稳定性和性能。企业严重依赖网络,企业硬件的处理能力决定了网络的容量。随着 CPU 功能和硬件的快速发展,组织必须规划其容量并监控其…

内存、CPU、硬盘

目录 内存虚拟内存 硬盘扩充内存和硬盘CPUCPU 频率CPU 高速缓存CPU三级缓存缓存行 CPU-内存的工作原理 内存 内存是外存与CPU进⾏沟通的桥梁,计算机中所有程序的运⾏都在内存中进行。 内存(Memory)也称内存储器和主存储器,它用于暂时存放CPU中的运算数据…