python itchat库_用python【itchat】库获取群聊信息的正确姿势

article/2025/8/30 10:11:23

我在《昆明单车骑行群体分析报告(2019版)》中曾用python的itchat模块抓取了我加入的昆明单车群信息,并做了简要分析。

在持续十来天抓取群数据的时候,我发现一个奇怪现象,就是有一个群神出鬼没,有时候能抓到它的信息,有时候不能。

b864c5dbf25f?from=singlemessage

伸出规模的乐途群

从图中可以看到,监测的12天中,乐途群的信息出现了5次,有七天没抓到它的数据。

在我的另一个小号中,我写了一个帖子,对这个“神奇”的现象用我惯有的笔法夸张了一番《骑行之苦,苦在恨水;骑行之乐,乐在乐途》。

我检查了各个群的设置,都是一模一样;我检查了是否itchat有抓取的群数量限制,答案是否定的;我甚至检查了是不是群主为了好玩不定时把我踢出群又把我拉回去。

很明显都是不是以上原因。原因一定出在代码上。

今早我再次检查了代码,终于找到原因所在。

先贴上原来的代码【代码是我在网上抄的,做了简单的调整以适合我的需要】:

#!/usr/bin/env python

# coding: utf-8

import itchat

from itchat.content import TEXT

from itchat.content import *

import sys

import os

import socket

import time

import pandas as pd

import re

import datetime

itchat.auto_login(hotReload=True)

friends = itchat.get_friends(update=True)[0:]

if socket.gethostname()=='xxxx':

root=r'C:\Users\xxxx'

else:

root=r'E:\OneDrive - xxx'

roomslist = []

def getroom_message(n):

#获取群的 username,对群成员进行分析需要用到

itchat.dump_login_status() # 显示所有的群聊信息,默认是返回保存到通讯录中的群聊

RoomList = itchat.search_chatrooms(name=n)

if RoomList is None:

pass

#print("{0} group is not found!".format(name))

else:

# print('取得:',RoomList[0]['UserName'])

return RoomList[0]['UserName']

def getchatrooms():

#获取群聊列表

roomslist = itchat.get_chatrooms()

#print('列表',roomslist)

return roomslist

for i in getchatrooms():

roomslist.append(i['NickName'])

data=[]

for n in roomslist:

ChatRoom = itchat.update_chatroom(getroom_message(n), detailedMember=True)

for i in ChatRoom['MemberList']:

data.append({'群名称':ChatRoom['NickName'],

'省份':i['Province'],

'用户名':i['NickName'],

'ID':i['UserName'],

'性别':i['Sex']})

df=pd.DataFrame(data)

df.to_csv((root+'\jupyter\群数据{}-{}-{}.csv').format(time.localtime().tm_year,time.localtime().tm_mon,time.localtime().tm_mday))

问题处在什么地方?

并不是itchat有bug,而是第一个函数getroom_message(n)出了问题。

RoomList = itchat.search_chatrooms(name=n)

这一行中,原作者用了【name】作为参数传递给函数,我看网上其他资源都是用的这个函数以及这个参数。并且返回的是【RoomList】中第一个元素。

但是检查search_chatrooms()函数源代码可以发现【name】接收的是群聊的名称【NickName】,而【userName】接收的是群聊的id,并且【name】参数会把相似的群聊名称收集到【matchlist】中:

ef search_chatrooms(self, name=None, userName=None):

with self.updateLock:

if userName is not None:

for m in self.chatroomList:

if m['UserName'] == userName:

return copy.deepcopy(m)

elif name is not None:

matchList = []

for m in self.chatroomList:

if name in m['NickName']:

matchList.append(copy.deepcopy(m))

return matchList

所以在我这个例子中,【NickName】包含“云南乐途户外骑行联盟”的有三个群聊,那么getroom_message(n)函数返回的RoomList就有3个群聊名称。由于在python中,list是可变的,其元素位置不固定,所以,当取RoomList的第一个元素时,返回的结果就可能是三个群聊名称中的任意一个而不一定是“云南乐途户外骑行联盟”。

所以我们需要在getroom_message(n)返回的RoomList中再一次判断,每一个元素的【NickName】键对应的值是不是等于参数【n】。

但我又发现,去改这个函数是没有意义的,整个这个getroom_message(n)函数都是多余的。

我们只需要想办法获取到群聊的【userName】,将其放入到一个list中,然后循环获取其相关信息即可,于是有了最终的代码。

最终代码

如下所示:

#!/usr/bin/env python

# coding: utf-8

import itchat

from itchat.content import TEXT

from itchat.content import *

import sys

import os

import socket

import time

import pandas as pd

import re

import datetime

itchat.auto_login(hotReload=True)

friends = itchat.get_friends(update=True)[0:]

if socket.gethostname()=='xxxx':

root=r'C:\Users\xxxx'

else:

root=r'E:\OneDrive - xxx'

roomslist = []

def getchatrooms():

#获取群聊列表

res = itchat.get_chatrooms()

for each in res:

roomslist.append(each['UserName'])

return roomslist

data=[]

for group_id in getchatrooms():

ChatRoom = itchat.update_chatroom(group_id, detailedMember=True)

for i in ChatRoom['MemberList']:

data.append({'群名称':ChatRoom['NickName'],

'省份':i['Province'],

'用户名':i['NickName'],

'ID':i['UserName'],

'性别':i['Sex']})

df=pd.DataFrame(data)

df.to_csv((root+'\jupyter\群数据{}-{}-{}.csv').format(time.localtime().tm_year,time.localtime().tm_mon,time.localtime().tm_mday))

与换来的代码相比,就仅仅是去掉了getroom_message(n)函数,稍微修改了一下getchatrooms()函数,把itchat.update_chatroom()函数的参数直接修改为roomslist中获取的群聊【userName】。

如此一来,名称相似的群聊再也不会神出鬼没地时而出现时而不出现了。


http://chatgpt.dhexx.cn/article/mDGPBwUB.shtml

相关文章

itchat的简单使用

简介: itchat是一个开源的微信个人号接口,使用python调用微信从未如此简单。使用不到三十行的代码,你就可以完成一个能够处理所有信息的微信机器人。当然,该api的使用远不止一个机器人,更多的功能等着你来发现&#x…

itchat群机器人的自动画实现

总体功能或思想 1、根据 itchat文档 实现简单的聊天回复功能 2、添加敏感词汇过滤、添加一些日常对话的回答 3、获取群成员信息,收到消息后,如果是女同胞发言,则给出提示 4、接入图灵机器人,提升日常会话能力 … 软件安装&#xf…

Python开发入门(三) | itchat实现微信机器人

前言: 如今微信已经成为了个人社交的很大一部分,无论生活,学习,还是工作,我们的社交已经离开不了微信~~ 接下来来了解itchat~~ itchat是一个开源的微信个人号api接口,通过使用python调用微信实现简单的微信机器人。 使用不到三十行的代码,你就…

再也不见,Itchat!

前言 本来想做一个利用微信自动回复的项目,查了很多有关这方面的资料。一开始,我百度搜索到的内容大多都是关于Itchat的。Itchat代码简单,也很容易上手。很轻松就写出了自己的demo。 Itchat 项目的介绍官方介绍如下: 项目介绍&a…

《伤寒杂病论》序——张仲景

后世医家孙思邈有《大医精诚》 张湛曰:夫经方之难精,由来尚矣。今病有内同而外异,亦有内异而外同,故五脏六腑之盈虚,血脉荣卫之通塞,固非耳目之所察,必先诊候以审之。 而寸口关尺有浮沉弦紧之乱…

2022年广西医院三基考试中医学综合训练题及答案

题库来源:优题宝公众号 2022年广西医院三基考试中医学综合训练题及答案,根据最新中医学大纲与历年真题汇总编写,包含中医学常考重点题型与知识点,有助于考生复习备考医院三基考试,取得好成绩。 1、 望诊面部呈青色时对…

【中医学】5 诊法

【第五章 诊法】 诊法,是中医诊察和收集病情资料的基本方法,它包括望、闻、问、切、四方面内容,故又称“四诊”。 通过“四诊”所收集到的临床资料,尤其是各种症状,是判断病种、辨别证候的主要依据。《难经六十一难》说:“望而知之谓之神,闻而知之谓之圣,问…

中医经络、睡眠

-拉足背 一位老中医的宝贵养生经验:把足背拉一拉,等于拉开4条经络,比经络按摩还有功效,为什么,看完下面的文章就明白了。 中医认为,经络决定人体健康,一旦经络出现堵塞,人体就会出现…

机器学习:基于Apriori算法对中医病症辩证关联规则分析

系列文章目录 作者:i阿极 作者简介:Python领域新星作者、多项比赛获奖者:博主个人首页 😊😊😊如果觉得文章不错或能帮助到你学习,可以点赞👍收藏📁评论📒+关注哦!👍👍👍 📜📜📜如果有小伙伴需要数据集和学习交流,文章下方有交流学习区!一起学习…

运动神经元中医认为?

运动神经元是一组散发或遗传的神经变性病。主要累及运动神经元,病程进展而死亡。该病选择性地损害皮质、脑干、脊髓的上和(或)下运动神经元,损害随意运动,出现不同组合的肌无力、萎缩,延髓麻痹和锥体束征。病理损害不同&#xff0…

每日一问-ChapGPT-20230416-中医基础-经络

文章目录 每日一问-ChapGPT系列起因每日一问-ChapGPT-20230416-中医基础-经络人体的经络有哪些,有什么规律,怎么记忆经络拓展-五运六气1# 五腧穴 与五运六气架构2# 五运六气 就在我们的经络中3#五运六气与子午流注 当日总结 每日一问-ChapGPT系列起因 近…

如何查看idea激活码的有效期

首先要在导航栏找到Help 点击选择Register(可以重新输入激活码)或者About(可以查看激活到期时间以及版本信息)即可 想要了解更多idea相关资讯,扫码关注公众号,欢迎大家一块交流学习。

Intellij IDEA 的激活方法

版本 2018.1.2 补丁下载:https://pan.baidu.com/s/1ydh2qQCLON4m0Lzk95ludA 版本 2018.3 补丁下载:http://idea.lanyus.com/jar/JetbrainsIdesCrack-3.4-release-enc.jar 将下载的文件放到安装IDEA路径的bin目录下 编辑 idea.exe.vmoptions 和 idea64…

IntelliJ IDEA Ultimate 安装激活

安装 先去官网 IntelliJ看一看,有两个版本: Community免费版可用于开发简单的J2SE项目,但对于J2EE,JS等就力不足了。Ultimate 版呢又是老套的30天试用,那怎么办呢?选择Community?我的回答是当然…

IDEA的使用:4.IntelliJ IDEA的激活

双击打开IDEA,如果是首次启动,会弹出如下的对话框: 如图所示,选择不导入已有的设置。 接着来到激活窗口: 接下来详细讲讲激活的方法。 对于2017版本的IDEA,可以尝试如下两种方法进行激活: 1.…

mac 中idea激活Jrebel

文章目录 mac 中idea激活Jrebel第一步:首先在idea中下载jrebel插件第二步:搭建服务器第三步:idea中激活jrebel mac 中idea激活Jrebel 第一步:首先在idea中下载jrebel插件 安装完成之后重新启动idea 第二步:搭建服务器…

Mac 安装IDEA以及激活方法

首先需要下载IDEA,选择适合自己的版本,这里是安装Mac版本,后缀名是.dmg的文件,下载好后,在路径:访达->下载,可以看到下载好的文件。 双击文件即可完成安装,安装过程中可能需要输…

[Intellij IDEA] 通过学生认证免费激活IDEA

IDEA是当前Java编程的热门编译器,但这是一款收费软件,它的售价真的很贵,而且30天的试用期对希望使用IDEA进行Java学习的同学来讲是远远不够的。但好在JetBrains为高校学生提供了学生认证以免费使用JetBrains全家桶,虽然每年都要进…

IntelliJ IDEA 2021 激活 实测OK 2022/2/24

IDEA 2021.3 安装教程_空-白_格的博客-CSDN博客_重装idea直接在idea下载最新的版本:IntelliJ IDEA: The Capable & Ergonomic Java IDE by JetBrains安装包下载后,安装直接下一步,下一步,完成。安装完了之后,不用急…