分析数据分析实习岗位信息（1、数据获取）

article/2025/9/27 19:38:47

目录

1.1 网页分析
1.2 字体反扒机制
1.3 构造字典
1.4 创建表
1.5 根据自己的需要进行修改

又到了一年一度的秋招了，由于受疫情的影响，部分公司减少了数据分析相关岗位的实习名额，为了更了解秋招的相关岗位信息，这里针对实习僧网站链接的数据分析实习信息进行了爬取以及分析。

1.1 网页分析

进入实习僧首页，输入关键词：数据分析，并把搜索范围限定在全国，这样我们就可以看到相关的实习信息。
在这里插入图片描述
右键检查，我们会发现，有些文字内容显示不全，被某些字符替代

这就涉及到了字体反扒机制。

1.2 字体反扒机制

字体反爬，也就是使用自定义某些字体来替换网页中的某些字体来实现反爬。上图所示就是用’&#xe04e’来代替了’师’。通过调用自定义的ttf文件来渲染网页中的文字，使得网页中的文字编程了相应的字体编码，这样用户看到的正常的文字，实际上仅仅通过复制或者简单的采集是无法获取我们想要的信息。
我们可以将实习僧的字体文件下载到本地，通过fontTools库将字体文件以xml的形式展示出来。
在这里插入图片描述

1.3 构造字典

参考字体反爬之实习僧
我们可以通过正则表达式提取xml中的字体的unicode，并将其通过encode(‘utf-8’)进行编码，再通过decode(‘unicode_escape’)解码出汉字。把字体的编码当成key，真实的字体当成value，构造成替换字典。

1.4 创建表

在MySQL中创建数据库，命名为’shixiseng’，创建表info，其中字段为：
在这里插入图片描述

1.5 根据自己的需要进行修改

（1）由于参考的代码中查询的是算法的实习信息，这里可以根据需求进行修改
（2）参考的代码中是将数据存储到了MongoDB中，根据需要将数据存储到了MySql

代码链接：https://github.com/guotianyi960531/shixiseng_Dataget

参考链接：
[1]: 腾讯云：字体反扒之实习僧.
[2]: 知乎：反爬终极方案总结—字体反爬.
[3]: 简书：Python爬虫杂记 - 字体文件反爬（二）.

http://chatgpt.dhexx.cn/article/EgLGidfL.shtml

相关文章

我在滴滴数据分析岗实习了8个月

我在滴滴数据分析岗实习了8个月

作者介绍：双非院校刚毕业的统计硕士，目前在滴滴工作，有8个月的数据分析实习经历，面试过10位以上数据分析实习生，最终成为了产品经理。两个主题本文的主要目标是帮助一些刚入门的同学了解互联网公司中“数据分析”岗位…

阅读更多...

LOUVAIN——社交网络挖掘之大规模网络的社区发现算法

LOUVAIN——社交网络挖掘之大规模网络的社区发现算法

LOUVAIN——社交网络挖掘之大规模网络的社区发现算法算法来源该算法来源于文章Fast unfolding of communities in large networks，简称为Louvian。算法原理 Louvain算法是基于模块度（Modularity）的社区发现算法，该算法在效率…

阅读更多...

泛运筹理论初探——Louvain算法简介

泛运筹理论初探——Louvain算法简介

图论-图论算法之Louvain 社区发现算法简介之Louvain算法在本次文章中，我们将会介绍经典的社区发现方法，也就是Louvain算法。这种算法在社群发现等应用的效果较好，是比较经典的图挖掘类算法，在金融风控行业挖掘诈骗团伙等应用…

阅读更多...

Louvain社区划分算法及Java语言实现

Louvain社区划分算法及Java语言实现

Louvain社区划分算法及Java语言实现社区划分算法处理的对象Louvain社区发现算法全局模块度单层算法过程多层算法过程Java代码实现图实现模块度计算单层louvain实现多层louvain实现运行入口，使用方法社区划分算法处理的对象社区划分算法又称社区发现算法&#xf…

阅读更多...

社区发现算法-Community Detection-NormalizeCut/Louvain/NMF/LPA

社区发现算法-Community Detection-NormalizeCut/Louvain/NMF/LPA

本文结构安排图聚类简介正则化割 Louvain 非负矩阵分解（NMF） 其他常见方法图(graph):是一种由点和边集构成的结构 G ( V , E ) G(V,E) G(V,E) 图聚类(graph clustering) : 将点划分为不同的簇，使得簇内的边尽量多，簇之间…

阅读更多...

Louvain算法在反作弊上的应用

Louvain算法在反作弊上的应用

作者 | ANTI 一、概述随着互联网技术的发展，人们享受互联网带来的红利的同时，也面临着黑产对整个互联网健康发展带来的危害，例如薅羊毛、刷单、刷流量/粉丝、品控、诈骗、快排等等，反作弊作为打击黑产的中坚力量，持…

阅读更多...

community_louvain社群划分方法

community_louvain社群划分方法

第一、这个方法是一个典型的EM算法。定义了一个“模块度”的量化评价指标，然后结合上优化方法，不断地优化模块度，最终得到社群划分的结果。第二、模块度的定义，具体如下： 对于图中任意两个节点，i和j 1、…

阅读更多...

Louvain 社团发现算法学习（我的java实现+数据用例）

Louvain 社团发现算法学习（我的java实现+数据用例）

为了大家方便，直接把数据放在github了： https://github.com/qq547276542/Louvain 算法介绍： Louvain 算法是基于模块度的社区发现算法，该算法在效率和效果上都表现较好，并且能够发现层次性的社区结构，其…

阅读更多...

‘ network communites’（网络社区）（二）（louvain算法实现）

引言： 在（一）中我们学习到了什么是‘network communites’（网络社区）及其目标函数Q的求取，接下来我们要说明的是，我们要通过怎样的算法来实现将你的网络分成若干个集群。一：louva…

阅读更多...

neo4j实现Louvain算法

neo4j实现Louvain算法

文章目录例子一：创建一个属性图（无权）一、属性图如下二、实现算法1.stream模式执行Louvain算法（匿名图）2.结果如下总结一：例子二：创建一个属性图（有权）一、属性图如下二…

阅读更多...

社区发现系列03-Louvain算法分辨率

社区发现系列03-Louvain算法分辨率

1、分辨率局限 louvain算法存在的问题：分辨率局限。就是说当通过优化模块度来发现社区结构时，网络在存在一个固有的分辨率局限，导致一些规模较小但是结构显著的社区淹没在大的社区中，无法被识别到。造成这个问题的根本原因是模块…

阅读更多...

(Leiden)From Louvain to Leiden:guaranteeing well-connected communities

(Leiden)From Louvain to Leiden:guaranteeing well-connected communities

Leiden算法论文地址 Leiden算法是近几年的SOTA算法之一。 Louvain 算法有一个主要的缺陷：可能会产生任意的连接性不好的社区(甚至不连通)。为了解决这个问题，作者引入了Leiden算法。证明了该算法产生的社区保证是连通的。此外证明了当Leiden算法迭代应…

阅读更多...

社区发现不得不了解的库，包含Louvain 算法、Girvan-Newman 算法等多种社区发现算法，还具有可视化功能

社区发现不得不了解的库，包含Louvain 算法、Girvan-Newman 算法等多种社区发现算法，还具有可视化功能

熟知社区发现算法，你不能错过这个 Python 库。它涵盖 Louvain 算法、Girvan-Newman 算法等多种社区发现算法，还具有可视化功能。网络是由一些紧密相连的节点组成的，并且根据不同节点之间连接的紧密程度，网络也可视为由不同簇组成…

阅读更多...

【积】有向图中的louvain社区检测（二）

【积】有向图中的louvain社区检测（二）

有向图中的louvain社区检测请学着自己长大，参考连接《无向louvain社团算法》无向到有向的修改真的很简单。如果你连这个都做不到，建议不要用了。每个算法与数据匹配的时候，都会对数据或者算法小修。如果你连小修都做不到的话，…

阅读更多...

Louvain算法实现

Louvain算法实现

谢谢平台提供-http://bjbsair.com/2020-04-13/tech-info/65263.html 社区查找找的算法 Louvain是一种无监督算法（执行前不需要输入社区数量或社区大小），分为两个阶段：模块化优化和社区聚集[1]。第一步完成后，接下来…

阅读更多...

Louvain 算法原理及设计实现

Louvain 算法原理及设计实现

模块度： Louvain算法是一种基于图数据的社区发现算法。原始论文为：《Fast unfolding of communities in large networks》。算法的优化目标为最大化整个数据的模块度，模块度的计算如下：其中m为图中边的总数量，k_i表示所有指向节点i的连边权重之和，k_j同理。A_{i,j} 表…

阅读更多...

Louvain算法介绍

Louvain算法介绍

Louvain算法一种基于模块度的图算法模型，与普通的基于模块度和模块度增益不同的是，该算法速度很快，而且对一些点多边少的图，进行聚类效果特别明显。算法流程： 1、初始时将每个顶点当作一个社区，社区个数与…

阅读更多...

Python社区发现—Louvain—networkx和community

Python社区发现—Louvain—networkx和community

社区如果一张图是对一片区域的描述的话，将这张图划分为很多个子图。当子图之内满足关联性尽可能大，而子图之间关联性尽可能低时，这样的子图可以称之为一个社区。社区发现算法社区发现算法有很多，例如LPA，HANP&am…

阅读更多...

关于在networkx中使用louvain算法报错的问题

关于在networkx中使用louvain算法报错的问题

module ‘networkx.algorithms.community’ has no attribute ‘louvain_communities’ Networkx是复杂网络科学中常用的python包，louvain也是常用的社团发现算法之一。在networkx的文档中也有描述。louvain_communities — NetworkX 2.8.5 documentationhttps://n…

阅读更多...

【知识图谱】Louvain、LPA等5类经典社区发现算法 Python 实战

【知识图谱】Louvain、LPA等5类经典社区发现算法 Python 实战

一、社区发现概述根据图论，加权网络表示为𝐺(𝑉,𝐸,𝑊)，未加权网络表示为𝐺(𝑉,𝐸)，其中𝑉和𝐸表示节点和边的集合，&…

阅读更多...

推荐文章