哈希算法在判定树同构方面的应用(下)

article/2025/9/26 21:14:05

哈希算法在判定树同构方面的应用

在上一篇文章中我们介绍了 枚举根节点哈希求重心哈希 两种方法来判断两棵无根树是否同构。

但是如果有些题目中我必须要计算出每个根节点的 f f f 值,且 n ≤ 1 e 5 n\le 1e5 n1e5,我们要怎么办呢?

考虑以下问题。

(一):洛谷–P4323 [JSOI2016]独特的树叶

在这里插入图片描述

题解:
考虑如下解法。

我们求解 A A A 树中,以每一点 x x x 为根的 f [ x ] f[x] f[x] 值并保存。

我们枚举 B B B 树中的叶子节点,计算删去这个叶子节点后,这个叶子节点的父亲的 f f f 值,即计算 f [ f a t h e r [ 当 前 叶 子 ] ] f[father[当前叶子]] f[father[]]

如果在 A A A 树的 f [ x ] f[x] f[x] 中存在一个值与 f [ f a t h e r [ 当 前 叶 子 ] ] f[father[当前叶子]] f[father[]] 相等,那就说明对于 B B B 树中以某一点 y y y 为根的 f [ y ] f[y] f[y],在 A A A 树中能找到一点 x x x,使得以 x x x 为根的 f [ x ] = f [ y ] f[x]=f[y] f[x]=f[y]。那么 A A A 树与 B B B 树同构,当前叶子节点符合要求。

当前问题的关键点转化为怎么快速求出,无根树中,以任意一点 x x x 为根的 f [ x ] f[x] f[x]

我们将当前无根树转化为根节点为 1 1 1 的有根树。

对根节点 1 1 1 进行求解,得到 f [ 1 ] f[1] f[1] ,此时各点 f [ x ] f[x] f[x] 表示整棵树以 1 1 1 为根,且当前为 节点 x x x 子树的哈希值。

我们设一个辅助数组 g [ x ] g[x] g[x],表示整棵树以 x x x 为根的哈希值,初始时 g [ 1 ] = f [ 1 ] g[1]=f[1] g[1]=f[1]

假设 y ∈ s o n x y\in son_x ysonx,且当前 g [ x ] g[x] g[x] 已求出,考虑怎么求解 g [ y ] g[y] g[y]

我们已经求出 f [ y ] = 1 + ∑ z ∈ s o n y a n d z ≠ x f [ z ] ∗ p [ s i [ z ] ] f[y]=1+\sum\limits_{z\in son_y\space and\space z\neq x}f[z]*p[si[z]] f[y]=1+zsony and z=xf[z]p[si[z]],我们要得到以 y y y 为根的哈希值 g [ y ] g[y] g[y]

g [ y ] = f [ y ] + g[y]=f[y]+ g[y]=f[y]+ (以 y y y 为根的树中,子树 x x x 的哈希值) ∗ p [ n − s i [ y ] ] *p[n-si[y]] p[nsi[y]]

其中 ( 以 y y y 为根的树中,子树 x x x 的哈希值 ) 等于 ( g [ x ] − f [ y ] ∗ p [ s i [ y ] ] ) (g[x]-f[y]*p[si[y]]) (g[x]f[y]p[si[y]])

n − s i [ y ] n-si[y] nsi[y] 为以 y y y 为根时, x x x 子树的大小。

其中 n n n 为这棵树的大小。

g [ y ] = f [ y ] + ( g [ x ] − f [ y ] ∗ p [ s i [ y ] ] ) ∗ p [ ( n − s i [ y ] ) ] g[y]=f[y]+(g[x]-f[y]*p[si[y]])*p[(n-si[y])] g[y]=f[y]+(g[x]f[y]p[si[y]])p[(nsi[y])],那么我们再进行一遍 d f s dfs dfs 即可以求出 g [ x ] g[x] g[x]
g [ x ] g[x] g[x] 为以 x x x 为根的哈希值。

回到本题:
(1)求解 A 树的 g [ x ] g[x] g[x] 并保存至 s e t set set 中。
(2)求解 B 树的 g [ x ] g[x] g[x]
(3)枚举叶子节点,检查去掉叶子节点后 B B B 树与 A A A 树是否同构。

空间复杂度 O ( n ) O(n) O(n),时间复杂度 O ( n l o g n ) O(nlogn) O(nlogn) l o g n logn logn 是因为维护了 s e t set set

代码:

#include<iostream>
#include<cstdio>
#include<algorithm>
#include<cstring>
#include<string>
#include<vector>
#include<map>
#include<set>
#include<cmath>
#include<queue>
#define ll long long
#define llu unsigned ll
#define pr make_pair
#define pb push_back
#define lc (cnt<<1)
#define rc (cnt<<1|1)
using namespace std;
const int inf=0x3f3f3f3f;
const ll lnf=0x3f3f3f3f3f3f3f3f;
const double dnf=1e15;
const int mod=1e9+7;
const int maxn=1000100;
int head[maxn],ver[maxn],nt[maxn],d[maxn];
int fa[maxn],si[maxn],tot=1,n;
llu g[maxn],f[maxn];
int p[maxn<<1],cnt=0;
bool ha[maxn<<1];
set<llu> se;//素数筛,可以先打表看一下,素数筛的上界
void prime(void)
{ha[1]=true;for(int i=2;i<(maxn<<1);i++){if(!ha[i]) p[++cnt]=i;for(int j=1;j<=cnt&&i*p[j]<(maxn<<1);j++){ha[i*p[j]]=true;if(i%p[j]==0) break;}}
}//初始化存图
void init(void)
{memset(head,0,sizeof(head));tot=1;n++;
}void add(int x,int y)
{ver[++tot]=y,nt[tot]=head[x],head[x]=tot;
}//处理f[x]
void dfs1(int x,int ff)
{f[x]=si[x]=1;for(int i=head[x];i;i=nt[i]){int y=ver[i];if(y==ff) continue;dfs1(y,x);f[x]+=f[y]*p[si[y]];si[x]+=si[y];}
}//求解 g[x],g[x]为以x为根的哈希值
void dfs2(int x,int ff)
{for(int i=head[x];i;i=nt[i]){int y=ver[i];if(y==ff) continue;g[y]=f[y]+(g[x]-f[y]*p[si[y]])*p[n-si[y]];dfs2(y,x);}
}int main(void)
{prime();scanf("%d",&n);int x,y;for(int i=1;i<n;i++){scanf("%d%d",&x,&y);add(x,y);add(y,x);}dfs1(1,0);g[1]=f[1];dfs2(1,0);//保存A树的for(int i=1;i<=n;i++)se.insert(g[i]);init();for(int i=1;i<n;i++){scanf("%d%d",&x,&y);d[x]++,d[y]++;add(x,y);add(y,x);fa[x]=y,fa[y]=x;//注意这里叶子节点怎么找它的上一节点}dfs1(1,0);g[1]=f[1];dfs2(1,0);//枚举叶子节点for(int i=1;i<=n;i++){//g[fa[i]]-p[1],因为叶子节点的大小一定为1,//这个值就是去掉叶子节点后,以fa[i] 为根的树的哈希值。if(d[i]==1&&se.find(g[fa[i]]-p[1])!=se.end()){printf("%d\n",i);break;}}return 0;
}

(二)综合练习:石油大–17102、Regular Forestation
这个 O J OJ OJ 可能会上不去。
CF题目:CodeForces - 1252F

题面:
在这里插入图片描述
题意:
给定一棵无根树,如果去掉点 x x x 且去掉与点 x x x 相连的边,剩下的部分是由 k k k 棵树组成的森林,且这 k k k 棵树同构,且 k > 1 k>1 k>1 。那么称 x x x 是一个好的切分点。

输出去掉某一个好的切分点后最大的 k k k

题解:

数据量只有 4000 4000 4000,很容易想到解决方案可能是 O ( n 2 ) O(n^2) O(n2) 复杂度的算法。

我们枚举每个点 x x x,判定这个点是否是好的切分点,同时用 k k k 更新答案。

在判断两棵树是否同构的时候,我们需要求出这两棵无根子树以每个点为根的哈希值,然后将这两个哈希值序列进行排序,如果两棵无根子树排序后的哈希值序列完全一样,那么这两棵树同构(因为如果两棵无根树同构,那么在 A A A 树中若以某一点 x x x 为根,那么在树 B B B 中总能找到一点 y y y,使得以 x , y x,y x,y 为根的树同构)。这个时间复杂度是 O ( n l o g n ) O(nlogn) O(nlogn) 的,求一棵树每个点为根的哈希值是 O ( n ) O(n) O(n) 的,但是排序是 O ( n l o g n ) O(nlogn) O(nlogn) 的。

再套上外层的 O ( n ) O(n) O(n) ,那么时间复杂度是 O ( n 2 l o g n ) O(n^2logn) O(n2logn) 的,显然不能通过此题。

考虑如何剪枝。

我们去掉一点 x x x ,如果剩下的 k k k 棵树同构,那么首先要要求剩下的 k k k 棵树的大小一样。感性理解一下如果去掉一点 x x x 能使剩下的 k k k 棵树的大小一样,这样的点 x x x 是不多的。(其实这样的点 x x x 只能是重心且至多有一个,因为要去掉某一点后使得剩下的树的大小一样,如果重心不符合要求,那么其他点一定也不符合要求。因为在第一次写题的时候没考虑到这么多,所以将 d f s dfs dfs 函数换成找重心也可以过)

找到重心(或者找到删除该点后使得剩下的树大小一致的点),只需要判断这个点的所有子树是否同构即可。
时间复杂度 O ( n l o g n ) O(nlogn) O(nlogn)

代码:

#include<iostream>
#include<cstdio>
#include<cstdlib>
#include<algorithm>
#include<cstring>
#include<cmath>
#include<string>
#include<queue>
#include<bitset>
#include<map>
#include<unordered_map>
#include<unordered_set>
#include<set>
#include<ctime>
#define ui unsigned int
#define ll long long
#define llu unsigned ll
#define ld long double
#define pr make_pair
#define pb push_back
#define lc (cnt<<1)
#define rc (cnt<<1|1)
#define len(x)  (t[(x)].r-t[(x)].l+1)
#define tmid ((l+r)>>1)
#define fhead(x) for(int i=head[(x)];i;i=nt[i])
#define max(x,y) ((x)>(y)?(x):(y))
#define min(x,y) ((x)>(y)?(y):(x))
using namespace std;const int inf=0x3f3f3f3f;
const ll lnf=0x3f3f3f3f3f3f3f3f;
const double dnf=1e18;
const double alpha=0.75;
const int mod=1e9+7;
const double eps=1e-8;
const double pi=acos(-1.0);
const int hp=13331;
const int maxn=100100;
const int maxm=100100;
const int maxp=100100;
const int up=1100;int p[maxn],cnt=0;
bool ha[maxn];
void Prime(void)
{ha[1]=true;for(int i=2;i<maxn;i++){if(!ha[i]) p[++cnt]=i;for(int j=1;j<=cnt&&i*p[j]<maxn;j++){ha[i*p[j]]=true;if(i%p[j]==0) break;}}
}int head[maxn],ver[maxn],nt[maxn],si[maxn],tot=1,n;
int d[maxn],maxx=-1,nowsi;
vector<pair<int,int> >ans;
llu f[maxn],g[maxn];
vector<llu>vc,vvc;void add(int x,int y)
{ver[++tot]=y,nt[tot]=head[x],head[x]=tot;
}
//找某点被去点后剩下的子树大小相等的点
void dfs(int x,int fa)
{si[x]=1;vector<int>vc;vc.clear();for(int i=head[x];i;i=nt[i]){if(ver[i]==fa) continue;dfs(ver[i],x);si[x]+=si[ver[i]];vc.pb(si[ver[i]]);}if(x!=1)vc.pb(n-si[x]);if(vc.size()==1) return ;for(int i=1;i<vc.size();i++){if(vc[i]!=vc[i-1])return ;}ans.pb(pr(-vc.size(),x));
}//计算f
void dfs1(int x,int fa)
{f[x]=si[x]=1;for(int i=head[x];i;i=nt[i]){int y=ver[i];if(y==fa) continue;dfs1(y,x);f[x]+=f[y]*p[si[y]];si[x]+=si[y];}
}//计算g
void dfs2(int x,int fa)
{vvc.pb(g[x]);for(int i=head[x];i;i=nt[i]){int y=ver[i];if(y==fa) continue;g[y]=f[y]+(g[x]-f[y]*p[si[y]])*p[nowsi-si[y]];dfs2(y,x);}
}void get(void)
{for(int k=0;k<ans.size();k++){if(-ans[k].first<=maxx) continue;int cnt=0,x=ans[k].second;bool flag=true;for(int i=head[x];i;i=nt[i]){vvc.clear();cnt++;dfs1(ver[i],x);g[ver[i]]=f[ver[i]];nowsi=si[ver[i]];dfs2(ver[i],x);sort(vvc.begin(),vvc.end());if(cnt==1) vc=vvc;else if(vc!=vvc){flag=false;break;}}if(flag) maxx=max(maxx,cnt);}
}int main(void)
{Prime();random_shuffle(p+1,p+cnt+1);int x,y;scanf("%d",&n);for(int i=1;i<n;i++){scanf("%d%d",&x,&y);add(x,y);add(y,x);d[x]++,d[y]++;}dfs(1,0);sort(ans.begin(),ans.end());get();printf("%d\n",maxx);return 0;
}

上述时间复杂度为 O ( n l o g n ) O(nlogn) O(nlogn)

考虑 O ( n ) O(n) O(n) 的算法。

首先来复习一下树的重心的知识。

树的重心:找到一个点 x x x, 以点 x x x 为根时,其所有的子树中最大的子树节点数最少,那么这个点 x x x 就是这棵树的重心。(以重心为根时,最大子树最小)

性质:
(1)树中所有点到某个点的距离和中,到重心的距离和是最小的,如果有两个重心,他们的距离和一样。
(2)把两棵树通过一条边相连,新的树的重心在原来两棵树重心的连线上。
(3)一棵树添加或者删除一个节点,树的重心最多只移动一条边的位置。
(4)一棵树最多有两个重心,且相邻。
(5)删除重心后所得的所有子树,节点数不超过原树的1/2。

那么我们可以得到,如果两棵无根树同构,那么他们的重心是一致的。
那么我们在判定两棵树是否同构时,可以先 O ( n ) O(n) O(n) 求出两棵树的重心(可能有两个),然后再 O ( n ) O(n) O(n) 判定两棵树是否同构即可。

时间复杂度: O ( n ) O(n) O(n) 但是会带一个小常数,大约 2 − 3 2-3 23

代码:

#include<iostream>
#include<cstdio>
#include<cstdlib>
#include<algorithm>
#include<cstring>
#include<cmath>
#include<string>
#include<queue>
#include<bitset>
#include<map>
#include<unordered_map>
#include<unordered_set>
#include<set>
#include<ctime>
#define ui unsigned int
#define ll long long
#define llu unsigned ll
#define ld long double
#define pr make_pair
#define pb push_back
#define lc (cnt<<1)
#define rc (cnt<<1|1)
#define len(x)  (t[(x)].r-t[(x)].l+1)
#define tmid ((l+r)>>1)
#define fhead(x) for(int i=head[(x)];i;i=nt[i])
#define max(x,y) ((x)>(y)?(x):(y))
#define min(x,y) ((x)>(y)?(y):(x))
using namespace std;const int inf=0x3f3f3f3f;
const ll lnf=0x3f3f3f3f3f3f3f3f;
const double dnf=1e18;
const double alpha=0.75;
const int mod=1e9+7;
const double eps=1e-8;
const double pi=acos(-1.0);
const int hp=13331;
const int maxn=100100;
const int maxm=100100;
const int maxp=100100;
const int up=1100;int p[maxn],cnt=0;
bool ha[maxn];
void Prime(void)
{ha[1]=true;for(int i=2;i<maxn;i++){if(!ha[i]) p[++cnt]=i;for(int j=1;j<=cnt&&i*p[j]<maxn;j++){ha[i*p[j]]=true;if(i%p[j]==0) break;}}
}int head[maxn],ver[maxn],nt[maxn],si[maxn],tot=1,n;
int d[maxn],ff[maxn],si1[maxn],dp[maxn],maxx=-1,nowsi,nowx;
int rt1,rt2;
vector<pair<int,int> >ans;
llu f[maxn];void add(int x,int y)
{ver[++tot]=y,nt[tot]=head[x],head[x]=tot;
}//找某点被删掉之后剩下的子树大小相等的点
void dfs(int x,int fa)
{si1[x]=1;vector<int>vc;vc.clear();for(int i=head[x];i;i=nt[i]){if(ver[i]==fa) continue;ff[ver[i]]=x;dfs(ver[i],x);si1[x]+=si1[ver[i]];vc.pb(si1[ver[i]]);}if(x!=1)vc.pb(n-si[x]);if(vc.size()==1) return ;for(int i=1;i<vc.size();i++){if(vc[i]!=vc[i-1])return ;}ans.pb(pr(-vc.size(),x));
}//找重心
void dfs1(int x,int fa)
{si[x]=1,dp[x]=0;for(int i=head[x];i;i=nt[i]){int y=ver[i];if(y==fa) continue;dfs1(y,x);si[x]+=si[y];dp[x]=max(dp[x],si[y]);}dp[x]=max(dp[x],nowsi-si[x]);if(rt1==0||dp[x]<dp[rt1]) rt1=x,rt2=0;else if(dp[x]==dp[rt1]) rt2=x;
}//求f
void dfs2(int x,int fa)
{f[x]=si[x]=1;for(int i=head[x];i;i=nt[i]){int y=ver[i];if(y==fa||y==nowx) continue;dfs2(y,x);f[x]+=f[y]*p[si[y]];si[x]+=si[y];}
}void get(void)
{for(int k=0;k<ans.size();k++){if(-ans[k].first<=maxx) continue;int cnt=0,x=ans[k].second;bool flag=true;//虽然以下ans都初始化为0,有冲突的风险,但是这个风险还是比较小的。llu ans1=0,ans2=0;llu ansnow1=0,ansnow2=0;for(int i=head[x];i;i=nt[i]){ansnow1=0,ansnow2=0;++cnt;int y=ver[i];if(y==ff[x]) nowsi=n-si1[x];else nowsi=si1[y];rt1=0,rt2=0;dfs1(ver[i],x);nowx=x;if(rt1!=0) dfs2(rt1,0),ansnow1=f[rt1];if(rt2!=0) dfs2(rt2,0),ansnow2=f[rt2];if(cnt==1) ans1=ansnow1,ans2=ansnow2;else if(!((ans1==ansnow1&&ans2==ansnow2)||(ans1==ansnow2&&ans2==ansnow1))){flag=false;break;}}if(flag) maxx=max(maxx,cnt);}
}int main(void)
{Prime();random_shuffle(p+1,p+cnt+1);int x,y;scanf("%d",&n);for(int i=1;i<n;i++){scanf("%d%d",&x,&y);add(x,y);add(y,x);d[x]++,d[y]++;}dfs(1,0);sort(ans.begin(),ans.end());get();printf("%d\n",maxx);return 0;
}

http://chatgpt.dhexx.cn/article/MQa5EjPI.shtml

相关文章

树的同构判断

使用递归的思路解决树的同构的判断 给定两棵树T1和T2。如果T1可以通过若干次左右孩子互换就变成T2&#xff0c;则我们称两棵树是“同构”的。例如图1给出的两棵树就是同构的&#xff0c;因为我们把其中一棵树的结点A、B、G的左右孩子互换后&#xff0c;就得到另外一棵树。而图2…

树同构的判断

结构中的flag用来标记该元素是否被访问过&#xff0c;judge函数中的flag为了使一行的四个元素即使又被访问过的元素也要读完一整行。 #include<stdio.h> #include<stdbool.h> #include<stdlib.h> typedef struct TreeNode *Tree; struct TreeNode{int v;Tre…

哈希算法在判定树同构方面的应用(上)

哈希算法在判定树同构方面的应用&#xff08;上&#xff09; &#xff08;一&#xff09;需要掌握的前置知识&#xff1a; &#xff08;1&#xff09;素数筛法&#xff1a;埃氏筛或者欧拉筛均可以。 以下为欧拉筛&#xff1a; const int maxn100100; int p[maxn],cnt0; bool…

树同构判定算法

树同构判定 树同构判定 图同构与树同构 同的同构问题还没有有效算法。 树的同构本质上寻找不同树之间的双射关系。 通过对树编码&#xff0c;将树的同构问题转化为编码比较问题。 有根树的同构严格强于图同构关系。 如上&#xff0c;图同构的两张图转化成树&#xff0c;…

数据结构(三)—— 树(4):树的同构

数据结构系列内容的学习目录 → \rightarrow →浙大版数据结构学习系列内容汇总。 题意理解&#xff1a; 给定两棵树T1和T2。如果T1可以通过若干次左右子结点互换就变成T2&#xff0c;则我们称两棵树是“同构”的。         现给定两棵树&#xff0c;如下图所示&#xf…

【树】树的同构

【树】 树的同构 题目要求&#xff1a; 给定两棵树T1和T2。如果T1可以通过若干次左右孩子互换就变成T2&#xff0c;则我们称两棵树是“同构”的。例如图1给出的两棵树就是同构的&#xff0c;因为我们把其中一棵树的结点A、B、G的左右孩子互换后&#xff0c;就得到另外一棵树。而…

树的同构

来自大佬的文章&#xff1a;树的同构 给定两棵树T1和T2。如果T1可以通过若干次左右孩子互换就变成T2&#xff0c;则我们称两棵树是“同构”的。例如图1给出的两棵树就是同构的&#xff0c;因为我们把其中一棵树的结点A、B、G的左右孩子互换后&#xff0c;就得到另外一棵树。而图…

树的同构 (25分)

树的同构 (25分) 思路分析:树的同构,顾名思义两个树是否有一样的结构,每一个孩子结点的孩子的数量和值都要相同,但是它所在的位置可以左右交换(不是说两个父亲结点的孩子互相交换,而是说父亲结点的下一层孩子的左右可以交换),这样就转化了越来越小的树比较是否同构,假…

项目的数据库分析

一、表的建设 病人信息表&#xff1a;病人ID、病人姓名、卡号、住院号、病历号、医保诊断、身份证、性别、年龄、出生年月、婚否、职业、民族、国籍、出生地、省|市、县|区、单位、电话、户口地址、联系人、关系、联系电话、担保人、时间、预约日期、留观号 凭证信息表&#x…

数据分析学习之完整的数据挖掘项目流程

1、分析问题&#xff0c;明确目标 有目的解决问题才会事半功倍。 2、模型可行性分析 并不是所有问题都需要数据挖掘模型或着能通过数据挖掘模型来解决。在建模之前需要进行可行性分析。判断模型可行性的流程如图所示&#xff1a; 3、 选取模型 根据问题定义选则合适的模型&…

数据挖掘项目(一)Airbnb 新用户的民宿预定结果预测

摘要 本文主要根据对Airbnb 新用户的民宿预定结果进行预测&#xff0c;完整的陈述了从数据探索到特征工程到构建模型的整个过程。 其中&#xff1a; 1 数据探索部分主要基于pandas库&#xff0c;利用常见的:head()&#xff0c;value_counts()&#xff0c;describe()&#xff0c…

对数据挖掘的理解和项目流程

14年毕业&#xff0c;那会进了现在的公司&#xff0c;做当时很红火的数据挖掘。在有些人眼里我们很神秘&#xff0c;感觉研究的东西很高端;在有些人眼里就是个打杂工&#xff0c;哪里需要去哪里;还有些人决定我们什么都会就会吹水。 真实的情况是有数据挖掘项目的时候搞项目&am…

数据挖掘建模实战

什么是数据挖掘 数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中&#xff0c;提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。 听起来比较抽象&#xff0c;我们举个例子。 傍晚小街路面上沁出微雨后的湿润&#xff0c;和…

数据挖掘—数据探索

文章目录 数据探索数据探索的角度1 数据质量分析缺失值分析异常值分析一致性分析 2 数据特征分析分布分析对比分析统计量分析周期性分析贡献度分析相关性分析 数据探索 根据观测、调查收集到初步的样本数据集后&#xff0c;接下来要考虑的问题是&#xff1a; 样本数据集的数量…

数据分析项目实战——Airbnb数据分析

爱彼迎官网&#xff1a; 1、业务背景与分析目的 Airbnb是一款短租产品&#xff0c;作为旅行者和房东之间的媒介颠覆了酒店行业。目前&#xff0c;Aribnb作为短租产品的头部品牌&#xff0c;业务涉及到190个国家的34,000 个城市。 在Airbnb发展如此迅速的同时&#xff0c;是否…

一个企业级数据挖掘实战项目|教育数据挖掘

数据集描述 本案例数据集来自Balochistan的6000名学生。其基本情况&#xff1a;一共13个字段&#xff0c;其中RESULT为结果标签&#xff1b; 语言字段是经过独热编码后的四个字段&#xff0c;分别为Lang1, Lang2, Lang3, Lang4&#xff1b; 另外性别、学校、是否残疾、宗教信仰…

二、大数据实践项目——数据分析与处理

一、数据处理主要任务 二、数据集处理 1、查看数据集基本情况 调用 info() 函数来查看数据data的基本情况&#xff0c;包括数据维度&#xff0c;字段名称和类型以及有无缺失值&#xff0c;数据占用内存等。&#xff08;以下为部分字段信息&#xff09; 可见总的数据47447行&a…

数据挖掘项目总结文档

数据挖掘项目总结文档 1、文档概述 1.1 编写目的 记录本次实验思路及流程&#xff0c;备忘用。 1.2 适用对象 个人学习总结&#xff0c;描述有偏差之处陆续更进。 2、业务理解与分析定义 2.1 需求概述 针对传统网络入侵检测系统存在的误判以及漏检情况&#xff0c;采用数据挖掘…

数据挖掘开源项目立项

项目背景 因为最近一直都在搞数据挖掘类的项目&#xff0c;且现在国内的大数据潮火热。在前几天与群里的几位兄弟聊天所以有了做一个开源项目的想法&#xff0c;以前也搞过一个开源的项目&#xff0c;当时只是想把权限集中化做一下&#xff0c;项目的名称和地址是&#xff1a; …

数据挖掘项目(1)对数据进行探索和分析

1.数据类型的分析&#xff08;假设数据为data.csv&#xff09; 首先读入数据&#xff0c;这个数据是csv格式&#xff0c;可以用pandas来读&#xff0c;如果读不进来的时候&#xff0c;可以用记事本打开data.csv然后另存为data_2.csv并且保存为utf-8的编码格式。然后读取数据。…