数据分析真题日刷 | 网易2018实习生招聘笔试题-数据分析实习生

上周开始实习，博客更新就缓下来了。这是十天前做的套题了，现在拾起来把它再整理整理。

网易数据分析实习生的笔试题，和校招的题目还是有部分重复的，不过难度也不小。

今日真题
网易2018实习生招聘笔试题-数据分析实习生（来源：牛客网）
题型
客观题：单选20道
主观题：问答3道
完成时间
120分钟
牛客网评估难度系数
4颗星

❤️ 「更多数据分析真题」

《数据分析真题日刷 | 目录索引》

1. 有2堆宝石，A和B一起玩游戏，假设俩人足够聪明，规则是每个人只能从一堆选走1个或2个或3个宝石，最后全部取玩的人获胜，假设2堆宝石的数目为12和13，请问A怎么可以必胜？

A. 让A先取
B. 让B先取
C. 没有策略能够让A必胜
D. 说法都不正确

正确答案：A

重复校招真题，解析参考《网易2018校招数据分析师笔试卷》第2题。

2. 从数字集合{1,2,3,4,… ,20}中选出4个数字的子集，如果不允许两个相连的数字出现在同一集合中，那么能够形成多少个这种子集？

A. 2380
B. 816
C. 330
D. 1220

正确答案：A

重复校招真题，解析参考《网易2018校招数据分析师笔试卷》第3题。

3. 将4个不一样的球随机放入5个杯子中，则杯子中球的最大个数为3的概率是?

A. 9/16
B. 16/125
C. 16/25
D. 9/25

正确答案：B

重复校招真题，解析参考《网易2018校招数据分析师笔试卷》第4题。

4. 已知y=f(x)的均差f(x0, x1, x2)=14/3，f(x1, x2, x3)=15/3，f(x2, x3,x4)=91/15，f(x0, x2, x3)=18/3，那么均差f(x4, x2, x3)=（）

A. 18/3
B. 14/3
C. 15/3
D. 91/15

正确答案：D

? 均差的性质 **在这里插入图片描述

(对称性) 差商
与插值节点的顺序无关
（来源：https://www.nowcoder.com/profile/159098729/test/25029574/168614#summary ）

「题目解析」
根据对称性，f(x4, x2, x3) = f(x2, x3,x4) = 91/15

5. 一个快递公司对同一年龄段的员工，进行汽车，三轮车，二轮车平均送件量的比较，结果给出sig.=0.034，说明

A. 三类交通工具送件量有差别的可能性是0.034
B. 三类交通工具送件量没有差别的可能性是0.034
C. 交通工具对送件量没影响。
D. 按照0.05显著性水平，拒绝H0，说明三类交通工具送件量有显著差异。

正确答案：D

重复校招真题，解析参考《网易2018校招数据分析师笔试卷》第17题。

6. 小明在一次班干部二人竞选中，支持率为百分之五十五，而置信水平0.95以上的置信区间为百分之五十到百分之六十，请问小明未当选的可能性有可能是

A. 40%
B. 50%
C. 5%
D. 3%

正确答案：D

重复校招真题，解析参考《网易2018校招数据分析师笔试卷》第18题。

7. 某销售车辆公司某一时间段各类商品的销售量如下图，
在这里插入图片描述
销售员需统计以下公式所示数据=SUM(SUMIF(C2:C9,{"<10","<6"})*{1,-1})
请问，该公式返回值为

A. 23
B. 9
C. 14
D. 22

正确答案：C

「题目解析」

公式含义：SUM( 小于10的乘以1，小于6的乘以-1)
SUM(SUMIF(C2:C9,{"<10","<6"})*{1,-1}) = (4+5+6+8) + (-4-5) = 14

8. SQL语句执行的顺序是

A. 1.SELECT<br>2.JOIN ON<br>3.FROM<br>4.WHERE<br>5.GROUP BY<br>6.HAVING<br>7.ORDER BY
B. 1.SELECT<br>2.FROM<br>3.JOIN ON<br>4.WHERE<br>5.GROUP BY<br>6.HAVING<br>7.ORDER BY
C. 1.FROM<br>2.JOIN ON<br>3.WHERE<br>4.GROUP BY<br>5.HAVING<br>6.SELECT<br>7.ORDER BY
D. 1.JOIN ON<br>2.WHERE<br>3.GROUP BY<br>4.HAVING<br>5.SELECT<br>6.FROM<br>7.ORDER BY

正确答案：C

?SQL 语句的执行顺序 ? 语法顺序

SQL 语句的执行顺序跟其语句的语法顺序并不一致
一般而言

「语法顺序」是：
SELECT[DISTINCT]
FROM
WHERE
GROUP BY
HAVING
UNION
ORDER BY
「执行顺序」为：
FROM
WHERE
GROUP BY
HAVING
SELECT
DISTINCT
UNION
ORDER BY
需要注意的是：
1、 FROM 才是 SQL 语句执行的第一步。数据库在执行 SQL 语句的第一步是将数据从硬盘加载到数据缓冲区中，以便对这些数据进行操作。
2、SELECT 是在大部分语句执行了之后才执行的，严格的说是在 FROM 和 GROUP BY 之后执行的。这就是你不能在 WHERE 中使用在 SELECT 中设定别名的字段作为判断条件的原因。
3、并非所有SQL都按照上述的顺序进行。

作者：EdwinShii
来源：https://www.nowcoder.com/profile/159098729/test/25029574/168618#summary

9. 随机地掷一骰子两次，则两次出现的点数之和等于8的概率为：

A. 3/36
B. 4/36
C. 5/36
D. 2/36

正确答案：C

「题目解析」
掷骰子两次，共有 6 * 6 = 36 种可能组合；
两次点数之和为8的组合有5种，分别为（2，6），（3，5），（4，4），（5，3），（6，2）；
故概率为5/36。

10. 设随机变量X和Y都服从正态分布,且它们不相关，则（）

A. X与Y一定独立
B. (X, Y)服从二维正态分布
C. X与Y未必独立
D. X + Y服从一维正态分布

正确答案：C

重复校招真题，解析参考《网易2018校园招聘数据分析工程师笔试卷》第20题。

11. 某地区每个人的年收入是右偏的，均值为5000元，标准差为1200元。随机抽取900人并记录他们的年收入，则样本均值的分布为()

A. 近似正态分布，均值为5000元，标准差为40元
B. 近似正态分布，均值为5000元，标准差为1200元
C. 右偏分布，均值为5000，标准差为40
D. 左偏分布，均值为5000元，标准差为1200元

正确答案：A

?大数定律

概率论历史上第一个极限定理属于伯努利，后人称之为“大数定律”。概率论中讨论随机变量序列的算术平均值向随机变量各数学期望的算术平均值收敛的定律。

通俗地说，这个定理就是，在试验不变的条件下，重复试验多次，随机事件的频率近似于它的概率。偶然中包含着某种必然。

来源：https://baike.baidu.com/item/大数定律/410082?fromtitle=大数定理&fromid=9679413&fr=aladdin

?中心极限定理

大数定律揭示了大量随机变量的平均结果，但没有涉及到随机变量的分布的问题。而中心极限定理说明的是在一定条件下，大量独立随机变量的平均数是以正态分布为极限的。

它提出，大量的独立随机变量之和具有近似于正态的分布。

来源：https://wiki.mbalib.com/wiki/中心极限定理

「题目解析」
根据中心极限定理，900个样本近似服从正态分布，且均值为5000，方差为 sigma^2 / n ，则标准差为 1200/ sqrt(900) = 40。

12. 抽取30个手机用户，计算出他们通话时间的方差。要用样本方差推断总体方差，假定前提是所有用户的通话时间应服从()

A. χ2分布
B. 正态分布
C. t分布
D. F分布

正确答案：B
（待解析～）

13. 把黑桃、红桃、方片、梅花四种花色的扑克牌按黑桃10张、红桃9张、方片7张、梅花5张的顺序循环排列。问第2015张扑克牌是什么花色？

A. 黑桃
B. 红桃
C. 梅花
D. 方片

正确答案：C

「题目解析」
一次循环有 10+9+7+5 = 31张扑克。
2015 / 31 = 65，因为整除，所以第2015张扑克牌是梅花。

14. 命题A：随机变量X和Y独立，命题B：随机变量X和Y不相关。A是B的______条件。

A. 充分不必要
B. 必要不充分
C. 不充分不必要
D. 充要

正确答案：A

?充分条件 ? 必要条件

假设A是条件，B是结论
（1）由A可以推出B，由B可以推出A，则A是B的「充分必要条件」，或者说B的充分必要条件是A；
（2）由A可以推出B，由B不可以推出A，则A是B的「充分不必要条件」；
（3）由A不可以推出B，由B可以推出A，则A是B的「必要不充分条件」；
（4）由A不可以推出B，由B不可以推出A，则A是B的「既不充分也不必要条件」。
来源：https://baike.baidu.com/item/充分必要条件/10943559?fr=aladdin

15. 假定树根的高度为0，则高度为6的二叉树最多有_______个叶节点。

A. 32
B. 64
C. 128
D. 256

正确答案：B

「题目解析」
2 ^ 6 = 64

举一反三
《京东2018秋招数据分析工程师笔试题》第6题。

16. 已知一棵树具有10个节点，且度为4，那么：

A. 该树的高度至少是6
B. 该树的高度至多是6
C. 该树的高度至少是7
D. 该树的高度至多是7

正确答案：D

「题目解析」

树的度为4，说明树的节点中最高度为4，树一共10个节点，最多的可能就是前面都是一个节点连着一个节点，最后一共节点连4个节点。但本题答案最多为7，貌似是将根节点的高度看做1，其实应该在题目中提一下，不然根节点高度为0，就选B了。
作者：蓝月之虹
来源：https://www.nowcoder.com/profile/159098729/test/25029574/168626#summary

举一反三
《京东2019校招数据分析工程师笔试题》第12题。

17. 对于以下关键字{55，26，33，80，70，90，6，30，40，20}，增量取5的希尔排序的第一趟的结果是：

A. 55，33，30，6，80，70，40，20，26，90
B. 55，6，30，40，20，90，26，33，80，70
C. 55，6，33，30，40，70，20，26，80，90
D. 55， 26，6，40，30，90，33，70，80，20

正确答案：B

?希尔排序

「题目解析」

{55，26，33，80，70，90，6，30，40，20} 增量为5，从55开始每隔5个距离取值分为1组，共分为5组，
分别为{55，90} {26,6}{33,30}{80,40}{70,20}
先组内排序取最小值：55，6，30，40，20，
后取剩余值：90，26，33，80，70
故，第一趟排序后：55，6，30，40，20，90，26，33，80，70

强烈参考
《理解希尔排序的排序过程》https://blog.csdn.net/weixin_37818081/article/details/79202115

18. 设二叉排序树中关键字由1到999的整数构成，现要查找关键字为321的节点，下面关键字序列中，不可能出现在二叉排序树上的查找序列是：

A. 2、252、400 、398、300、344、310、321
B. 888、231、911、244、898、256、362、366
C. 888、200、666、240、312、330、321
D. 2、398、387、219、266、283、298、321

正确答案：B

?二叉排序树算法

首先将待查关键字key与根节点关键字t进行比较：

如果key = t, 则返回根节点指针。
如果key < t,则进一步查找左子树。
如果key > t,则进一步查找右子树。

来源：https://www.nowcoder.com/profile/159098729/test/25029574/168628#summary

? 二叉排序树的特点

若左子树不空，则左子树上所有结点的值均小于或等于它的根结点的值
若右子树不空，则右子树上所有结点的值均大于或等于它的根结点的值
左、右子树也分别为二叉排序树

来源：https://www.nowcoder.com/profile/159098729/test/25029574/168628#summary

「题目解析」
以B选项为例子；
B. 888、231、911、244、898、256、362、366

➡️过程
321小于888，故寻找888的左子树（即小于888的值的一侧）；
231大于321，故寻找231的右子树；
911大于321，故寻找911的左子树；
244小于321，故寻找244的右子树；
898大于321，故寻找898的左子树；
256小于321，故寻找256的右子树；
362大于321，故寻找362的左子树；
362的左子树的值应该小于362，不可能寻找到366，因此B错❌

19. 用1 * 3的瓷砖密铺3 * 20的地板有几种方式？

A. 1278
B. 872
C. 595
D. 406

正确答案：A

「题目解析」

f(n)表示用1 * 3的瓷砖密铺3 * n 的地板的方案数。用递推的思维想。想铺好3 * n，可以先铺3 * (n-1)，最后一列竖着铺一块3 * 1；也可以先铺好f(n-3)，最后的三快横着铺。那么f(n) = f(n-1)+f(n-3)。需要确定一下发，f(0),f(1),f(2)的值，容易知道，f(0)=f(1)=f(2)=1。接下来可以令n=20，用递推的方式求出f(20)=1278。
作者：超哥要努力
来源：：https://www.zhihu.com/question/279344915/answer/463832633

20. 有20个人去看电影，电影票50元。其中只有10个人有50元钱，另外10个人都只有一张面值100元的纸币，电影院没有其他钞票可以找零，问有多少种找零的方法？

A. 16796
B. 16798
C. 16794
D. 16792

正确答案：A

? 卡特兰数 在这里插入图片描述
?卡特兰数的应用

「题目解析」
根据卡特兰数的公式，C(2n,n) / (n+1) = C(20,10) / 11 = 16796

但是，按照博客举例的应用，如果是计算人的排队方式有多少种，那么答案应该为 16796 * 10！ * 10！。不过题目现在说的是找零方式，可能不区分排队顺序，总之不太严谨。

21. 好评率是会员对平台评价的重要指标。现在需要统计2018年1月1日到2018年1月31日，用户’小明’提交的母婴类目"花王"品牌的好评率（好评率=“好评”评价量/总评价量）:
用户评价详情表：a
字段：id（评价id，主键），create_time（评价创建时间，格式’2017-01-01’）， user_name(用户名称)，goods_id(商品id，外键) ，
sub_time（评价提交时间，格式’2017-01-01 23:10:32’），sat_name（好评率类型，包含：“好评”、“中评”、“差评”）
商品详情表：b
字段：good_id（商品id，主键），bu_name（商品类目）, brand_name(品牌名称)

「民间代码」

select count(sat_name = "好评“）/count(sat_name) as good_rate
from a
where create_time between "2018-01-01'" and "2018-01-31" and user_name = "小明“
left join b
on a.good_id = b.good_id
group by good_id
having brand_name = "花王“ and bu_name ="母婴”作者：Lanny靓儿?
来源：https://www.nowcoder.com/profile/159098729/test/25029574/168631#summary

22. 考拉运营"小明"负责多个品牌的销售业绩，请完成：
（1）请统计小明负责的各个品牌，在2017年销售最高的3天，及对应的销售额。
销售表 a:
字段：logday（日期，主键组），SKU_ID（商品SKU，主键组），sale_amt(销售额)
商品基础信息表 b:
字段：SKU_ID（商品SKU，主键）,bu_name（商品类目），brand_name(品牌名称)，user_name（运营负责人名称）
（2）请统计小明负责的各个品牌，在2017年连续3天增长超过50%的日期，及对应的销售额。

「民间代码」

(1)create view table_joined as (select logday ,sale_amt,brand_name from a1,b1where a1.SKU_id=b1.SKU_idand user_name='小明'and year(logday)=2017);select v1.brand_name,v1.logday,v1.sale_amtfrom table_joined v1where 3>(select count(*)from table_joined v2where v1.brand_name=v2.brand_nameand v1.sale_amt < v2.sale_amt)order by logday,sale_amt;

(2)create view f_viewasselect  t1.brand_name,t1.logday, t1.sale_amt,round((t1.sale_amt/t2.sale_amt-1),2) as growthfrom table_joined t1,table_joined t2where t1.logday-t2.logday=1AND t1.brand_name = t2.brand_name;select distinct f1.brand_name,f1.logday,f1.sale_amtfrom f_view f1,f_view f2,f_view f3where f1.brand_name=f2.brand_nameand f2.brand_name=f3.brand_name AND((f1.logday-f2.logday=-1 and f1.logday-f3.logday=-2)or (f1.logday-f2.logday=1 and f1.logday-f3.logday=-1)or(f1.logday-f2.logday=1 and f1.logday-f3.logday=2))and f1.growth>0.5 and f2.growth>0.5and f3.growth>0.5;作者：风从哪里来201809061527699
来源：https://www.nowcoder.com/profile/159098729/test/25029574/168632#summary

23. 考拉海购始终以用户为中心，为用户提供高品质的商品，帮助用户“用更少的钱，过更好的生活”。为了满足不同用户的需求（比如新客户的要求可能跟老客户不同，流失客户需要特殊的关怀），请你设计一套具体的方案，合理划分不同用户，并能给出相应的建议。

「民间答案」

从以下三个维度划分用户，即每个用户都将被打上以下三种标签
1、新老客标签
用户设备ID是否第一次出现来区分用户是新客还是老客，对于新客可进行新客指引及提供新客首单优惠活动等
2、人群标签
枚举值：男性、70后及70前女性、80后女性、90后女性
此标签数据来源于用户个人填写信息及其行为
各大人群偏好品牌及品类不同，可进行个性化推荐，如给男性推荐男装、运动品牌，给70后女性推荐家居品类，给80后女性推荐母婴产品，90后女性推荐化妆品等，当然这个运营人群标签可根据用户浏览/购买历史进行细化，如有女性用户浏览或购买过母婴品类，即可将其归于80后女性-已婚-有小孩
3、活跃状态标签
根据用户购买情况确定其活跃状态，如30天内有订单视为活跃用户，80天内有订单为高危用户，160天内无订单而有历史订单为流失用户等
枚举值：活跃、高危、沉睡、流失、注册未购买
对于活跃及高危人群可根据其行为推荐偏好品牌以刺激消费
对于沉睡、流失用户可进行push或短信推送优惠券及活动预告
对于注册未购买的用户则可进行相关提示，如购买首单优惠等信息

作者：Yahoo?
来源：https://www.nowcoder.com/profile/159098729/test/25029574/168633#summary