如何系统的学习机器学习,算法工程师入门路径

article/2025/10/31 8:24:33

我作为一名五年前从安卓开发,成功转行算法工程师的程序员,认真回顾一下当年的学习心得。在当年研究生阶段,漫长的学习过程中,非常焦虑,并且由于机器学习先验知识较多,不像开发那样能有及时的正反馈,再加上“樯橹灰飞烟灭”的求职现状,所以时常怀疑自己的决定是否正确,网上搜到的文章也没有一篇能与自己产生共鸣。所以希望这篇文章能对你有所启发,提供一个大家一起交流自己问题的地方。

一. 看山是山 -- 初识机器学习

听很多人提到机器学习,有很多公式和概念,可是我想先大体了解一下机器学习,看看我到底感不感兴趣。那有没有诸如Head First 那种快速简单入门的书呢?

有,就是《集体编程智慧》这本书。这本书其实非常经典,但是可能由于比较入门,现在很少有人提起它了。一开始并不需要深入了解机器学习算法的知识,而是知道机器学习能做些什么,培养对机器学习的兴趣,这一点将会是你未来坚持走下去的源动力。

我上学时期就是阅读这本书发现了机器学习的魅力,通过分析数据,得到集体智慧,这不就是编程的最高价值所在嘛。

《 集体智慧编程》以机器学习与计算统计为主题背景,专门讲述如何挖掘和分析Web上的数据和资源,如何分析用户体验、市场营销、个人品味等诸多信息,并得出有用的结论,通过复杂的算法来从Web网站获取、收集并分析用户的数据和反馈信息,以便创造新的用户价值和商业价值。全书内容翔实,包括协作过滤技术(实现关联产品推荐功能)、集群数据分析(在大规模数据集中发掘相似的数据子集)、搜索引擎核心技术(爬虫、索引、查询引擎、PageRank算法等)、搜索海量信息并进行分析统计得出结论的优化算法、贝叶斯过滤技术(垃圾邮件过滤、文本过滤)、用决策树技术实现预测和决策 建模功能、网络的信息匹配技术、机器学习和人工智能应用等。

二. 看山不是山 -- 深入学习

到了这个阶段,默认你有很长的学习时间,希望系统的学习,而不是为了急于就业想走捷径。

整个学习路径是: 机器学习理论 -> 机器学习实战 -> 深度学习理论 -> 挑选深度学习就业方向 -> 方向实战。这就是从学习到找工作的整个学习路径,下面详细说说每个阶段要做些什么和怎么做!

1. 机器学习理论

机器学习确实需要数学基础,但是要求并没有很高,只要大学上过《高等代数》和《概率论》课程就完全能应对。机器学习理论最扎实的学习方式就是上课,我曾经就去蹭过计算机系的 机器学习 课程,一个学期连学带考,非常扎实。如果说你不方便去蹭课,或者老师水平有限,通过看书或者看视频自学也是完全ok。下面按照时间序,讲讲应该依次看什么书。

首先从西瓜书,李航的《统计学习方法》,模式识别三本中选择一个当做教材,不用看完全部章节,因为有的知识可能你整个算法生涯都不会用到,一开始我们只学普世知识,后面有用到其他的知识点再转过头学。西瓜书只用看到第九章 聚类,《统计学习方法》只用看到第九章 EM算法,《模式识别》是清华大学研究生模式识别课的教材,建议看完西瓜书和统计学习方法之后再翻翻。

书看完了,感觉也懂了,但是你一考我,我好像又忘了。

这时候可以看吴恩达的机器学习视频,Coursera上就有,然后一定要记笔记,跟着推导一遍。记笔记是因为在以后学习生涯中你一定会回过来翻看,记下来就不用再去翻视频了,大大节省了时间。

这时候你已经完全了解了机器学习的基础知识,但是可能怀疑自己是否能把这些算法实现,这就即将进入实战阶段。

2. 机器学习实战

之前书上都是伪代码,《机器学习实战》这本书给出了各个算法的Python实现,而且是不调包,直接给出算法核心细节,看懂这本书后,你就有自信说,我不是调包侠,我能直接手撸机器学习算法。

机器学习实战阶段需要学习pandas , numpy, sklearn 这三个包的使用,模型主要使用xgboost 和 lightgbm, 代码上主要进行特征构造、特征筛选、特征工程,思维上培养分析模型的能力。

kaggle 是一个业界备受认可的机器学习比赛平台,我推荐下面这本书,这本书不仅教各个库的使用方式,而且使用kaggle 题目举例,给出了如何加载数据,构造特征,交叉验证,调参各个阶段的代码范式,看完之后你就可以组队去kaggle上一显身手了。

到这个阶段你已经完全掌握了机器学习的原理,并且有了一定的模型实践经历,这时可以不再往下学习,选择走向数据分析的方向,去做一名Pointer,值得一提的是,现在降本增效的大环境下,企业对经营分析师的需求和薪资大大提升,趁着这个历史窗口去做一名经营分析师也很不错。

如果你坚定的选择做一名算法工程师,那就必须需要有深度学习经历,敬请往下看。

3.深度学习理论

有了机器学习理论基础,学习深度学习会简单很多,如果说学习机器学习的难受程度是10,则学习深度学习难受程度只有6,但是深度学习非常重要,知识点很多,是今后工作面试考查的重点。

深度学习网上一般推荐花书,但是这本书巨厚,我强烈不建议入门的时候读,因为它虽然经典,但是内容太深奥,太学术,很容易把人劝退,而且工作中可能用不上。

我这里推荐一本电子书,《解析卷积神经网络-- 深度学习实践手册》,是著名的南京大学lamda实验室魏秀参博士写的。这本书是基于模型训练的角度讲述了卷积,参数初始化,网络正则化,模型bagging等各个知识,在实际模型训练中都会用得到。

除了需要知道模型训练的知识以外,需要了解深度学习中的CNN,RNN,LSTM 等各种网络结构,以及解决的问题,这里推荐台湾大学李宏毅老师的课程,但是这个阶段选择李宏毅老师的一门课程去看即可,因为我们还没有决定以后的主攻方向,不同的深度学习方向需要的背景知识不同,这里只需要了解普世知识即可。

Hung-yi Lee​speech.ee.ntu.edu.tw/~tlkagk/courses_MLDS17.html

4. 挑选方向

到了这个阶段,相信你看了很多书,看了很多视频,你肯定有一个疑问,深度学习知识这么多,我怎么学得过来,以后工作真的用得上吗?

这个阶段,你需要挑选主攻方向了,不同方向需要储备的技术路径也不同。当然首选是你实验室的研究方向,但是如果你跟我一样苦b,没有实验室或者实验室不搞深度学习,那么应该选择什么方向呢?

AI主要的方向有:语音,机器视觉,NLP,推荐,风控,金融分析 六大方向,其中语音是难度最大的,机器视觉是最卷的,风控+金融分析 是学生最不受关注的,像我学生时代就根本不知道这两个方向,不受关注就意味着不卷,好就业!

作为一名学生,首先需要知道各个方向是干啥的,自己对哪方向有兴趣。这里推荐《21个项目玩转深度学习》这本书,这本书设计到了图像识别模型,人脸检测模型,文本分类模型,时间序列预测,以及强化学习。看这本书不是为了学习知识点,而是能帮你建立起不同AI方向大概是做些什么的一个概念和预期。

5. 深度学习实战

经过很长时间的调研,你决定了你的主攻方向,那么接下来就需要实战了,不同的方向都需要会用模型训练框架,那么你是选择tensorflow,torch,caffe 哪个来实践呢?建议选择TensorFlow,因为市面上90% 的公司都是用的TensorFlow,选择一个最流行的框架绝对不会错。

我推荐《TensorFlow - 实战google 深度学习框架》这本书,不仅讲解了api使用方法,而且讲解了各个操作的内部原理,你会发现之前学习的深度学习原理真有用,你能很方便的使用TensorFlow实现池化层等各个操作。

 当然除了训练框架,你需要深入学习主攻方向的关键问题和演变历史,这个过程非常困难了,建议选择相应的实验室,和导师同学们一块研究。但是我当年既不幸又幸运,不幸的是我没有一个实验室的学习环境,幸运的是我有足够的自由时间来自学,我最后误打误撞的进入了推荐系统这个领域,我是通过和同学组队打比赛,然后实习找工作 这个路子进入的机器学习领域,4年前实习面试我感觉已经挺难的,但是现在更难,现在大厂的实习面试是按照校招难度进行,并且筛出来的大厂校招面试简历中一般都会有论文发表。

三. 看山还是山 -- 工作后体验

工作之后,其实还有很多知识需要学习,我当年选择机器学习领域,一方面是看到了集体智慧编程这本书,感受到了算法的魅力,另一方向我惊叹于机器学习中优化loss 思想的巧妙,是完全可以应用到人生生活中去的,如何看待李沐老师提出的「用随机梯度下降来优化人生」?

写这个回答的初衷是为了 想入门机器学习的朋友们,看清楚整个学习路径,有一个大局观,不至于像我当年学习的过程中,不知道下一步该怎么走,而且没有一个好的实验室氛围,没有师哥师姐带领,误打误撞,非常焦虑,幸运的是我误打误撞走了出来,如果没走出来,那结果就十分惨痛了。所以这篇文章希望能帮助像当年的我一样,没有资源的朋友们,减少你们误打误撞的概率。

but 如果你是位学生朋友,我非常掏心窝的说一下, 如何看待字节跳动招聘收到的算法工程师简历的数量远超需求? 而且至少从五年前开始各个岗位的上限和薪资都是差不多的,不同坑位的深度相同,但是坑位的广度和卷度不太相同。如果你看到了这,并且坚定自己的机器学习理想不放弃,那就请关注我 哈哈哈哈,我以后会分享更多推荐系统方向的学习资料和入门方法。


http://chatgpt.dhexx.cn/article/bSFZUjav.shtml

相关文章

如何成为一名合格的算法工程师?我们做了一次技能拆分…

文 / 张相於 成为一名合格的开发工程师不是一件简单的事情,需要掌握从开发到调试到优化等一系列能力,这些能力中的每一项掌握起来都需要足够的努力和经验。而要成为一名合格的机器学习算法工程师(以下简称算法工程师)更是难上加难…

三五族化合物半导体的杂质能级

一些重要的实验结果 1. 二族元素掺入三五族半导体中,通常取代三族元素,而位于其格点位置上,因为比三族元素少一个价电子,而倾向于接收一个价电子,而起受主的作用,引入浅受主能级 2. 六族元素掺入三五族半…

5、杂质半导体

杂质半导体 杂质半导体主要靠多数载流子导电,掺入的杂质越多,多子的浓度越高,导电性越强,实现导电性能可控。 N型半导体(电子为多数载流子,N型 因为多数载流子带负电(negative)&am…

杂质半导体

通过扩散工艺,在本征半导体中掺入少量合适的杂质元素,便可得到杂质半导体。按掺入的杂质元素不同,可形成N型半导体和P型半导体;控制掺入杂质元素的浓度,就可控制杂质半导体的导电性能。 一,N型半导体 在纯…

为什么在制作N型半导体时掺杂五价原子?而不是掺杂六价原子甚至七价原子,不是自由电子更多吗?

作者:流落的橙子星人 链接:https://www.zhihu.com/question/370990032/answer/1012032939 来源:知乎 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 所谓N型半导体,其实就是电子型半导体&a…

半导体、本征半导体和杂质半导体

在电子电路中最常用的半导体器件就是:半导体二极管和三极管,他们是由本征半导体构成的。 导体最外层电子在外电场作用下很容易产生定向移动,形成电流。 绝缘体最外层电子受原子核束缚力很强,只有在外电场强到一定程度时才能导电…

两种杂质半导体

目录 1. P型半导体2. N型半导体 1. P型半导体 内部结构 由于P的最外层电子缺少1个电子,即形成一个空穴。邻近原子的电子填补这个空穴,就会留下新的空穴 空穴为多子,自由电子为少子 注意:整个半导体还是呈电中性的。 2. N型半导体…

半导体器件(一) 学习笔记

目录 一、半导体基础知识 1.1、概念 1.2、本征半导体 1.2.1、本征半导体的晶体结构 1.2.2、共价键结构平面示意图 1.2.3、本征半导体中的两种载流子 1.2.4、温度逐渐升高(热激发) 1.2.5、空穴位的导电作用 1.2.6、结论 1.3、杂质半导体 1.2.1、N型半导体&#xff08…

半导体物理学习笔记(一)

半导体物理学习笔记(一) 什么是半导体晶体的概念化学键和晶体结构原子的负电性离子键和离子晶体共价键与共价晶体金刚石结构金属键和金属晶体混合键和混合键型晶体 小结 什么是半导体 按照导电能力区分 表示导电能力的物理量:电阻率&#xff…

半导体基础知识及其特征

半导体基础知识及其特征 一、半导体特征 1.什么是半导体 半导体是导电能力介于绝缘体和导体之间的材料 2. 半导体的特性 掺杂特性:掺入杂质则导电率增加几百倍,如:半导体元件温度特性:温度升高会使导电率大为增加,…

什么是半导体,半导体包括哪些

什么是半导体? 半导体是通常由硅组成的材料产品,其导电性比玻璃之类的绝缘体高,但比铜或铝之类的纯导体导电性低。可以通过引入杂质(称为掺杂)来改变其导电性和其他性能,以满足其所驻留的电子组件的特定需…

固体微电子学与半导体物理学(四)

写这篇文章的时候已经是四月中旬了,校园里满是春天的躁动洋溢着青春和活力。同龄人精彩的大学生活着实令我羡慕。我也想出去走走看看,但不是今年,也不是今天,更不是现在。 减少外出,多读点书;低头赶路&…

半导体物理学——(二)半导体中杂志和能级缺陷

实际半导体与理想半导体的区别 理想半导体:假设晶格原子严格按照周期性排列并静止在格点位置上,实际半导体中原子不是静止的,而是在其平衡位置附近振动。理想半导体是纯净不含杂质的,实际半导体含有若干杂质。理想半导体的晶格结…

固态器件理论(4)电子和“空穴”

文章目录 写在前面正文电子结构半导体杂质用于生产半导体的元素结论 交个朋友 写在前面 原文链接 相关博文 博客首页 注:知识搬运,供学习交流使用,侵联删! 正文 与金属相比,纯半导体是相对较好的绝缘体,…

半导体物理-固体晶格结构

参考尼曼《半导体物理与器件》 1.1 半导体材料 半导体是导电性能介于金属和绝缘体之间的一种材料。 半导体基本上可分为两类:位于元素周期表Ⅳ族的元素半导体材料和化合物半导体材料。 大部分化合物半导体材料是族和V族元素化合形成的。 双元素化合物半导体,比如GaAs或GaP…

金属杂质的溶解行为对再生半导体晶片清洗的改进

引言 硅晶片由于其独特的电子和机械性能,是广泛应用于半导体器件制造的基本材料。硅晶片的用途包括用于工艺监测的再生晶片,可通过对废晶片进行再加工制造。然而,残留在废晶片中的杂质和在制造回收的晶片的过程中产生的杂质会对硅晶片的性能…

半导体物理

1.空穴 价带附近的空状态,称为空穴。可以把它看成是一个携带电荷(q)、以与空状态相对应的电子速度运动的粒子。空穴具有正的有效质量。 2.等电子陷阱 与晶格基质原子具有相同价电子的杂质称为等电子杂质,等电子杂质取代晶格上的…

半导体物理学——(三)半导体中载流子的统计分布

产生导带电子和价带空穴的方式:杂质电离与本征激发。 本征激发:在一定温度下,电子直接从价带跃迁到导带,形成导带电子和价带空穴。 杂质电离:当电子从施主能级跃迁到导带时产生导带电子,电子从价带激发到受…

半导体是什么?

半导体产业是国家重点支持发展的行业,也是最关键的“卡脖子”行业之一,那到底什么是半导体呢? 生活中所有的物体按照导电性大致可分为三类:导体、半导体、绝缘体。 这个很好理解,物体要么导电,要么不导电&…

半导体物理学——(四)半导体的导电性

载流子的漂移运动和迁移率 *欧姆定律 漂移运动与迁移率 半导体的电导率与迁移率 对于n型半导体Jn起主要作用,对于p型半导体Jp起主要作用,对于本征半导体,用本征载流子浓度分别于Jn Jp相乘。 载流子的散射 含义:载流子在半导…