推荐ApacheCN开源的一个机器学习路线图

article/2025/11/7 6:49:52

推荐一个ApacheCN开源的一个机器学习路线图:

https://github.com/apachecn/AiLearning

注意:需要直接打开网址或者“阅读原文”才能打开文章里的链接

路线图

按照步骤: 1 => 2 => 3,你可以当大牛!

1.机器学习 - 基础

  • Machine Learning in Action (机器学习实战) | ApacheCN(apache中文网)

  • 电子版书籍:【机器学习实战-中文版-带目录版.pdf】

  • -- 感谢 飞龙小哥哥 生成的电子书《机器学习实战-ApacheCN.pdf》

  • 视频已更新完成,如果你觉得有价值,请帮忙点 Star【后续组织学习活动:sklearn、kaggle、 Pytorch 和 tensorflow】

  • -- 视频网站:优酷 /bilibili / Acfun / 网易云课堂,可直接在线播放。(最下方有相应链接)

  • -- 群小哥哥:红色石头: 台湾大学林轩田机器学习笔记

  • 推荐一个机器学习笔记: 

    https://feisky.xyz/machine-learning网站视频

    机器学习实战

    第 1 章: 机器学习基础

    机器学习实战

    第 2 章: KNN 近邻算法

    机器学习实战

    第 3 章: 决策树

    机器学习实战

    第 4 章: 朴素贝叶斯

    机器学习实战

    第 5 章: Logistic回归

    机器学习实战

    第 6 章: SVM 支持向量机

    网上组合内容

    第 7 章: 集成方法(随机森林和 AdaBoost)

    机器学习实战

    第 8 章: 回归

    机器学习实战

    第 9 章: 树回归

    机器学习实战

    第 10 章: K-Means 聚类

    机器学习实战

    第 11 章: 利用 Apriori 算法进行关联分析

    机器学习实战

    第 12 章: FP-growth 高效发现频繁项集

    机器学习实战

    第 13 章: 利用 PCA 来简化数据

    机器学习实战

    第 14 章: 利用 SVD 来简化数据

    机器学习实战

    第 15 章: 大数据与 MapReduce

    Ml项目实战

    第 16 章: 推荐系统(已迁移)

    第一期的总结

    2017-04-08: 第一期的总结

知乎问答-爆炸啦-机器学习该怎么入门?

视频怎么看?

  1. 理论科班出身-建议去学习 Andrew Ng 的视频(Ng 的视频绝对是权威,这个毋庸置疑)

  2. 编码能力强 - 建议看我们的《机器学习实战-教学版》

  3. 编码能力弱 - 建议看我们的《机器学习实战-讨论版》,不过在看理论的时候,看 教学版-理论部分;讨论版的废话太多,不过在讲解代码的时候是一行一行讲解的;所以,根据自己的需求,自由的组合。

【免费】数学教学视频 - 可汗学院 入门篇

  • @于振梓 推荐: 可汗学院-网易公开课

概率统计线性代数
可汗学院(概率)可汗学院(统计学)可汗学院(线性代数)

机器学习视频 - ApacheCN 教学版



AcFunB站
优酷网易云课堂

【免费】机器/深度学习视频 - 吴恩达

机器学习深度学习
吴恩达机器学习神经网络和深度学习

2.深度学习 - 基础

深度学习必学

  1. 反向传递: 

  2. https://www.cnblogs.com/charlotte77/p/5629865.html

  3. CNN原理: 

  4. http://www.cnblogs.com/charlotte77/p/7759802.html

  5. RNN原理:

  6.  https://blog.csdn.net/qq_39422642/article/details/78676567

  7. LSTM深入浅出的好文: 

  8. https://blog.csdn.net/roslei/article/details/61912618

3.自然语言处理

学习过程中-内心复杂的变化!!!

自从学习NLP以后,才发现国内与国外的典型区别:
1. 对资源的态度是完全相反的:1) 国内:就好像为了名气,举办工作装逼的会议,就是没有干货,全部都是象征性的PPT介绍,不是针对在做的各位2)国外:就好像是为了推动nlp进步一样,分享者各种干货资料和具体的实现。(特别是: python自然语言处理)
2. 论文的实现:1) 各种高大上的论文实现,却还是没看到一个像样的GitHub项目!(可能我的搜索能力差了点,一直没找到)2)国外就不举例了,我看不懂!
3. 开源的框架1)国外的开源框架:tensorflow/pytorch 文档+教程+视频(官方提供)2) 国内的开源框架: 额额,还真举例不出来!但是牛逼吹得不比国外差!(MXNet虽然有众多华人参与开发,但不能算是国内开源框架。基于MXNet的动手学深度学习(https://zh.diveintodeeplearning.org)中文教程,已经由沐神(李沐)以及阿斯顿·张讲授录制,公开发布。文档+第一季教程+视频)
每一次深入都要去翻墙,每一次深入都要Google,每一次看着国内的说:哈工大、讯飞、中科大、百度、阿里 多牛逼,但是资料还是得国外去找!
有时候真的挺狠的!真的有点瞧不起自己国内的技术环境!当然谢谢国内很多博客大佬,特别是一些入门的Demo和基本概念。【深入的水平有限,没看懂】

  • 入门教程必看资料【添加比赛链接】:

    https://github.com/apachecn/AiLearning/tree/dev/blog/nlp

  • Python 自然语言处理 第二版: 

    https://usyiyi.github.io/nlp-py-2e-zh

  • 推荐一个liuhuanyong大佬整理的nlp全面知识体系: 

    https://liuhuanyong.github.io

1.使用场景 (百度公开课)

第一部分 入门介绍

  • 1.) 自然语言处理入门介绍

第二部分 机器翻译

  • 2.) 机器翻译

第三部分 篇章分析

  • 3.1.) 篇章分析-内容概述

  • 3.2.) 篇章分析-内容标签

  • 3.3.) 篇章分析-情感分析

  • 3.4.) 篇章分析-自动摘要

第四部分 UNIT-语言理解与交互技术

  • 4.) UNIT-语言理解与交互技术

应用领域

中文分词:

  • 构建DAG图

  • 动态规划查找,综合正反向(正向加权反向输出)求得DAG最大概率路径

  • 使用了SBME语料训练了一套 HMM + Viterbi 模型,解决未登录词问题

1.文本分类(Text Classification)

文本分类是指标记句子或文档,例如电子邮件垃圾邮件分类和情感分析。

下面是一些很好的初学者文本分类数据集。

  1. 路透社Newswire主题分类(路透社-21578)。1987年路透社出现的一系列新闻文件,按类别编制索引。另见RCV1,RCV2和TRC2。

  2. IMDB电影评论情感分类(斯坦福)。来自网站imdb.com的一系列电影评论及其积极或消极的情绪。

  3. 新闻组电影评论情感分类(康奈尔)。来自网站imdb.com的一系列电影评论及其积极或消极的情绪。

有关更多信息,请参阅帖子:单标签文本分类的数据集。

情感分析

比赛地址: 

https://www.kaggle.com/c/word2vec-nlp-tutorial

  • 方案一(0.86):WordCount + 朴素 Bayes

  • 方案二(0.94):LDA + 分类模型(knn/决策树/逻辑回归/svm/xgboost/随机森林)

    • a) 决策树效果不是很好,这种连续特征不太适合的

    • b) 通过参数调整 200 个topic,信息量保存效果较优(计算主题)

  • 方案三(0.72):word2vec + CNN

    • 说实话:没有一个好的机器,是调不出来一个好的结果 (: 逃

通过AUC 来评估模型的效果

2.语言模型(Language Modeling)

语言建模涉及开发一种统计模型,用于预测句子中的下一个单词或一个单词中的下一个单词。它是语音识别和机器翻译等任务中的前置任务。

它是语音识别和机器翻译等任务中的前置任务。

下面是一些很好的初学者语言建模数据集。

  1. 古腾堡项目,一系列免费书籍,可以用纯文本检索各种语言。

  2. 还有更多正式的语料库得到了很好的研究; 例如:布朗大学现代美国英语标准语料库。大量英语单词样本。谷歌10亿字语料库。

新词发现

  • 中文分词新词发现

  • python3利用互信息和左右信息熵的中文分词新词发现

  • https://github.com/zhanzecheng/Chinese_segment_augment

句子相似度识别

  • 项目地址: https://www.kaggle.com/c/quora-question-pairs

  • 解决方案: word2vec + Bi-GRU

文本纠错

  • bi-gram + levenshtein

3.图像字幕(Image Captioning)

mage字幕是为给定图像生成文本描述的任务。

下面是一些很好的初学者图像字幕数据集。

  1. 上下文中的公共对象(COCO)。包含超过12万张带描述的图像的集合

  2. Flickr 8K。从flickr.com获取的8千个描述图像的集合。

  3. Flickr 30K。从flickr.com获取的3万个描述图像的集合。欲了解更多,请看帖子:

探索图像字幕数据集,2016年

4.机器翻译(Machine Translation)

机器翻译是将文本从一种语言翻译成另一种语言的任务。

下面是一些很好的初学者机器翻译数据集。

  1. 加拿大第36届议会的协调国会议员。成对的英语和法语句子。

  2. 欧洲议会诉讼平行语料库1996-2011。句子对一套欧洲语言。有大量标准数据集用于年度机器翻译挑战; 看到:

统计机器翻译

机器翻译

  • Encoder + Decoder(Attention)

  • 参考案例:

  • http://pytorch.apachecn.org/cn/tutorials/intermediate/seq2seq_translation_tutorial.html

5.问答系统(Question Answering)

问答是一项任务,其中提供了一个句子或文本样本,从中提出问题并且必须回答问题。

下面是一些很好的初学者问题回答数据集。

  1. 斯坦福问题回答数据集(SQuAD)。回答有关维基百科文章的问题。

  2. Deepmind问题回答语料库。从每日邮报回答有关新闻文章的问题。

  3. 亚马逊问答数据。回答有关亚马逊产品的问题。有关更多信息,请参阅帖子:

数据集:我如何获得问答网站的语料库,如Quora或Yahoo Answers或Stack Overflow来分析答案质量?

6.语音识别(Speech Recognition)

语音识别是将口语的音频转换为人类可读文本的任务。

下面是一些很好的初学者语音识别数据集。

  1. TIMIT声学 - 语音连续语音语料库。不是免费的,但因其广泛使用而上市。口语美国英语和相关的转录。

  2. VoxForge。用于构建用于语音识别的开源数据库的项目。

  3. LibriSpeech ASR语料库。从LibriVox收集的大量英语有声读物。

7.自动文摘(Document Summarization)

文档摘要是创建较大文档的简短有意义描述的任务。

下面是一些很好的初学者文档摘要数据集。

  1. 法律案例报告数据集。收集了4000份法律案件及其摘要。

  2. TIPSTER文本摘要评估会议语料库。收集了近200份文件及其摘要。

  3. 英语新闻文本的AQUAINT语料库。不是免费的,而是广泛使用的。新闻文章的语料库。欲了解更多信息:

文档理解会议(DUC)任务。在哪里可以找到用于文本摘要的良好数据集?

命名实体识别

  • Bi-LSTM CRF

  • 参考案例: 

    http://pytorch.apachecn.org/cn/tutorials/beginner/nlp/advanced_tutorial.html

  • CRF推荐文档: 

    https://www.jianshu.com/p/55755fc649b1

文本摘要

  • 抽取式

  • word2vec + textrank

  • word2vec推荐文档: 

    https://www.zhihu.com/question/44832436/answer/266068967

  • textrank推荐文档: 

    https://blog.csdn.net/BaiHuaXiu123/article/details/77847232

Graph图计算【慢慢更新】

  • 数据集: data/nlp/graph

  • 学习资料: spark graphX实战.pdf 【文件太大不方便提供,自己百度】

进一步阅读

如果您希望更深入,本节提供了其他数据集列表。

  1. 维基百科研究中使用的文本数据集

  2. 数据集:计算语言学家和自然语言处理研究人员使用的主要文本语料库是什么?

  3. 斯坦福统计自然语言处理语料库

  4. 按字母顺序排列的NLP数据集列表

  5. 该机构NLTK

  6. 在DL4J上打开深度学习数据

  7. NLP数据集

  8. 国内开放数据集: 

    https://bosonnlp.com/dev/resource

    原文地址

    https://github.com/apachecn/AiLearning

    注意:需要直接打开网址或者“阅读原文”才能打开文章里的链接

请关注和分享↓↓↓ 

本站的知识星球(黄博的机器学习圈子)ID:92416895

目前在机器学习方向的知识星球排名第一

往期精彩回顾

  • 良心推荐:机器学习入门资料汇总及学习建议(2018版)

  • 黄海广博士的github镜像下载(机器学习及深度学习资源)

  • 吴恩达老师的机器学习和深度学习课程笔记打印版

  • 机器学习小抄-(像背托福单词一样理解机器学习)

  • 首发:深度学习入门宝典-《python深度学习》原文代码中文注释版及电子书

  • 机器学习的数学基础

  • 机器学习必备宝典-《统计学习方法》的python代码实现、电子书及课件

  • 吐血推荐收藏的学位论文排版教程(完整版)

  • Python环境的安装(Anaconda+Jupyter notebook+Pycharm)

  • Python代码写得丑怎么办?推荐几个神器拯救你


http://chatgpt.dhexx.cn/article/KcKkYObe.shtml

相关文章

ApacheCN 翻译活动进度公告 2019.6.15

Special Sponsors 我们组织了一个开源互助平台,方便开源组织和大 V 互相认识,互相帮助,整合资源。请回复这个帖子并注明组织/个人信息来申请加入。请回复这个帖子来推荐希望翻译的内容。如果大家遇到了做得不错的教程或翻译项目,也…

ApacheCN 编程/大数据/数据科学/人工智能学习资源 2019.11

公告 我们的所有非技术内容和活动,从现在开始会使用 iBooker 这个名字。“开源互助联盟”已终止,我们对此表示抱歉和遗憾。除非特地邀请,我们不再推广他人的任何项目。公众号自动回复已更新,添加了“轻小说/知识星球”关键词。我…

ApacheCN 活动汇总 2019.7.19

公告 欢迎大家在我们平台上投放广告。如果你希望在我们的专栏、文档或邮件中投放广告,请准备好各种尺寸的图片和专属链接,联系咸鱼(QQ 1034616238)。我们组织了一个开源互助平台,方便开源组织和大 V 互相认识&#xf…

ApacheCN 活动汇总 2019.8.3

公告 欢迎大家在我们平台上投放广告。如果你希望在我们的专栏、文档或邮件中投放广告,请准备好各种尺寸的图片和专属链接,联系咸鱼(QQ 1034616238)。我们组织了一个开源互助平台,方便开源组织和大 V 互相认识&#xf…

ApacheCN 活动汇总 2019.7.5

公告 欢迎大家在我们平台上投放广告。如果你希望在我们的专栏、文档或邮件中投放广告,请准备好各种尺寸的图片和专属链接,联系咸鱼(QQ 1034616238)。我们组织了一个开源互助平台,方便开源组织和大 V 互相认识&#xf…

ApacheCN 活动汇总 2019.8.30

公告 欢迎大家在我们平台上投放广告。如果你希望在我们的专栏、文档或邮件中投放广告,请准备好各种尺寸的图片和专属链接,联系咸鱼(1034616238)。我们组织了一个开源互助平台,方便开源组织和大 V 互相认识&#xff0c…

ApacheCN 翻译/校对/笔记整理活动进度公告 2019.10.18

注意 请贡献者查看参与方式,然后直接在 ISSUE 中认领。翻译/校对三个文档就可以申请当负责人,我们会把你拉进合伙人群。翻译/校对五个文档的贡献者,可以申请实习证明。请私聊片刻(529815144)、咸鱼(103461…

ApacheCN 公众号文章汇总 2019.9

ApacheCN 优质博文推荐计划正式启动 接受以下主题的博文: 人工智能(论文解读,比赛心得,面经,知识点讲解)环材化生劝退CS 留学申请,IT 外企求职 每日从所有投稿中精选两篇,在 ApacheC…

ApacheCN_深度学习_感知器

写在前面 1.关于深度学习。目前自己的水平是项目需求在Ubuntu 中搭建Keras,完成了图像的分类使用基础的VGG16,CFAR,ResNet,得到的效果是很惊人的,相对于常规的算法,优势很明显 2.关于ApacheCN。一帮有热情的年轻人组织的知识交流…

【转载保存】推荐ApacheCN开源的一个机器学习路线图

转载:https://mp.weixin.qq.com/s/EMWFFPsaKaGc8FO1g-htzg 推荐ApacheCN开源的一个机器学习路线图 原创: 机器学习初学者 机器学习初学者 今天 推荐一个ApacheCN开源的一个机器学习路线图: https://github.com/apachecn/AiLearning 注意…

Python关键字(保留字)一览表

保留字是 Python 语言中一些已经被赋予特定意义的单词,这就要求开发者在开发程序时,不能用这些保留字作为标识符给变量、函数、类、模板以及其他对象命名。 Python 包含的保留字可以执行如下命令进行查 >>> import keyword >>> keyw…

【自学Python】Python标识符和保留字

Python标识符 Python标识符教程 Python 对各种 变量、方法、函数等命名时使用的字符序列称为标识符。 也可以说凡是自己可以起名字的地方都叫标识符,简单地理解,标识符就是一个名字,它的主要作用就是作为变量、函数、类、模块以及其他对象…

Python 标识符与保留字(关键字)

Python中的标识符是用于识别变量、函数、类、模块以及其他对象的名字,标识符可以包含字母、数字及下划线(_),但是必须以一个非数字字符开始。字母仅仅包括ISO-Latin字符集中的A–Z和a–z。标识符对大小写敏感的,因此 FOO和foo是两个不同的对象…

python中保留字33个详细介绍

保留字33个 python保留字 说明 and 用于表达式运算,逻辑与操作 as 用于类型转换 assert 断言,用于判断变量或条件表达式的值是否为真 break 中断循环语句的执行 class 用于定义类 continue 继续执行下一次循环 def 用于定义函数或方法 del 删除变量或者…

python 的保留字

python 中 保留字 就是我们经常使用的if ,def ,and,等之类的,这些都是被赋予了特殊含义的,所以我们不能把保留字作为函数,模块名,变量,等来使用 例如下面的就是操作的 这类错误一般都是:SyntaxError: invalid syntax 常见的保留字如下: andasassertbreakclasscontinuedefdel…

Python保留字及其说明

Python保留字及其说明 **and 用于表达式运算,逻辑与操作as 用于类型转换assert 断言,用判断变量或条件表达式的值是否为真break(循环保留字) 中断循环语句的执行,用来跳出最内层for和while循环,脱离该循环后程序从循环…

Python保留字详解

python的保留字并不多,一共33个 ​ ​1.False if qFalse:#Flase 2.None 表示该值是一个空对象,空值是Python里一个特殊的值,用None表示。None不能理解为0,因为0是有意义的,而None是一个特殊的空值。 >>>…

python——保留字

Python中的标识符是用于识别变量、函数、类、模块以及其他对象的名字,标识符可以包含字母、数字及下划线(_),但是必须以一个非数字字符开始。字母仅仅包括ISO-Latin字符集中的A–Z和a–z。标识符对大小写敏感的,因此 FOO和foo是两个不同的对象…

详解Python的33个保留字

Python3系列共有33个保留字。保留字(Keyword),也称为关键字,指被编程语言内部定义并保留使用的标识符。程序猿编写程序时不能定义与保留字相同的标识符。掌握一门编程语言首先要熟记其所对应的保留字。 简单介绍下Python中保留字…

Python之保留字

1.False 表示假。 //即在if语句中不会执行。注:在Python中可以给False赋值(改变原有是错误的意思) 2.True 表示真。 3.None None是一个特殊的常量,None和False不同,None不是0。None不是空字符串。None和任何其他数据类型比较永远返回Fa…