想靠AI炒股致富,结果恐怕会让你怀疑人生

article/2025/10/19 13:34:29
640?wx_fmt=jpeg 640?wx_fmt=jpeg

来源:脑极体

作者:藏狐


经历了漫长熊市的A股,在农历新年后迎来了一个超乎想象的春天。最能够代表牛市来临的信号,不是领跑全球的历史性涨幅,而是连你老家的大妈都准备拿出首付甚至卖房抄底了,各路股神纷纷出来指点江山了,大数据分析、人工智能选股之类的炒股秘籍也集体重现江湖了。


与“玄学炒股”和“内部消息”等方式不同,量化投资、机器模型之类的技术名词一摆出来,可信度噌地就上去了。


不过,利用人工智能模型预测股市,到底会让散户们跑赢大盘赚到怀疑人生,还是被以“技术”为名的镰刀精准收割?事情的真相恐怕与大家想象的相去甚远。


01

靠人工智能预测股市,方法有哪些?


首先我们先来搞搞清楚,那些所谓的人工智能预测股市,到底都应用了哪些技术。


在AI大规模应用之前,利用大数据等数字工具,结合经验甚至周易的天干地支来预测股市行情,已经是高科技的代表了。但自从2016年AlphaGo击败李世石之后,机器学习技术就取代大数据成为预测股市的最强选手。


现在,市面上有许多证券公司推出了人工智能预测股市的工具、模型,甚至基金。接下来我们就追根溯源,来聊聊这些应用型产品都是依托那些机器学习算法/模型来工作的。


1.卷积神经网络


2016年,来自斯坦福大学计算机系的Ashwin Siripurapu发表了一篇文章,《Convolutional Networks for Stock Trading》,这是首次提出使用卷积神经网络来进行股票交易预测的方法。


该方法采用标普500etf分钟级数据作为历史数据(包括交易时间、每分钟收盘价、最高价、最低价、开盘价和交易量等),然后通过历史股价波动的图片,训练出了一个卷积神经网络模型,并试图通过这个模型来预测未来股价的运行。


最后验证的结果是,使用该模型预测股价还不如瞎猜。


640?wx_fmt=jpeg


2. 时间序列预测


尽管前文中的初级版卷积神经网络模型的实际预测效果不尽如人意,但其提出的利用时间序列建模的想法,就成为接下来机器预测股市的常用方式。


不过,ARIMA、SARIMA等模型都需要进行大量的数据预处理(比如K线图片识别等等)才能建立预测数据集,并且常常忽视股市波动的季节周期性差异。因此,Facebook设计和开发的时间序列预测库Prophet(先知)很快就被引入了训练之中。


研究人员试图让Prophet从过去的数据中捕捉趋势和季节性。但从试验效果来看,该模型并没有达到预期的效果。


640?wx_fmt=jpeg


3.长短期记忆网络(LSTM)


单纯的时间序列并没有取得很好的效果,但如果机器能自己划重点呢?LSTM 算法在序列预测问题中的优秀表现,就引起了重视。主要是它们能够存储重要的既往信息,并且忽略那些不重要的信息。


从训练结果来看,LSTM模型可以对各种参数进行调优,在股市历史数据的预测匹配度上,表现果然超越了前面的所有算法。


但想通过LSTM 来预测股票价格的未来走势,不好意思它依然做不到。因为它只会认数据,看不懂那些很可能大幅度影响股价的新闻和非货币行为。


640?wx_fmt=jpeg


4.NLP特征提取


既然LSTM看不懂非数字的重要指征,那在此基础上让机器学会“认字”不就得了。


NLP技术能够对包括新闻、资讯、社交媒体等文字图片信息进行自动特征提取和情绪分析,有了这些数据,神经网络不就能分析基本面了吗?至此,一个简略版的机器学习股市预测模型就成型了。


简单解释一下它的基础逻辑:输入股市的历史数据和实时结构化信息,特征提取选出那些有价值的信息,再通过深度神经网络训练出基本模型,通过预训练调整参数,这样就得到一个终极预测模型,可以一次来构建选股组合。当然,在实际的训练过程中可能还需要反复调参测试。


目前市面上用来选股的主流算法,比如随机森林、朴素贝叶斯、XGBoost、Stacking等,基本都是按照这一逻辑运行的。


640?wx_fmt=jpeg


具体效果怎么样呢?我们不妨用一个实际案例说明一下。


2017年,EquBot LLC、ETF Managers Group共同推出了全球第一只使用机器选股的基金AI Powered Equity ETF(AIEQ.US),这只基金不仅能够拥有认知和大数据处理能力,还能够阅读大量的文本线索,比如从年报、每日新闻中显露的经济形势、趋势以及公司重大事件等信息进行分析,然后挑选出相应的投资组合。


而它的表现,用“平平无奇”来说已经很善良了。短期投资“成功”跑输大盘(上市12日的表现比标普500指数低了3个点),至于长期价值投资嘛……价值投资还得靠机器,这水平基本也就告别股市了吧???


640?wx_fmt=jpeg


02

为什么人工智能预测股市,

总是遭遇滑铁卢?


不难看出,想要靠人工智能模型来预测股市,虽然理论上可行,但在实际操作过程中,模型们也并没有展现出比“玄学”强得多的技术。


前不久,科学家Mario Filho就将这些预测模型一锅端了。他以这些模型为基础建立了一个数据集python version of TA-LIB,用以此训练了一个新的机器学习模型,并分别在一天和三天后检验了不同模型的预测效果。


实验结果显示,这些五花八门的AI预测模型,得到的效果也是随心所欲,有的居然还“消极罢工”了。


比如“随机森林”(The Random Forest)模型,其结果无论是和零预测还是平均值都相去甚远,这意味着,它虽然从数据中学到了一些东西,但在实际的验证过程中却完全没有体现出来。


640?wx_fmt=jpeg


目前看来,靠机器学习模型来预测股市,现实中基本不可能不亏钱。为什么无往而不利的AI遇上股市就束手无策了呢?主要有四个方面的阻碍:


一是历史数据更新不及时。机器学习的运算处理能力和信息深度都比个人强很多,这是不争的事实。但预测行为往往涉及一系列实时的动态因素,新闻事件、经济、政治、监管、自然灾害、个人心理等等,都会对最终的结果产生影响,在高波动的市场行情下,AI也很难准确预测。


二是自然语言理解技术的限制。理想情况下,好的深度学习模型是可以从社交媒体、财经新闻、金融信号(比如黄金、外汇等)的动态变化中寻找规律、把握情绪的。但现实情况是,这些数据往往是模糊的、非结构化的,在少量数据集的前提下训练出的模型自然也就无法得到很好的分析效果。


三是数据集的本土差别太大。即使数据集足够大,但不同的资本市场数据往往有着很强的个性化模式特征,并不存在一种“放之四海而皆准”的模型,可以在任何市场、任何时间段都表现出极高的性能。


640?wx_fmt=jpeg


因此想要依靠AI算法来提高收益,只能进行独立探索并找出某一模型最强优势并与本土特色相结合。这就导致了另一个问题,那就是研究资源不足。


大部分预测模型都是由个人开发者或者投资组织在研究和开发,很多在NLP、深度增强学习领域技术比较强的科技算法公司,研究重心还是放在通过AI预测改革更有民生价值的领域。


比如运用算法改进工厂发电效率、智能决策(DI)检测欺诈性交易等等,谷歌甚至在临床应用深度机器学习算法进行诊断和预测死亡时间。


相比这些多赢的业务,预测股价这类技术上不成熟、业务逻辑复杂、于民生又没有太大收益的应用场景,吸引不大足够的人才和资源去攻破,自然进步有限。


总而言之,股市本质上是零和博弈游戏,最终是依靠信息的不对称,从信息匮乏的一方身上赚钱。这种情况下,人工智能作为基础的技术工具,决定了只能是锦上添花。


散(韭)户(菜)们想要将抄底赚钱的希望放在各种似是而非的智能选股模型身上,怕是要失望到怀疑人生了。


03

既然选股不靠谱,

AI还能有点别的用吗?


既然依靠人工智能来预测股市目前还不可能,但并不代表那些荐股模型背后的技术没有用武之地。实际上,不少金融生活场景正在比股市更快地成为人工智能的“应许之地”。


比如借助金融类数据帮助实体商业项目进行风险控制。


传统模式下,银行在评估某些开发商项目时,仅仅针对开发商信用资质、还款能力等评估风险,却很难去考察项目所在区域的消费能力、经济活跃度及周边配套的发展情况,而后者才是影响项目的最大风险因子。


而借助阿里、京东、腾讯等超级平台每天产生的庞大数据,就会涉及商场、物流、理财、支付、信用等各类金融数据。在这些实时结构化数据的基础上,通过深度神经网络实现“经济体征”的全面量化,实时监测预警,就能根据具体区域经济、消费相关的发展变化,进行精准预测,避免“一叶障目”带来的资源风险。


640?wx_fmt=jpeg


另外,还有很多机构利用机器学习、LSTM等技术来训练模型以预防网络诈骗。


Sift Sciencee就从6000多家欺诈检测网站收集了大量数据,利用智能引擎关联了多源数据点,包括付款信息、交易频率、行为习惯等等,以此为基准采集和建立优质用户行为模型,对每笔交易进行比较和评估。


这样做的好处是,既避免了高风险控制带来的误判,防止请求失败造成用户流失,同时又能够有效地检测欺诈性交易。


上述应用更多是围绕多元结构化数据展开的,实际上,利用NLP和机器学习算法提供个性化的智能客服服务,在金融领域也越来越普及。


目前,中国的5大国有银行和12家全国性股份制商业银行已经全部上线智能客服。


而随着NLP技术的进步,智能客服也开始告别传统印象中的程式化服务,逐渐在情感分析、多轮对话等应用中发挥出不错的水平。


比如英国开发者设计的智能助手Cleo,在授予账户信息全线之后,就能够通过深度学习技术学习并适应用户的个人习惯与偏好。在对话的同时帮助用户进行理财指导和资金规划。


640?wx_fmt=jpeg


未来,使用AI来预测和解读市场与用户,将是金融公司的必备技能之一。不过对比机器学习在股市上的失利,以及其他场景中的可圈可点,或许我们可以得出一个基本结论:


每种机器学习算法的优缺点和应用表现各有不同,但总的来说,作为先锋技术,人工智能更应该被用在那些可用Availabl、可靠Reliable、可知Comprehensiblee、可控Controllable的地方(简称ARCC)。在这种共识之上,AI短时间内既不能让基金经理下岗,也无法帮散户们精准抄底。


或许是宿命的悖论吧:越清楚技术的能量有多大,就越无法理解人性的贪婪。


640?wx_fmt=png

往期推荐

640?wx_fmt=png 

你们把AI吹上了天 但它却依然没4岁的小孩聪明

640?wx_fmt=jpeg

▲点击图片观看

惊了!谷歌建筑未来城市的六个疯狂细节


640?wx_fmt=jpeg ▲点击图片观看

霍金“徒孙”朱珑


640?wx_fmt=jpeg

▲点击图片观看

- 加入社群吧 -

网易智能AI社群(AI芯片、医疗AI、金融AI、电商AI、自动驾驶、教育AI、AIoT、机器人等12个社群)火热招募中,对AI感兴趣的小伙伴,添加智能菌微信 kaiwu_club,说明身份即可加入。


http://chatgpt.dhexx.cn/article/kJK0HaSQ.shtml

相关文章

手把手带你玩转Spark机器学习-使用Spark进行文本处理

系列文章目录 手把手带你玩转Spark机器学习-专栏介绍手把手带你玩转Spark机器学习-问题汇总手把手带你玩转Spark机器学习-Spark的安装及使用手把手带你玩转Spark机器学习-使用Spark进行数据处理和数据转换手把手带你玩转Spark机器学习-使用Spark构建分类模型手把手带你玩转Spa…

大数据笔记--Spark机器学习(第二篇)

目录 一、梯度下降法 1、什么是梯度? 2、梯度下降法与梯度上升法 3、梯度下降法的直观解释 4、梯度下降法的相关概念 5、梯度下降法原理 6、梯度下降法的算法参数 7、梯度下降法-家族(BGD,SGD,MBGD) 8、总结 …

Spark机器学习(一)-Spark工程搭建

目录 概述 环境准备 搭建Spark项目的代码工程 创建maven项目工程 创建scala测试类 整合spark环境 概述 最近自己在加强AI这块,以前做Java、大数据分析比较多,所以对CDH那套东西都比较熟悉,例如Hadoop、Spark。但Spark这块中的ML用得不…

【Spark】实验6 Spark机器学习库MLlib编程实践

Spark机器学习库MLlib编程实践 一、实验目的 通过实验掌握基本的MLLib编程方法;掌握用MLLib解决一些常见的数据分析问题,包括数据导入、成分分析和分类和预测等。 二、实验平台 新工科智慧平台。数据集1:下载Adult数据集(http://archive.i…

手把手带你玩转Spark机器学习-使用Spark进行数据降维

系列文章目录 手把手带你玩转Spark机器学习-专栏介绍手把手带你玩转Spark机器学习-问题汇总手把手带你玩转Spark机器学习-Spark的安装及使用手把手带你玩转Spark机器学习-使用Spark进行数据处理和数据转换手把手带你玩转Spark机器学习-使用Spark构建分类模型手把手带你玩转Spa…

spark之常见的机器学习算法

1、分类、回归、聚类 分类回归是一种重要的机器学习和数据挖掘技术。分类的目的是根据数据集的特点构造一个分类函数或分类模型(也常常称作分类器),该模型能把未知类别的样本映射到给定类别中的一种技术。 即: 向量X[x1,x2...xn]但标签C[c1,c2...,ck]的…

Apache Spark机器学习

推荐电子书:Apache Spark 2.x入门 - 从入门到制作 前言: 使用Apache Spark 2.0及更高版本,实现了很大的改进,使Spark更容易编程和执行更快: Spark SQL和Dataset / DataFrame API通过Spark SQL优化的执行引擎提供易用…

Spark Machine Learning(SparkML):机器学习(部分二)

目录 6.分类和回归 6.1分类(Classification) 逻辑回归(LR) 决策树分类器(DTC) 随机森林分类器(RFC) 梯度提升树分类器(GBTC) 多层感知器分类器(MLPC) 线性支持向量机(SVM) One-vs-Rest分类器 朴素贝叶斯(NB) 6.2回归(Regression) 线性回归(LR) 广义线性回归(GLR) …

spark机器学习笔记:(六)用Spark Python构建回归模型

声明:版权所有,转载请联系作者并注明出处 http://blog.csdn.net/u013719780?viewmodecontents 博主简介:风雪夜归子(英文名:Allen),机器学习算法攻城狮,喜爱钻研Meachine Learnin…

Spark机器学习实例

2020/07/09 - 引言 《Learning Spark》过程中只是简单介绍了mllib中的东西,没有一个完整的实践过程,暂时还没有去找有没有专门做这种的书,好像我看《spark in action》是有这部分内容,后续在看。本篇文章就利用这个鸢尾花的数据集…

spark机器学习笔记:(一)Spark Python初探

声明:版权所有,转载请联系作者并注明出处 http://blog.csdn.net/u013719780?viewmodecontents 博主简介:风雪夜归子(英文名:Allen),机器学习算法攻城狮,喜爱钻研Meachine Learnin…

Spark Machine Learning(SparkML):机器学习(部分三)

目录 8.协同过滤(Collaborative Filtering) 8.1交替最小二乘ALS 8.2显式和隐式反馈 8.3缩放正则化参数 8.4冷启动策略 8.5代码示例: 9.频繁模式挖掘(Frequent Pattern Mining) FP-Growth PrefixSpan 10.ML优化:模型选择和超参数调优 模型选择&#xff08…

spark机器学习算法研究

spark提供了一个机器学习库,spark ml包,可以在spark中直接引入使用 import org.apache.spark.ml.clustering.{KMeans,KMeansModel} import org.apache.spark.ml.linalg.Vectors1. 常用聚类算法 k-means 算法 GMM 高斯混合模型 PIC 快速迭代聚类 LDA 隐式…

手把手带你玩转Spark机器学习-使用Spark进行数据处理和数据转换

系列文章目录 手把手带你玩转Spark机器学习-专栏介绍手把手带你玩转Spark机器学习-问题汇总手把手带你玩转Spark机器学习-Spark的安装及使用手把手带你玩转Spark机器学习-使用Spark进行数据处理和数据转换手把手带你玩转Spark机器学习-使用Spark构建分类模型手把手带你玩转Spa…

手把手带你玩转Spark机器学习-使用Spark构建分类模型

系列文章目录 手把手带你玩转Spark机器学习-专栏介绍手把手带你玩转Spark机器学习-问题汇总手把手带你玩转Spark机器学习-Spark的安装及使用手把手带你玩转Spark机器学习-使用Spark进行数据处理和数据转换手把手带你玩转Spark机器学习-使用Spark构建分类模型手把手带你玩转Spa…

手把手带你玩转Spark机器学习-Spark的安装及使用

系列文章目录 手把手带你玩转Spark机器学习-专栏介绍手把手带你玩转Spark机器学习-问题汇总手把手带你玩转Spark机器学习-Spark的安装及使用手把手带你玩转Spark机器学习-使用Spark进行数据处理和数据转换手把手带你玩转Spark机器学习-使用Spark构建分类模型手把手带你玩转Spa…

手把手带你玩转Spark机器学习-深度学习在Spark上的应用

系列文章目录 手把手带你玩转Spark机器学习-专栏介绍手把手带你玩转Spark机器学习-问题汇总手把手带你玩转Spark机器学习-Spark的安装及使用手把手带你玩转Spark机器学习-使用Spark进行数据处理和数据转换手把手带你玩转Spark机器学习-使用Spark构建分类模型手把手带你玩转Spa…

Spark Machine Learning(SparkML):机器学习(部分一)

机器学习是现阶段实现人工智能应用的主要方法,它广泛应用于机器视觉、语音识别、自然语言处理、数据挖掘等领域。MLlib是Apache Spark的可伸缩机器学习库。官网地址:[http://spark.apache.org/docs/latest/ml-guide.html] Spark的机器学习(ML)库提供了许多分布式ML算法。这些算…

手把手带你玩转Spark机器学习-使用Spark构建聚类模型

系列文章目录 手把手带你玩转Spark机器学习-专栏介绍手把手带你玩转Spark机器学习-问题汇总手把手带你玩转Spark机器学习-Spark的安装及使用手把手带你玩转Spark机器学习-使用Spark进行数据处理和数据转换手把手带你玩转Spark机器学习-使用Spark构建分类模型手把手带你玩转Spa…

Spark机器学习解析

源码加数据集: 文件源码 Gitee好像只收10M一下的文件类型,所以数据集就只能以链接的形式自己下了 KMeans和决策树KDD99数据集,推荐使用10%的数据集: http://kdd.ics.uci.edu/databases/kddcup99/ ALS电影推荐的Movielens数据集…