为什么机器学习在投资领域不好使

Submitted by huzhenda on Sat, 07/28/2018 - 14:23

题记

最近,一条新闻引爆了投资圈:世界上最大的投资管理公司贝莱德(BlackRock)宣布将使用机器(确切的说是人工智能 artificial intelligence 或机器学习算法 machine learning algorithm)来取代一些基金经理进行选股。近年来,随着其在人脸识别,信用反欺诈乃至国际象棋和围棋领域的应用和杰出表现,人工智能被越来越多的人所熟悉。很多人开始看好在不久的将来机器学习算法在二级市场投资上将会比人取得更加优异的成绩。而贝莱德的这一宣布无疑将人工智能又一次推上了风口浪尖。这其中最根本的观点是:

机器学习通过可以使用复杂的各种非线性算法(比如神经网络、决策树、遗传算法)来从大量的历史交易数据中挖掘出人类无法看到的投资模式。根据这些模式来选股就可以取得丰厚收益。

Python数据分析之pandas

Submitted by huzhenda on Sat, 07/28/2018 - 11:09

Pandas

WHAT?

Pandas是基于Numpy构建的库,在数据处理方面可以把它理解为numpy加强版,同时Pandas也是一项开源项目:Github 。不同于numpy的是,pandas拥有种数据结构:SeriesDataFrame: 

10.1

下面我们就来生成一个简单的series对象来方便理解: 

Tags

提高NLP语义解析准确度:融合SQL语法的生成式语义解析模型

Submitted by huzhenda on Sat, 07/21/2018 - 15:25

无论是在日常生活还是工作中,人们都越来越多地使用自然语言来与计算机进行交互。例如,使用自然语音交互方式让虚拟语音助手(如Cortana、Siri、Google Assistant、Amazon Alexa等)查询天气、预定日程、拨打电话等;用户在搜索引擎中用自然语言输入查询内容,得到精准的答案;员工使用自然语言与结构化的企业数据库交互,完成查询操作。

在上述的应用场景中,输入的是用户的自然语言(natural language),而输出的是机器可以理解并执行的规范语义表示(formal meaning representation),该表示可以在某个环境中被执行并返回结果。

如何将知识图谱特征学习应用到推荐系统?

Submitted by huzhenda on Sat, 07/21/2018 - 13:59

将知识图谱作为辅助信息引入到推荐系统中可以有效地解决传统推荐系统存在的稀疏性和冷启动问题,近几年有很多研究人员在做相关的工作。目前,将知识图谱特征学习应用到推荐系统中主要通过三种方式——依次学习、联合学习、以及交替学习

AI与理性投资——基于金融知识图谱的智能问答

Submitted by huzhenda on Sat, 07/21/2018 - 10:49

国内的股票市场,一般认为是更加倾向于主题投资而不是基本面、价值投资的市场,原因之一是散户贡献了大部分成交量。与此同时,监管机构一再教育广大投资者要理性投资、价值投资,在2017年全国证券期货监管工作会议上,证监会主席刘士余也批判了题材炒作,鼓励理性投资、价值投资。

理性一直是人类探讨的一个永恒话题。本文并不打算就这一话题展开讨论,这里只描述下相关假设。本文所描述理性是按诺贝尔经济学奖,图灵奖获得者郝伯特·西蒙的不确定性环境下决策理论中的定义:理性应当是有限的理性,而不是完全理性;应当是过程合理性,而不是本质合理性。过程理性决策步骤可以参考文章[1][3]中描述。其实不论价值投资还是主题投资其实都可以理性投资。

在这个信息爆炸的时代,如《信号与噪声》[2]书中描述在大数据时代信息量呈指数增长。大多数数据都只是噪声,人们很难从干扰他们的噪声中分辨出有用的信号。数据展示给我们的通常都是我们想要的结果,而且我们通常也默认这种皆大欢喜的结果。作者纳特•西尔弗还引用莎士比亚剧作中的话“人们照着自己的意思解释一切事物的原因,实际上却和这些事物本身的目的完全相反”。在国内证券市场也是如此,更有甚者,有些专业的市场参与者还利用这点进行炒作。

简述脉冲神经网络SNN:下一代神经网络

Submitted by huzhenda on Sun, 07/15/2018 - 15:19

脉冲神经网络(SNN)属于第三代神经网络模型,实现了更高级的生物神经模拟水平。除了神经元和突触状态之外,SNN 还将时间概念纳入了其操作之中。本文将简要介绍这种神秘的神经网络形式。

所有对目前机器学习有所了解的人都听说过这样一个事实:目前的人工神经网络是第二代神经网络。它们通常是全连接的,接收连续的值,输出连续的值。尽管当代神经网络已经让我们在很多领域中实现了突破,但它们在生物学上是不精确的,其实并不能模仿生物大脑神经元的运作机制。

如何用50行代码构建情感分类器

Submitted by huzhenda on Sun, 07/15/2018 - 11:58

情感分析背后的动机 

人类自己无法理解语言是如何被大脑处理的。那么,我们能教一台机器学习我们的语言吗?通过广泛研究,人们已经开发了许多方法来帮助机器理解语言。自然语言处理(NLP)是研究人类语言与计算机交互的领域。自然语言处理的一个子问题是情感分析,即把一个语句分类为积极或消极。把语句分类为积极或消极有什么用呢?以亚马逊网站为例。在亚马逊上,用户可以对一个产品发表评论,说明它是好是坏,甚至可以是中性的。然而,使用人工阅读所有评论并获得客户对产品的总体反馈既昂贵又耗时。再说说我们的机器学习模型。机器学习模型可以通过大量数据进行推断,对评论进行分类。利用这种机器学习模型,亚马逊可以通过客户评论改进其产品,从而为公司带来更多收入。

情感分析并不像看起来那么简单。如果你认为含有「好的」、「很棒」等词的评论可归为积极评论,而含有「坏的」、「苦恼的」等词的评论可归为消极评论,那你需要三思。例如,「完全没有好味道」和「一份好的快餐,但没有什么特别的」分别代表消极和中立的反馈,即使都有「好」字。因此,这项任务可能没有看起来那么简单。接下来让我们看看即将使用的数据。

数据集

我们将使用亚马逊产品评论、IMDB 电影评论和 Yelp 评论来构建情感分析模型。

Feature Tools:可自动构造机器学习特征的Python库

Submitted by huzhenda on Sun, 07/15/2018 - 10:15

目前,很多机器学习项目的模型选择开始转向自动化,而特征工程仍然主要以人工为主。这个过程的重要性可能比模型选择更重要,人工得到的特征总带有一定的局限性。在本文中作者将为我们介绍如何使用 Feature Tools Python 库实现特征工程自动化,项目已开源。

机器学习越来越多地从人工设计模型转向使用 H20、TPOT 和 auto-sklearn 等工具自动优化的工具。这些库以及随机搜索(参见《Random Search for Hyper-Parameter Optimization》)等方法旨在通过寻找匹配数据集的最优模型来简化模型选择和机器学习调优过程,而几乎不需要任何人工干预。然而,特征工程作为机器学习流程中可能最有价值的一个方面,几乎完全是人工的。

特征工程也被称为特征构造,是从现有数据中构造新的特征从而训练机器学习模型的过程。这一步可能比实际上使用的模型更重要,因为一个机器学习算法只能从我们给定的数据中学习,所以构造一个和任务相关的特征是至关重要的,参见优质论文《A Few Useful Things to Know about Machine Learning》。

强化学习(Reinforcement Learning)介绍

Submitted by huzhenda on Sat, 07/14/2018 - 15:21

当前的机器学习算法可以分为3种:有监督的学习(Supervised Learning)、无监督的学习(Unsupervised Learning)和强化学习(Reinforcement Learning),结构图如下所示: 

3.1

其他许多机器学习算法中学习器都是学得怎样做,而RL是在尝试的过程中学习到在特定的情境下选择哪种行动可以得到最大的回报。在很多场景中,当前的行动不仅会影响当前的rewards,还会影响之后的状态和一系列的rewards。RL最重要的3个特定在于:(1)基本是以一种闭环的形式;(2)不会直接指示选择哪种行动(actions);(3)一系列的actions和奖励信号(reward signals)都会影响之后较长的时间。 

简述四大类文本分析中的“词向量”

Submitted by huzhenda on Sat, 07/14/2018 - 14:24

词向量类型:

一个词一列向量:Hash算法,word2vec。hash把词打散成(01010101110)的数值,word2vec则打散同时定义成了向量,参考文献中验证了将词向量加起来的确是一个有效的方法;延伸:word2vec考虑了上下语义,doc2vec还考虑了上下语句顺序,用在段落中较好。

一个词一个值:bow算法+词权重,LDA主题-词语矩阵。两者有递进关系,bow进化到LDA,当然LDA超级耗时,所以业界不喜欢用。

由词向量到句向量:

如果是一词一列向量一般用简单相加(相加被证明是最科学)来求得;

一个词一值的就是用词权重组合成向量的方式;

谷歌的句向量sen2vec可以直接将句子变为一列向量。

词向量的额外效果

消除歧义:LDA的主题-词语向量;

结合上下文语境:word2vec;

文档与文档之间的关系:bow+TFIDF(TFIDF能够较好区分文档差别的指标,而互信息较为有利于文档中核心词的提取)

Tags