Stock Price Prediction With Big Data and Machine Learning(如何用大数据和机器学习预测股票市场)

Submitted by like on Thu, 07/13/2017 - 10:00
Synopsis This post is based on Modeling high-frequency limit order book dynamics with support vector machines paper. Roughly speaking I’m implementing ideas introduced in this paper in scala with Spark and Spark MLLib. Authors are using sampling, I’m going to use full order log from NYSE (sample data is available from NYSE FTP), just because I can easily do it with Spark. Instead of using SVM, I’m going to use Decision Tree algorithm for classification, because in Spark MLLib it supports multiclass classification out of the box. If you want to get deep understanding of the problem and proposed solution, you need to read the paper. I’m going to give high level overview of the problem in less academic language, in one or two paragraphs. Predictive modelling is the process by which a model is created or chosen to try to best predict the probability of an outcome.

理想与现实的碰撞:大数据时代数据使用与数据隐私的博弈

Submitted by yanqin on Thu, 07/13/2017 - 09:27
大数据时代的到来,对我们的社会产生了巨大的影响,它在改善我们生活的同时又在侵扰我们的生活,其中,侵犯个人数据隐私就是大数据侵扰我们生活的重要方面。在大数据时代,一方面我们强调数据的互联互通、共享使用,另一方面,大数据又在无时无刻不在侵犯个人隐私,如何处理这一理想与现实的碰撞,平衡数据使用和数据隐私的博弈是大数据时代的我们不得不解决的问题。

交通大讲堂:城市交通大数据的10种处理技术

Submitted by zhongzhimin on Wed, 07/12/2017 - 14:48
随着手机网络、全球定位系统、车联网、交通物联网的发展,交通要素的人、车、路等的信息都能够实时采集,城市交通大数据来源日益丰富。在日益成熟的物联网和云计算平台技术支持下,通过城市交通大数据的采集、传输、存储、挖掘和分析等,有望实现城市交通一体化,即在一个平台上实现交通行政监管、交通企业运营、交通市民服务的集成和优化。

Google翻译技术原理(一)

Submitted by wangqingqing on Wed, 07/12/2017 - 14:33
2013年底Google工程师Tomas Mikolov等人,发现了不同语言的词汇的在空间分布上的相似性,并借此现象一举突破英语-西班牙语之间的互译,遗憾的是此发现并没有在中英文互译中取得很好的效果。 2016年,Google改变了原来基于短语的翻译方法(PBMT),使用神经机器翻译系统(GNMT) ,降低了80% 的翻译错误率,并且十分接近人类译员的翻译。

python中对list去重的多种方法

Submitted by wukezhou on Wed, 07/12/2017 - 09:47
今天遇到一个问题,用了 itertools.groupby 这个函数。不过这个东西最终还是没用上。 问题就是对一个list中的新闻id进行去重,去重之后要保证顺序不变。 直观方法 最简单的思路就是: 复制代码代码如下: ids = [1,2,3,3,4,2,3,4,5,6,1] news_ids = [] for id in ids:     if id not in news_ids:         news_ids.append(id) print news_ids 这样也可行,但是看起来不够爽。 用set 另外一个解决方案就是用set: 复制代码代码如下: ids = [1,4,3,3,4,2,3,4,5,6,1] ids = list(set(ids)) 这样的结果是没有保持原来的顺序。 按照索引再次排序 最后通过这种方式解决: 复制代码代码如下: ids = [1,4,3,3,4,2,3,4,5,6,1] news_ids = list(set(ids)) news_ids.sort(ids.index) 使用itertools.grouby 文章一开始就提到itertools.grouby, 如果不考虑列表顺序的话可用这个: 复制代码代码如下: ids = [1,4,3,3,4,2,3,4,5,6,1] ids.sort() it = itertools.groupby(ids) for k, g in it:     print k 关于itertools.groupby的原理可以看这里:http://docs.python.org/2/library/itertools.html#itertools.groupby 网友补充:用reduce 网友reatlk留言给了另外的解决方案。我补充并解释到这里: 复制代码代码如下: In [5]: ids = [1,4,3,3,4,2,3,4,5,6,1] In [6]: func = lambda x,y:x if y in x else x + [y] In [7]: reduce(func, [[], ] + ids) Out[7]: [1, 4, 3, 2, 5, 6] 上面是我在ipython中运行的代码,其中的 lambda x,y:x if y in x else x + [y] 等价于 lambda x,y: y in x and x or x+[y] 。 思路其实就是先把ids变为[[], 1,4,3,......] ,然后在利用reduce的特性。

Teaching Your Computer To Play Super Mario Bros (训练你的电脑玩超级玛丽)

Submitted by like on Wed, 07/12/2017 - 09:37
A Fork of the Google DeepMind Atari Machine Learning Project Watch Mario bounce around at random at first, and slowly start to master the level! This will run for a very long time – I suggest you at least let it get through 4 million training steps in order to really see some improvement. The progress is logged in the logs directory in case you want to compare results while tweaking the parameters. Once you run out of patience, hit Control-C to terminate it. The neural network is saved in the dqn/ directory with a *.t7 filename. Move this somewhere safe if you want to save it, because it is overwritten each time you train.

探秘|大数据背景下的文档案管理

Submitted by yanqin on Wed, 07/12/2017 - 09:28
自20世纪50年代以来,随着计算机、网络和通信技术的迅速发展,人类社会开始由工业社会进入信息社会。特别是20世纪90年代互联网的出现,信息量呈几何级数增长。国际数据公司(IDC)在2011年发布了新的数字宇宙研究报告(Digital Universe Study)——《从混沌中提取价值》(Extracting Value from Chaos),该报告显示全球信息总量每过两年就会增长1倍。仅2011年,全球被创建和复制的数据总量就有1.82ZB,相较2010年同期上涨超过1ZB,预计到2020年这一数值将增长到35ZB。面对信息爆炸,人们采取了种种应对策略。近些年来,大数据的方法和思想得到了越来越多的重视和应用。