最全技术图谱!一文掌握人工智能各大分支技术

Submitted by zhongzhimin on Thu, 07/13/2017 - 16:12
尼尔逊教授对人工智能下了这样一个定义:“人工智能是关于知识的学科――怎样表示知识以及怎样获得知识并使用知识的科学。”而另一个美国麻省理工学院的温斯顿教授认为:“人工智能就是研究如何使计算机去做过去只有人才能做的智能工作。”这些说法反映了人工智能学科的基本思想和基本内容。即人工智能是研究人类智能活动的规律,构造具有一定智能的人工系统,研究如何让计算机去完成以往需要人的智力才能胜任的工作,也就是研究如何应用计算机的软硬件来模拟人类某些智能行为的基本理论、方法和技术。 人工智能是计算机学科的一个分支,二十世纪七十年代以来被称为世界三大尖端技术之一(空间技术、能源技术、人工智能)。也被认为是二十一世纪三大尖端技术(基因工程、纳米科学、人工智能)之一。这是因为近三十年来它获得了迅速的发展,在很多学科领域都获得了广泛应用,并取得了丰硕的成果,人工智能已逐步成为一个独立的分支,无论在理论和实践上都已自成一个系统。

图形解锁验证码破解(附Python代码)

Submitted by wangqingqing on Thu, 07/13/2017 - 14:02
前言: 爬虫开源死得快,新浪微博又改策略了。在去年的这个时候,微博还是没什么限制的。2016年12月我将新浪微博爬虫的代码作了一次更新,并将文章转到了知乎,爬微博的人似乎从那个时候开始多了许多。也许是这个缘故,微博开始对IP设了限制,接着禁了原来免验证码的登录方式,现在将weibo.cn的登录途径也关了,weibo.cn采用m.weibo.cn的登录,登录过程中可能出现图形解锁验证码。这种验证码比较少见,因为多用在手机平台。 我怀疑QQ交流群(537549079)里应该是有新浪微博反爬虫的人,不过这也没什么关系,我们做爬虫的,本来就是带头“制造麻烦”的人,没有被请去喝茶,就已经要感恩了。另外需要声明一点,其实我个人并不需要微博数据,平时自己也没有爬,只是出于责任,既然把项目开源了,就有义务持续维护更新下去。另外是出于兴趣爱好,作为一名爬虫工作者,出现了新的反爬机制,我自己也是很兴奋 很想去研究突破的

Stock Price Prediction With Big Data and Machine Learning(如何用大数据和机器学习预测股票市场)

Submitted by like on Thu, 07/13/2017 - 10:00
Synopsis This post is based on Modeling high-frequency limit order book dynamics with support vector machines paper. Roughly speaking I’m implementing ideas introduced in this paper in scala with Spark and Spark MLLib. Authors are using sampling, I’m going to use full order log from NYSE (sample data is available from NYSE FTP), just because I can easily do it with Spark. Instead of using SVM, I’m going to use Decision Tree algorithm for classification, because in Spark MLLib it supports multiclass classification out of the box. If you want to get deep understanding of the problem and proposed solution, you need to read the paper. I’m going to give high level overview of the problem in less academic language, in one or two paragraphs. Predictive modelling is the process by which a model is created or chosen to try to best predict the probability of an outcome.

理想与现实的碰撞:大数据时代数据使用与数据隐私的博弈

Submitted by yanqin on Thu, 07/13/2017 - 09:27
大数据时代的到来,对我们的社会产生了巨大的影响,它在改善我们生活的同时又在侵扰我们的生活,其中,侵犯个人数据隐私就是大数据侵扰我们生活的重要方面。在大数据时代,一方面我们强调数据的互联互通、共享使用,另一方面,大数据又在无时无刻不在侵犯个人隐私,如何处理这一理想与现实的碰撞,平衡数据使用和数据隐私的博弈是大数据时代的我们不得不解决的问题。

交通大讲堂:城市交通大数据的10种处理技术

Submitted by zhongzhimin on Wed, 07/12/2017 - 14:48
随着手机网络、全球定位系统、车联网、交通物联网的发展,交通要素的人、车、路等的信息都能够实时采集,城市交通大数据来源日益丰富。在日益成熟的物联网和云计算平台技术支持下,通过城市交通大数据的采集、传输、存储、挖掘和分析等,有望实现城市交通一体化,即在一个平台上实现交通行政监管、交通企业运营、交通市民服务的集成和优化。

Google翻译技术原理(一)

Submitted by wangqingqing on Wed, 07/12/2017 - 14:33
2013年底Google工程师Tomas Mikolov等人,发现了不同语言的词汇的在空间分布上的相似性,并借此现象一举突破英语-西班牙语之间的互译,遗憾的是此发现并没有在中英文互译中取得很好的效果。 2016年,Google改变了原来基于短语的翻译方法(PBMT),使用神经机器翻译系统(GNMT) ,降低了80% 的翻译错误率,并且十分接近人类译员的翻译。

python中对list去重的多种方法

Submitted by wukezhou on Wed, 07/12/2017 - 09:47
今天遇到一个问题,用了 itertools.groupby 这个函数。不过这个东西最终还是没用上。 问题就是对一个list中的新闻id进行去重,去重之后要保证顺序不变。 直观方法 最简单的思路就是: 复制代码代码如下: ids = [1,2,3,3,4,2,3,4,5,6,1] news_ids = [] for id in ids:     if id not in news_ids:         news_ids.append(id) print news_ids 这样也可行,但是看起来不够爽。 用set 另外一个解决方案就是用set: 复制代码代码如下: ids = [1,4,3,3,4,2,3,4,5,6,1] ids = list(set(ids)) 这样的结果是没有保持原来的顺序。 按照索引再次排序 最后通过这种方式解决: 复制代码代码如下: ids = [1,4,3,3,4,2,3,4,5,6,1] news_ids = list(set(ids)) news_ids.sort(ids.index) 使用itertools.grouby 文章一开始就提到itertools.grouby, 如果不考虑列表顺序的话可用这个: 复制代码代码如下: ids = [1,4,3,3,4,2,3,4,5,6,1] ids.sort() it = itertools.groupby(ids) for k, g in it:     print k 关于itertools.groupby的原理可以看这里:http://docs.python.org/2/library/itertools.html#itertools.groupby 网友补充:用reduce 网友reatlk留言给了另外的解决方案。我补充并解释到这里: 复制代码代码如下: In [5]: ids = [1,4,3,3,4,2,3,4,5,6,1] In [6]: func = lambda x,y:x if y in x else x + [y] In [7]: reduce(func, [[], ] + ids) Out[7]: [1, 4, 3, 2, 5, 6] 上面是我在ipython中运行的代码,其中的 lambda x,y:x if y in x else x + [y] 等价于 lambda x,y: y in x and x or x+[y] 。 思路其实就是先把ids变为[[], 1,4,3,......] ,然后在利用reduce的特性。