大数据之异常数据

Submitted by shiwenbin on Tue, 07/04/2017 - 09:18
有人认为在处理大数据时忽略各种异常数据是最好的做法,为此他们创建了复杂的过滤程序,来舍弃那些异常的信息。在处理特定类型的数据时,这可能算是较为稳妥的做法,因为异常往往会导致结果的不准确。但实践证明,在某些时候和某些特定的情景中,异常数据要比其他的数据更有价值。对此,我们应该认识到的是“在没有进一步分析的情况下,丢弃数据的做法是不正确的”。

A beginner's guide to artificial intelligence, machine learning, and cognitive computing

Submitted by pengkun on Mon, 07/03/2017 - 09:33
For millennia, humans have pondered the idea of building intelligent machines. Ever since, artificial intelligence (AI) has had highs and lows, demonstrated successes and unfulfilled potential. Today, the news is filled with the application of machine learning algorithms to new problems. From cancer detection and prediction to image understanding and summarization and natural language processing, AI is empowering people and changing our world. The history of modern AI has all the elements of a great drama. Beginning in the 1950s with a focus on thinking machines and interesting characters like Alan Turing and John von Neumann, AI began its first rise. Decades of booms and busts and impossibly high expectations followed, but AI and its pioneers pushed forward. AI is now exposing its true potential, focusing on applications and delivering technologies like deep learning and cognitive computing. This article explores some of the important aspects of AI and its subfields. Let's begin with a timeline of AI, and then dig into each of these elements.

群体智能优化算法之粒子群优化算法

Submitted by meixun on Fri, 06/30/2017 - 10:01
同进化算法(进化算法简介,进化算法是受生物进化机制启发而产生的一系列算法)和人工神经网络算法(Neural Networks,简称NN,神经网络是从信息处理角度对人脑的神经元网络系统进行了模拟的相关算法)一样,群体智能优化算法也属于一种生物启发式方法,它们三者可以称为是人工智能领域的三驾马车(PS:实际上除了上述三种算法还有一些智能算法应用也很广泛,比如模拟金属物质热力学退火过程的模拟退火算法(Simulated Algorithm,简称SA),模拟人体免疫系统在抗原刺激下产生抗体过程的人工免疫系统算法(Artificial Immune System,简称AIS)等,但是相对三者而言,模拟退火和人工免疫系统算法已逐渐处于低潮期)。群体智能优化算法主要模拟了昆虫、兽群、鸟群和鱼群的群集行为,这些群体按照一种合作的方式寻找食物,群体中的每个成员通过学习它自身的经验和其他成员的经验来不断地改变搜索的方向。群体智能优化算法的突出特点就是利用了种群的群体智慧进行协同搜索,从而在解空间内找到最优解。

Neural Architectures for Named Entity Recognition

Submitted by like on Fri, 06/30/2017 - 09:32
State-of-the-art named entity recognition systems rely heavily on hand-crafted features and domain-specific knowledge in order to learn effectively from the small, supervised training corpora that are available. In this paper, we introduce two new neural architectures—one based on bidirectional LSTMs and conditional random fields, and the other that constructs and labels segments using a transition-based approach inspired by shift-reduce parsers. Our models rely on two sources of information about words: character-based word representations learned from the supervised corpus and unsupervised word representations learned from unannotated corpora. Our models obtain state-of-the-art performance in NER in four languages without resorting to any language-specific knowledge or resources such as gazetteers.

SkipList 跳表

Submitted by meixun on Fri, 06/30/2017 - 09:31
目前经常使用的平衡数据结构有:B树,红黑树,AVL树,Splay Tree, Treep等。 想象一下,给你一张草稿纸,一只笔,一个编辑器,你能立即实现一颗红黑树,或者AVL树出来吗? 很难吧,这需要时间,要考虑很多细节,要参考一堆算法与数据结构之类的树,还要参考网上的代码,相当麻烦。 用跳表吧,跳表是一种随机化的数据结构,目前开源软件 Redis 和 LevelDB 都有用到它,它的效率和红黑树以及 AVL 树不相上下,但跳表的原理相当简单,只要你能熟练操作链表,就能轻松实现一个 SkipList。

推荐系统推荐及推荐算法

Submitted by neurta on Thu, 06/29/2017 - 11:40

推荐系统近几年来一直十分火热,目前几乎所有的电子商务系统、社交网络,广告推荐,搜索引擎等等,都不同程度的使用了各种形式的推荐系统。想知道电商如何向你发送广告的?想了解社交网络怎么推荐好友的?想自己搭建一个推荐系统?想了解一些算法或架构从而将自己的推荐系统做得更好?整理了一系列的有关推荐系统的算法文章,以及主要从电商和社交网络方面选取了一些优秀的案例,来看看这些关于推荐系统的优秀文章吧。

推荐系统算法综述
推荐系统在各种系统中广泛使用,推荐算法则是其中最核心的技术点, 为推荐系统选择正确的推荐算法是非常重要的决定。每一种推荐算法都有其优点和缺点,当然也有其限制条件,在作出决定之前,必须要一一考量。在实践中,你可能会测试几种算法,以发现哪一种最适合你的用户,测试中你也会直观地发现它们是什么以及它们的工作原理。

分析对比:数据、信息、知识与智慧

Submitted by yanqin on Thu, 06/29/2017 - 11:10
随着人类步入大数据时代,数据的威力日趋显现,“除了上帝,任何人都必须用数据说话”成为时代之公理;当然也有另外一种说法,“数据爆炸了,信息却很贫乏”,“我们淹没在信息的海洋里,却有着知识的饥饿感”,“知识的知识,才是智慧”。因此,理清数据、信息、知识和智慧之间的关系十分必要。

Spark +深度学习:如何使用SparkNet进行分布式深度神经网络训练

Submitted by like on Thu, 06/29/2017 - 09:39
导览:训练深度神经网络需要花费宝贵的时间和资源。而Matthew Mayo现在提出一种训练深度神经网络的新方法。通过利用现有的分布式批处理框架,SparkNet可以快速有效地训练神经网络。现如今,深度学习是机器学习中最热门的一种方法,与此同时,它还在继续取得显著成果。 深度神经网络在不断地被证实是一门既有用又具有创新性的学科技术。该技术已经证明了其在之前停滞不前的研究领域中取得重大进展的能力,并迫使一些任不得不去反问,它是否可能是机器学习的顶点。虽然不是魔术(但也可能是从魔鬼那获得的),但深度学习确实是一个复杂的学习领域,并且有时甚至会让最博学的人感到惊讶。

突破!DeepMind成功使用认识心理学解释深度神经网络黑盒!

Submitted by pengkun on Thu, 06/29/2017 - 09:27
导读:DeepMind最近通过认识心理学研究深度神经网络案例:我们从发展心理学中选择了一个完善的分析,解释了儿童如何学习对象的单词标签,并将该分析应用于DNN。使用由原始认知心理学实验启发的刺激数据集,我们发现在ImageNet上训练的最先进的一次学习模型显示出与人类观察到的相似的偏好:他们更喜欢根据形状而不是颜色对对象进行分类。这些结果证明了认知心理学工具能够揭示DNN的隐藏计算属性,同时为人类学习提供了一个计算模型。