Spark +深度学习:如何使用SparkNet进行分布式深度神经网络训练

Submitted by like on Thu, 06/29/2017 - 09:39
导览:训练深度神经网络需要花费宝贵的时间和资源。而Matthew Mayo现在提出一种训练深度神经网络的新方法。通过利用现有的分布式批处理框架,SparkNet可以快速有效地训练神经网络。现如今,深度学习是机器学习中最热门的一种方法,与此同时,它还在继续取得显著成果。 深度神经网络在不断地被证实是一门既有用又具有创新性的学科技术。该技术已经证明了其在之前停滞不前的研究领域中取得重大进展的能力,并迫使一些任不得不去反问,它是否可能是机器学习的顶点。虽然不是魔术(但也可能是从魔鬼那获得的),但深度学习确实是一个复杂的学习领域,并且有时甚至会让最博学的人感到惊讶。

突破!DeepMind成功使用认识心理学解释深度神经网络黑盒!

Submitted by pengkun on Thu, 06/29/2017 - 09:27
导读:DeepMind最近通过认识心理学研究深度神经网络案例:我们从发展心理学中选择了一个完善的分析,解释了儿童如何学习对象的单词标签,并将该分析应用于DNN。使用由原始认知心理学实验启发的刺激数据集,我们发现在ImageNet上训练的最先进的一次学习模型显示出与人类观察到的相似的偏好:他们更喜欢根据形状而不是颜色对对象进行分类。这些结果证明了认知心理学工具能够揭示DNN的隐藏计算属性,同时为人类学习提供了一个计算模型。

大数据技术助力“智慧档案”升级

Submitted by yanqin on Wed, 06/28/2017 - 15:37
随着数据信息的日益膨胀,大数据时代悄然来临。国际数据公司(IDC)的数据显示,按目前发展趋势,预计2020年全球大数据总存储量将达到44ZB(1ZB约等于10000亿GB)。《全国档案事业发展十三五规划纲要》提出,“采用大数据、智慧管理、智能楼宇管理等技术,提高档案馆业务信息化和档案信息资源深度开发与服务水平。”利用大数据技术助力档案信息服务已成为时代发展的必然要求。

诗人行吟指南|如果李白杜甫苏东坡能把一生的旅行足迹标注在地图上,结果会震惊你……

Submitted by yanqin on Wed, 06/28/2017 - 13:40
白“浪”起来,真的就没别的诗人什么事了。 虽然出生在万里之外,但什么都不能阻挡一颗浪迹天涯的心。 最不情愿“折腾”的诗人——杜甫 杜甫应该是诗人中,最不想“折腾”却偏偏最“折腾”的一个。但是没办法,颠沛流离,郁郁不得志,比起李白的悠游自在,真是不可同日而语。 最会享受的诗人——苏轼 竹杖芒鞋轻胜马,谁怕?一蓑烟雨任平生。 生最大赢家——韩愈苏轼这辈子其实也没闲着,虽然屡遭贬谪。但凭借走到哪吃到哪的乐观精神,苏轼倒过得蛮滋润,简直是行走的“舌尖上的中国”。 最是一年春好处,绝胜烟柳满皇都。

深度学习的八大开源框架

Submitted by pengkun on Mon, 06/26/2017 - 09:23
深度学习(Deep Learning)是机器学习中一种基于对数据进行表征学习的方法,深度学习的好处是用 非 监督式或半监督式 的特征学习、分层特征提取高效算法来替代手工获取特征(feature)。作为当下最热门的话题,Google、Facebook、Microsoft等巨头都围绕深度学习重点投资了一系列新兴项目,他们也一直在支持一些开源深度学习框架。

How transferable are features in deep neural networks?

Submitted by like on Fri, 06/23/2017 - 09:21
Many deep neural networks trained on natural images exhibit a curious phenomenon in common: on the first layer they learn features similar to Gabor filters and color blobs. Such first-layer features appear not to be specific to a particular dataset or task, but general in that they are applicable to many datasets and tasks. Features must eventually transition from general to specific by the last layer of the network, but this transition has not been studied extensively. In this paper we experimentally quantify the generality versus specificity of neurons in each layer of a deep convolutional neural network and report a few surprising results.

深度学习中消失的梯度

Submitted by meixun on Fri, 06/23/2017 - 09:06
最近抽时间看了Nielsen的《Neural Networks and Deep Learning》感觉小有收获,分享给大家。 了解深度学习的同学可能知道,目前深度学习面临的一个问题就是在网络训练的过程中存在梯度消失问题(vanishing gradient problem),或者更广义地来讲就是不稳定梯度问题。那么到底什么是梯度消失呢?这个问题又是如何导致的呢?这就是本文要分享的内容。

十大编程算法助程序员走上大神路

Submitted by pengkun on Fri, 06/23/2017 - 09:03

算法一:快速排序算法

快速排序是由东尼·霍尔所发展的一种排序算法。在平均状况下,排序 n 个项目要Ο(n log n)次比较。在最坏状况下则需要Ο(n2)次比较,但这种状况并不常见。

事实上,快速排序通常明显比其他Ο(n log n) 算法更快,因为它的内部循环(inner loop)可以在大部分的架构上很有效率地被实现出来。

快速排序使用分治法(Divide and conquer)策略来把一个串行(list)分为两个子串行(sub-lists)。

算法步骤:

  • 1 从数列中挑出一个元素,称为 “基准”(pivot),

  • 2 重新排序数列,所有元素比基准值小的摆放在基准前面,所有元素比基准值大的摆在基准的后面(相同的数可以到任一边)。在这个分区退出之后,该基准就处于数列的中间位置。这个称为分区(partition)操作。

分布式云端机器学习

Submitted by like on Thu, 06/22/2017 - 09:32
如今,各类企业都在积聚越来越庞大的数据资产,比如用户行为、系统访问、使用模式等数据记录。而运用像微软Azure机器学习平台这样的云端服务平台,企业不仅仅可以用它来储存数据,做一些经典的“后视”商务智能分析,更能使用云端的强大力量做出具有“前瞻性”的预测分析。使用Azure机器学习这样的现代化工具,企业可以获得关于其业务未来发展的切实见解——这将成为它们的竞争优势。 因此,在一个集群中对ML方案进行高效的分布式训练,是微软云信息服务实验室(CISL——Microsoft Cloud & Information Services Lab,发音像“sizzle”:-))的重要研究领域。本文,我们将对这一主题进行一些较为深入的探讨。下面所阐述的一些细节可能技术性略强,但我们会尽可能以简单易懂的方式来阐明它的中心思想。理解了这些想法,任何对大数据分布式ML感兴趣的人都会有所收获,我们也很期待你们的评论和反馈。

搜索算法入门

Submitted by meixun on Thu, 06/22/2017 - 09:05
深度优先搜索即 Depth First Search,是图遍历算法的一种。用一句话概括就是:“一直往下走,走不通回头,换条路再走,直到无路可走”。 DFS的具体算法描述为选择一个起始点v作为当前结点,执行如下操作: a. 访问 当前结点,并且标记该结点已被访问,然后跳转到b; b. 如果存在一个和 当前结点 相邻并且尚未被访问的结点u,则将u设为 当前结点,继续执行a; c. 如果不存在这样的u,则进行回溯,回溯的过程就是回退 当前结点; 上述所说的当前结点需要用一个栈来维护,每次访问到的结点入栈,回溯的时候出栈(也可以用递归实现,更加方便易懂)。 如图1所示,对以下图以深度优先的方式进行遍历,假设起点是1,访问顺序为1 -> 2 -> 4,由于结点4没有未访问的相邻结点,所以这里需要回溯到2,然后发现2还有未访问的相邻结点5,于是继续访问2 -> 5 -> 6 -> 3 -> 7,这时候7回溯到3,3回溯到6,6回溯到5,5回溯到2,最后2回溯到起点1,1已经没有未访问的结点了,搜索终止,图中圆圈代表路点,红色箭头表示搜索路径,蓝色虚线表示回溯路径。