你是合格的机器学习数据科学家吗?来挑战这40题吧!(附解答

Submitted by shiwenbin on Wed, 07/12/2017 - 09:11
目前机器学习是最抢手的技能之一。如果你是一名数据科学家,那就需要对机器学习很擅长,而不只是三脚猫的功夫。作为 DataFest 2017 的一部分,Analytics Vidhya 组织了不同的技能测试,从而数据科学家可以就这些关键技能进行自我评估。测试包括机器学习、深度学习、时序问题以及概率。这篇文章将给出机器学习测试问题的解答。你可以通过链接获得其他测试问题及解答。

推荐算法——基于矩阵分解的推荐算法

Submitted by wangqingqing on Tue, 07/11/2017 - 15:10
在商业数据分析中如何通过统计建模,做好用户推荐呢? 推荐系统(Recommend System, RS),从广义上的理解为:为用户(User)推荐相关的商品(Items)。常用的推荐算法主要有: 基于内容的推荐(Content-Based Recommendation) 协同过滤的推荐(Collaborative Filtering Recommendation) 基于关联规则的推荐(Association Rule-Based Recommendation) 基于效用的推荐(Utility-Based Recommendation) 基于知识的推荐(Knowledge-Based Recommendation) 组合推荐(Hybrid Recommendation) 在推荐系统中,最重要的数据是用户对商品的打分数据,数据形式如下所示: 其中,U1⋯U5表示的是5个不同的用户,D1⋯D4表示的是4个不同的商品,这样便构成了用户-商品矩阵,在该矩阵中,有用户对每一件商品的打分,其中“-”表示的是用户未对该商品进行打分。 在推荐系统中有一类问题是对未打分的商品进行评分的预测。 二、基于矩阵分解的推荐算法 2.1、矩阵分解的一般形式 矩阵分解是指将一个矩阵分解成两个或者多个矩阵的乘积。对于上述的用户-商品矩阵(评分矩阵),记为Rm×n。可以将其分解成两个或者多个矩阵的乘积,假设分解成两个矩阵Pm×k和Qk×n,我们要使得矩阵Pm×k和Qk×n的乘积能够还原原始的矩阵Rm×n: 其中,矩阵Pm×k表示的是m个用户与k个主题之间的关系,而矩阵Qk×n表示的是k个主题与n个商品之间的关系。 2.2、利用矩阵分解进行预测 在上述的矩阵分解的过程中,将原始的评分矩阵Rm×n分解成两个矩阵Pm×k和Qk×n的乘积: 那么接下来的问题是如何求解矩阵Pm×k和Qk×n的每一个元素,可以将这个问题转化成机器学习中的回归问题进行求解。 2.2.1、损失函数 可以使用原始的评分矩阵Rm×n与重新构建的评分矩阵R^m×n之间的误差的平方作为损失函数,即: 最终,需要求解所有的非“-”项的损失之和的最小值:

Uber如何用循环神经网络(RNN)预测事件?

Submitted by zhongzhimin on Tue, 07/11/2017 - 15:06
在现实生活中,在标准R预测包中发现的经典时间序列模型,通常和机器学习方法组合在一起,从而用于特殊事件的预测,然而,这些方法对于Uber来说,既不灵活也不可扩展。在本文中,我们介绍一种将历史数据和外部因素相结合的Uber预测模型,以便更精确地预测极端事件,突出其新架构,以及如何与先前的模型进行比较。

探秘自动驾驶中应用的机器学习算法

Submitted by yanqin on Tue, 07/11/2017 - 10:28
机器学习算法已经被广泛应用于自动驾驶各种解决方案,电控单元中的传感器数据处理大大提高了机器学习的利用率,也有一些潜在的应用,比如利用不同外部和内部的传感器的数据融合(如激光雷达、雷达、摄像头或物联网),评估驾驶员状况或为驾驶场景分类等。具体来说,包括哪些机器学习算法呢?在KDnuggets网站上,Savaram Ravindra将自动驾驶中机器学习算法主要分为四类,即决策矩阵算法、聚类算法、模式识别算法和回归算法。

数据专家必知必会的7款Python工具

Submitted by pengkun on Tue, 07/11/2017 - 10:08
如果你有志于做一个数据专家,你就应该保持一颗好奇心,总是不断探索,学习,问各种问题。在线入门教程和视频教程能帮你走出第一步,但是最好的方式就是通过熟悉各种已经在生产环境中使用的工具而为成为一个真正的数据专家做好充分准备

面向图像分析应用的海量样本过滤方案

Submitted by zhongzhimin on Mon, 07/10/2017 - 15:43
深度学习技术在计算机视觉领域取得了巨大的成功,其标志性事件之一就是计算机算法在Imagenet竞赛中的目标识别准确率已经超过了人类。在学术圈的创新成果爆发式涌现的同时,各大企业也利用深度学习技术,推出了众多图像分析相关的人工智能相关产品及应用系统。这些成果所采用的技术路线,很多都是利用海量的已标注样本数据,在深度神经网络上训练相应的识别或检测模型。就企业算法应用而言,往往需要根据实际的应用场景,构建自己的训练样本集,以提升算法的有效性。在深度学习大行其道的今天,能够获得大量高质量标注样本,更是搭建高效应用算法系统的重要前提。一方面,深度学习与传统算法相比,其突出特征之一就是提供的训练样本越多,算法的精准性越高;另一方面,尽管无监督的深度学习算法在学术领域也获得了相当大的进步,但就目前而言,有监督的深度学习算法仍然是主流,对于企业级应用更是如此。

看深度学习框架排名第一的TensorFlow如何进行时序预测

Submitted by pengkun on Mon, 07/10/2017 - 14:48
TensorFlow 是一个采用数据流图(data flow graphs),用于数值计算的开源软件库。节点(Nodes)在图中表示数学操作,图中的线(edges)则表示在节点间相互联系的多维数据数组,即张量(tensor)。它灵活的架构让你可以在多种平台上展开计算,例如台式计算机中的一个或多个CPU(或GPU),服务器,移动设备等等。TensorFlow 最初由Google大脑小组(隶属于Google机器智能研究机构)的研究员和工程师们开发出来,用于机器学习和深度神经网络方面的研究,但这个系统的通用性使其也可广泛用于其他计算领域。