增强学习对于机器人运动控制的六字真言 | 干货

Submitted by pengkun on Mon, 06/12/2017 - 16:59
五月末的人机大战让世人大开眼界,顶级围棋手柯洁落下的眼泪、微博的叹息,都是对AlphaGo这颗强劲“大脑”的赞叹。然而,让人工智能走出娱乐和游戏,真正进入人类的实际生活,通过实现机器人的自主运动来为人类提供服务同样是我们长久以来的梦想。 但是,机器人的自主运动该如何实现?随着深度学习部分解决了机器人的视听识别问题,增强学习技术有望成为突破机器人自主运动难题的一把利剑。 增强学习实际上是“试错法”这一在生活中广泛使用的技巧的理论抽象,即为了达到理想目标而不断试验,并在实际尝试中修正方案,从而逐步提高成功率。 比如在围棋程序中,盘面情况称为“状态”,落子选择称为“行为”;根据状态选择行为的方法就称为“策略”,根据当前状态和行为对输赢的预测就称为“价值”,而当前一步的输赢结果称为“回报”。增强学习就是修正策略从而实现价值最大化的过程。

神经网络基础

Submitted by meixun on Fri, 06/09/2017 - 14:09
神经元是神经网络中最基本的结构,也可以说是神经网络的基本单元,它的设计灵感完全来源于生物学上神经元的信息传播机制。我们学过生物的同学都知道,神经元有两种状态:兴奋和抑制。一般情况下,大多数的神经元是处于抑制状态,但是一旦某个神经元收到刺激,导致它的电位超过一个阈值,那么这个神经元就会被激活,处于“兴奋”状态,进而向其他的神经元传播化学物质(其实就是信息)。

如何在MNIST上构建和训练条件生成式对抗网络(CGAN)?

Submitted by like on Fri, 06/09/2017 - 10:20
定义对象条件的标签(要生成哪个数字) 噪声矢量为Generator模型提供了构建块,它将学习如何将噪声结构化为样本。mx.symbol.Deconvolution操作符用于将初始输入从1x1形状向上采样到28x28图像。 用于生成假样本的标签上的信息是由附加到随机噪声的标签索引的独热编码(one-hot encoding)来提供的。对于MNIST来说,0-9索引因此被转换为长度为10的二进制向量。更复杂的应用将需要的是嵌入而不是简单的单向编码来编码条件。

机器学习十大算法介绍

Submitted by pengkun on Fri, 06/09/2017 - 09:50

James Le 在 KDnuggets 上发布了一篇文章,介绍了他是如何入门机器学习的。此外,他在其中摸索出十大常用的机器学习算法,并逐一进行介绍。

如果你想学机器学习,那怎么入门呢?对于我来说,我是这样开始我的机器学习的,首先,我选修了一门人工智能课程。教我课程的老师是Technical University of Denmark的大学教授,他的研究方向就是逻辑与人工智能。我们用的教材是人工智能的经典教材: Peter Norvig’s Artificial Intelligence — A Modern Approach。这本书主要讲了智能主体、对抗搜索、概率论、多智能系统、AI哲学等等。这门课程我上了三个学期,最后我做了一个简单的基于搜索的智能系统,这个系统可以完成虚拟环境下的传输任务。

通过这门课程我学到了很多知识,在将来我还要继续学习。最近几周,我有幸在旧金山的举办的机器学习大会上与众多机器学习大牛交谈,我和他们聊了很多关于深度学习、神经网络、数据结构的内容。此外,我还在网上选修了一门机器学习入门课程,正巧刚刚修完。在接下来内容中,我将和大家分享我在这门课程中所学到的机器学习常用算法。

面向物联网应用的人工智能相关技术研究

Submitted by like on Wed, 06/07/2017 - 15:57

1 引言

目前对物联网的理解,已经从IoT(Internet of Things)扩展到IoE(Internet of Everything),从一开始定义的传感器网络,发展到万物互联时代。据IDC分析,到2020年,全球将有300亿智能设备接入互联网并产生海量数据。随着越来越多的业界领先公司进入到物联网领域,从对物联网基础设施的建设,物联网各类设备的控制,到物联网产生的数据分析处理,最后到基于数据理解的物联网融合应用研发等还有许多问题没有解决,对于物联网世界未来发展所需要解决的核心技术、技术演进路线等并没有统一的认识。

目前,对于物联网技术的研究热点主要从通信角度,研究物联网终端之间新型通信协议、标准,如低功耗广覆盖(Low Power Wide Area,LPWA)等各类新型通信技术研究。这些研究为未来各类场景下,实现各类物体的低成本连接提供了基本的通信保证。另一方面,物联网领域的标志性应用还未出现,虽然有自动驾驶、智能抄表等案例,但目前还未出现从经济效益、业界影响力,到创新性技术应用的标志性物联网应用。通信技术的升级只解决了物联网的联网问题,并未解决信息技术发展的内在驱动力,即广泛认可的应用问题。解决应用问题的核心技术恰恰是传统通信技术研发机构所不擅长的信息内容理解及应用技术。

特征选择常用算法综述

Submitted by neurta on Wed, 04/05/2017 - 09:01

1 综述

(1) 什么是特征选择

特征选择 ( Feature Selection )也称特征子集选择( Feature Subset Selection , FSS ) ,或属性选择( Attribute Selection ) ,是指从全部特征中选取一个特征子集,使构造出来的模型更好。

(2) 为什么要做特征选择

       在机器学习的实际应用中,特征数量往往较多,其中可能存在不相关的特征,特征之间也可能存在相互依赖,容易导致如下的后果:

  • 特征个数越多,分析特征、训练模型所需的时间就越长。
  • 特征个数越多,容易引起“维度灾难”,模型也会越复杂,其推广能力会下降。

特征选择能剔除不相关(irrelevant)或亢余(redundant )的特征,从而达到减少特征个数,提高模型精确度,减少运行时间的目的。另一方面,选取出真正相关的特征简化了模型,使研究人员易于理解数据产生的过程。

 2 特征选择过程

“十项全能”的 IBM沃森人工智能都学会了哪些技能?

Submitted by neurta on Tue, 03/28/2017 - 11:33

在 IBM 的人工智能沃森于 2011 年在 Jeopardy! 中击败人类冠军 Brad Rutter 和 Ken Jennings 之后,它并没有依靠赢得 77147 美元奖金过活。和微软的小娜与苹果的 Siri 不同,沃森的父母 IBM 并不愿意让它免费在自家吃住,所以沃森在医疗保健领域找了一个工作——通过提供治疗建议帮助健康保险公司 Wellpoint 和医生。

自那以后,加上后面跟进的超过 10 亿美元投资,沃森学会的技能越来越多,工作能力也越来越强。通过机器学习、自然语言处理以及其它各种技术的结合,沃森正为多种领域的许多不同类型的公司提供帮助:除了医疗保健,沃森还在时尚、酒店、视频、游戏、零售、金融服务和兽医学等领域崭露了头角。

 

其最新的工作甚至已经涉足到了保护计算机免受其同类的伤害。本周二,IBM 公布了用于网络安全的沃森计划——一个基于云的服务,而非配置在企业控制的私有主机上。

今年秋天,在八所大学的研究人员的协助下,沃森将开始学习识别网络安全威胁,以望其认知能力能帮助识别恶意代码和制定减损策略。其训练数据的核心将来自 IBM 的 X-Force 研究库,该库中包含了 800 万条垃圾邮件和网络钓鱼攻击的数据,还有超过 10 万个漏洞。

发现·跨界 | 东软大数据高级分析产品助力新闻出版行业发展

Submitted by neurta on Mon, 03/27/2017 - 13:58

国务院发布《促进大数据发展行动纲要》(以下简称《纲要》),旨在全面推进我国大数据发展和应用,加快建设数据强国。明确提出从政府大数据、大数据产业、大数据安全保障体系三个方面推进大数据领域的十大工程。《纲要》的出台,赋予了大数据作为建设数据强国、提升政府治理能力、推动经济转型升级的战略地位。(摘录)

 

十三五期间,新闻出版广电总局将深入贯彻落实《纲要》,逐步构建起新闻出版大数据体系,推动国家大数据产业健康快速发展,为建设数据强国提供有力支撑。新闻出版业在国家大数据战略中处于相当重要、不可替代的地位。新闻出版业在产生数据、更在生产数据;新闻出版业在应用数据、更在供应数据;新闻出版业需要关注数据安全,更是国家大数据安全的重要保障部门。(摘录)

 

近年来,信息技术快速发展,使得人们进入互联网、大数据时代,阅读时代也渐渐进入电子化、网络化、个性定制化。传统的出版、印刷、发行方式受到了挑战,数字出版、网络发行、多元阅读等新兴的方式严重的冲击了传统出版业。大数据时代的新闻出版业面临的七大问题和挑战,如下图:

 

秦涛:深度学习的五个挑战和其解决方案

Submitted by neurta on Mon, 03/27/2017 - 10:13

大家好,我是微软亚洲研究院的秦涛,今天我将分享我们组对深度学习这个领域的一些思考,以及我们最近的一些研究工作。欢迎大家一起交流讨论。

先介绍一下我所在的机器学习组。微软亚洲研究院机器学习组研究的重点是机器学习,包含机器学习的各个主要方向,从底层的深度学习分布式机器学习平台(AI的Infrastructure)到中层的深度学习、强化学习、符号学习算法以及再上面的机器学习理论。

人工智能近年的进展

从1956年达特茅斯会议上人工智能的诞生开始,到如今人工智能已经发展了61年,这期间人工智能历经风雨,经历了数次高潮也有数次低谷,每次高潮都是因为核心技术的提出引起了人们极大的兴趣,吸引了大量的资金的投入。但同时由于大家的期望值远远超过了技术所能够达到的高度,因此当人们发现巨大的资金和人才的投入不能达到预期成果的时候,人工智能的冬天也随之而来。幸运的是,现在我们正处于人工智能的第三次浪潮,并且目前看来,距离下一个冬天还是挺远的。从媒体的报道,大家可能都能了解到,人工智能在各个方向都取得了非常大的进展,不管是研究上、实践上,还是应用上。下面我们简单回顾一下人工智能近年来在各个方向取得的进展。

 

计算机告诉你,唐朝诗人之间的关系到底是什么样的?

Submitted by neurta on Fri, 03/24/2017 - 20:50

在我还念中学的时候,每当心情不好,就靠读诗词来排遣,慢慢读得多了,就发现唐朝诗人之间存在着微妙的关系。比如杜甫非常喜欢李白,到了做梦都想见李白的地步:三夜频梦君,情亲见君意(梦李白)。而李白向孟浩然表过白:吾爱孟夫子,风流天下闻(赠孟浩然)。孟浩然的好基友则是王昌龄:数年同笔砚,兹夕间衾裯(送王昌龄之岭南)。

出于好奇心,我一度想理清楚他们之间的关系。但是全唐诗一共四万多首,再加上诗人之间经常称呼对方的别称,整理起来非常麻烦,慢慢的也就绝了这个念头。

直到前不久在网上看到了这张非常火的图,又让我想起来这段十五年前的心事。事不宜迟,拖了这么多年的愿望,不能再拖了。

这次,我将编程完成这件事。前面已经说过,这件事主要的麻烦在于以下两点:

  • 全唐诗数量太多,一共四万多首。

  • 诗人的别称太多,比如杜甫:按字称为子美,按排行称为杜二,按官职称为杜工部。