特征选择常用算法综述

Submitted by neurta on Wed, 04/05/2017 - 09:01

1 综述

(1) 什么是特征选择

特征选择 ( Feature Selection )也称特征子集选择( Feature Subset Selection , FSS ) ,或属性选择( Attribute Selection ) ,是指从全部特征中选取一个特征子集,使构造出来的模型更好。

(2) 为什么要做特征选择

       在机器学习的实际应用中,特征数量往往较多,其中可能存在不相关的特征,特征之间也可能存在相互依赖,容易导致如下的后果:

  • 特征个数越多,分析特征、训练模型所需的时间就越长。
  • 特征个数越多,容易引起“维度灾难”,模型也会越复杂,其推广能力会下降。

特征选择能剔除不相关(irrelevant)或亢余(redundant )的特征,从而达到减少特征个数,提高模型精确度,减少运行时间的目的。另一方面,选取出真正相关的特征简化了模型,使研究人员易于理解数据产生的过程。

 2 特征选择过程

“十项全能”的 IBM沃森人工智能都学会了哪些技能?

Submitted by neurta on Tue, 03/28/2017 - 11:33

在 IBM 的人工智能沃森于 2011 年在 Jeopardy! 中击败人类冠军 Brad Rutter 和 Ken Jennings 之后,它并没有依靠赢得 77147 美元奖金过活。和微软的小娜与苹果的 Siri 不同,沃森的父母 IBM 并不愿意让它免费在自家吃住,所以沃森在医疗保健领域找了一个工作——通过提供治疗建议帮助健康保险公司 Wellpoint 和医生。

自那以后,加上后面跟进的超过 10 亿美元投资,沃森学会的技能越来越多,工作能力也越来越强。通过机器学习、自然语言处理以及其它各种技术的结合,沃森正为多种领域的许多不同类型的公司提供帮助:除了医疗保健,沃森还在时尚、酒店、视频、游戏、零售、金融服务和兽医学等领域崭露了头角。

 

其最新的工作甚至已经涉足到了保护计算机免受其同类的伤害。本周二,IBM 公布了用于网络安全的沃森计划——一个基于云的服务,而非配置在企业控制的私有主机上。

今年秋天,在八所大学的研究人员的协助下,沃森将开始学习识别网络安全威胁,以望其认知能力能帮助识别恶意代码和制定减损策略。其训练数据的核心将来自 IBM 的 X-Force 研究库,该库中包含了 800 万条垃圾邮件和网络钓鱼攻击的数据,还有超过 10 万个漏洞。

发现·跨界 | 东软大数据高级分析产品助力新闻出版行业发展

Submitted by neurta on Mon, 03/27/2017 - 13:58

国务院发布《促进大数据发展行动纲要》(以下简称《纲要》),旨在全面推进我国大数据发展和应用,加快建设数据强国。明确提出从政府大数据、大数据产业、大数据安全保障体系三个方面推进大数据领域的十大工程。《纲要》的出台,赋予了大数据作为建设数据强国、提升政府治理能力、推动经济转型升级的战略地位。(摘录)

 

十三五期间,新闻出版广电总局将深入贯彻落实《纲要》,逐步构建起新闻出版大数据体系,推动国家大数据产业健康快速发展,为建设数据强国提供有力支撑。新闻出版业在国家大数据战略中处于相当重要、不可替代的地位。新闻出版业在产生数据、更在生产数据;新闻出版业在应用数据、更在供应数据;新闻出版业需要关注数据安全,更是国家大数据安全的重要保障部门。(摘录)

 

近年来,信息技术快速发展,使得人们进入互联网、大数据时代,阅读时代也渐渐进入电子化、网络化、个性定制化。传统的出版、印刷、发行方式受到了挑战,数字出版、网络发行、多元阅读等新兴的方式严重的冲击了传统出版业。大数据时代的新闻出版业面临的七大问题和挑战,如下图:

 

秦涛:深度学习的五个挑战和其解决方案

Submitted by neurta on Mon, 03/27/2017 - 10:13

大家好,我是微软亚洲研究院的秦涛,今天我将分享我们组对深度学习这个领域的一些思考,以及我们最近的一些研究工作。欢迎大家一起交流讨论。

先介绍一下我所在的机器学习组。微软亚洲研究院机器学习组研究的重点是机器学习,包含机器学习的各个主要方向,从底层的深度学习分布式机器学习平台(AI的Infrastructure)到中层的深度学习、强化学习、符号学习算法以及再上面的机器学习理论。

人工智能近年的进展

从1956年达特茅斯会议上人工智能的诞生开始,到如今人工智能已经发展了61年,这期间人工智能历经风雨,经历了数次高潮也有数次低谷,每次高潮都是因为核心技术的提出引起了人们极大的兴趣,吸引了大量的资金的投入。但同时由于大家的期望值远远超过了技术所能够达到的高度,因此当人们发现巨大的资金和人才的投入不能达到预期成果的时候,人工智能的冬天也随之而来。幸运的是,现在我们正处于人工智能的第三次浪潮,并且目前看来,距离下一个冬天还是挺远的。从媒体的报道,大家可能都能了解到,人工智能在各个方向都取得了非常大的进展,不管是研究上、实践上,还是应用上。下面我们简单回顾一下人工智能近年来在各个方向取得的进展。

 

计算机告诉你,唐朝诗人之间的关系到底是什么样的?

Submitted by neurta on Fri, 03/24/2017 - 20:50

在我还念中学的时候,每当心情不好,就靠读诗词来排遣,慢慢读得多了,就发现唐朝诗人之间存在着微妙的关系。比如杜甫非常喜欢李白,到了做梦都想见李白的地步:三夜频梦君,情亲见君意(梦李白)。而李白向孟浩然表过白:吾爱孟夫子,风流天下闻(赠孟浩然)。孟浩然的好基友则是王昌龄:数年同笔砚,兹夕间衾裯(送王昌龄之岭南)。

出于好奇心,我一度想理清楚他们之间的关系。但是全唐诗一共四万多首,再加上诗人之间经常称呼对方的别称,整理起来非常麻烦,慢慢的也就绝了这个念头。

直到前不久在网上看到了这张非常火的图,又让我想起来这段十五年前的心事。事不宜迟,拖了这么多年的愿望,不能再拖了。

这次,我将编程完成这件事。前面已经说过,这件事主要的麻烦在于以下两点:

  • 全唐诗数量太多,一共四万多首。

  • 诗人的别称太多,比如杜甫:按字称为子美,按排行称为杜二,按官职称为杜工部。

AAAI 2017最佳论文出炉,Udacity 创始人摘得双项荣誉

Submitted by neurta on Thu, 03/23/2017 - 14:39

正在大洋彼岸举行的 AAAI -17公布了本年度的最佳论文,一篇从物理研究中获得启发的论文获得大奖,论文引入了一种新的神经网络监督学习方法,在没有任何带标签的训练样本的情况下,成功训练出一个卷积神经网络来检测和跟踪对象。另外,本届大会的其他10项大奖也同时公布。优达学城(Udacity)创始人 Sebastian Thrun 的署名论文《Monte Carlo Localization: Efficient Position Estimation for Mobile Robots》获奖,同时,他还获得优秀教育者奖。

 

人工智能界年度顶级会议 AAAI 2017,暨第31届 AAAI 大会 2月4日在美国旧金山举行,会议围绕人工智能的研究与发展,开展多场演讲、课程讲座、Workshop等多种形式的活动,吸引了世界各地的人工智能精英参加。

AAAI 成立于 1979 年,最初名为“美国人工智能协会” (American Association for Artificial Intelligence),2007 年才正式更名为“人工智能促进协会” (Association for the Advancement of Artificial Intelligence )。

文本数据的机器学习自动分类方法

Submitted by neurta on Thu, 03/23/2017 - 10:55

随着互联网技术的迅速发展与普及,如何对浩如烟海的数据进行分类、组织和管理,已经成为一个具有重要用途的研究课题。而在这些数据中,文本数据又是数量最大的一类。“文本分类是指在给定分类体系下,根据文本内容自动确定文本类别的过程”。文本分类有着广泛的应用场景,例如:

新闻网站包含大量报道文章,基于文章内容,需要将这些文章按题材进行自动分类(例如自动划分成政治、经济、军事、体育、娱乐等。

在电子商务网站,用户进行了交易行为后对商品进行评价分类,商家需要对用户的评价划分为正面评价和负面评价,来获取各个商品的用户反馈统计情况。

电子邮箱频繁接收到垃圾广告信息,通过文本分类技术从众多的邮件中识别垃圾邮件并过滤,提高了邮箱用户的使用效率。

媒体每日有大量投稿,依靠文本分类技术能够对文章进行自动审核,标记投稿中的色情、暴力、政治、垃圾广告等违规内容。

 

综述 | 2017知识图谱研究进展

Submitted by neurta on Tue, 03/21/2017 - 10:51

1 知识图谱构建技术

本节首先给出知识图谱的技术地图,然后介绍知识图谱构建的关键技术,包括关系抽取技术、知识融合技术、实体链接技术和知识推理技术。

1.1 知识图谱技术地图

构建知识图谱的主要目的是获取大量的、让计算机可读的知识。在互联网飞速发展的今天,知识大量存在于非结构化的文本数据、大量半结构化的表格和网页以及生产系统的结构化数据中。为了阐述如何构建知识图谱,本文给出了构建知识图谱的技术地图,该技术地图如图1所示。整个技术图主要分为三个部分,第一个部分是知识获取,主要阐述如何从非结构化、半结构化、以及结构化数据中获取知识。第二部是数据融合,主要阐述如何将不同数据源获取的知识进行融合构建数据之间的关联。第三部分是知识计算及应用,这一部分关注的是基于知识图谱计算功能以及基于知识图谱的应用。

1.1.1 知识获取