NLP自然语言处理tf-idf 三个基本应用【更新中】

Submitted by neurta on Sat, 05/11/2019 - 14:16
任务三:如何通过词频,对文章进行自动摘要 信息都包含在句子中,有些句子包含的信息多,有些句子包含的信息少。 "自动摘要"就是要找出那些包含信息最多的句子。 句子的信息量用"关键词"来衡量。如果包含的关键词越多,就说明这个句子越重要。 Luhn提出用"簇"(cluster)表示关键词的聚集。所谓"簇"就是包含多个关键词的句子片段。

低纬度房价预测入门测试

Submitted by neurta on Thu, 04/25/2019 - 13:29
Utilities:第一个映入我眼帘的是Utilities,因为公共设施越齐全肯定越贵嘛,但是我又观察了具体的训练数据集,发现每一个房屋都是“AllPub”,即都具备基础的公共设施,所以这一项不能入选。 LotArea:英文理解能力有限,并不知道这什么意思,姑且认为是“地皮面积”,很好理解,面积越大肯定越贵嘛。。。 Neighborhood:这应表示房屋所处市区的位置,这个必选啊,合不合适在后面再具体分析。 OverallQual:对房子的整体材料和装修进行评估 YearBuilt:建造年份 TotalBsmtSF&GrLivArea:训练数据中有很多特征都涉及到了面积,所以没必要每个都考虑进去,为了简化,选择了TotalBsmtSF(地下室面积)&GrLivArea(生活面积) Heating:供暖方式应该很重要,但是数据显示基本上都是GasA类型,所以不予考虑, CentralAir:中央空调这个可以考虑一下,因为有的有,有的没有。 MiscVal: 在其他类别中未涉及的其他功能的价值,一般都是“shed(棚子)”,价格在400-1500美元之间,可以考虑一下 GarageCars&GarageArea:车库可容纳的车辆数以及其面积,这个可以算成单位车辆拥有的面积来计算

kaggle开放数据卫星图片识别棕榈种植园比赛

Submitted by neurta on Wed, 04/24/2019 - 12:52
训练模型所要使用的数据标签。 处理「图像分类数据集」和「表格数据集」的主要区别在于标签的存储方式。这里的标签指的是图像中的内容。在这个特定的数据集中,标签以 CSV 文件格式存储。 想要了解更多计算「分数」列的方法,点击: https://success.figure-eight.com/hc/en-us/articles/201855939-How-to-Calculate-a-Confidence-Score。 我们将使用 seaborn 的 countplot 函数来观察训练数据的分布。我们从下图中看到,大约 14300 个图像中没有发现油棕种植园,而仅有 942 个图像中发现了油棕种植园。这就是所谓的不平衡数据集,但我们在这里不讨论这个深度学习问题。我们此刻正迈出了一小步。

中央音乐学院首招音乐人工智能方向博士生

Submitted by neurta on Wed, 04/24/2019 - 10:30

个人也注意到了最近不少结合深度学习进行音乐编曲、创作的paper和应用,欢迎大家来分享音乐与AI如何结合的想法。

相关问题:计算机音乐是否通过机器学习等方法进行过作曲、演奏?

中央音乐学院的招生细则:(中央音乐学院-中央音乐学院音乐人工智能首招博士生!今天开始报名啦!俞峰院长携手清华、北大专家组建跨学科导师阵容!)

科学技术是音乐发展的主要推动力之一,人工智能将是未来音乐发展的又一重要契机。中央音乐学院将于2019年首次招收“音乐人工智能与音乐信息科技”方向的博士生,着力培养音乐与理工科交叉融合的复合型拔尖创新人才,助力音乐与科技的融合,助力“一流学科”建设。欢迎计算机、智能和电子信息类考生报考!

一、学习年限

学制三年

二、导师队伍

本方向将采取双导师培养制(音乐导师+科技导师),以下是三位导师信息:

  俞峰,中央音乐学院院长,教授、博导,“万人计划”领军人才,“四个一批”人才。中国指挥学会会长、全国艺术专业学位研究生教指委副主任、中国文联第十届全国委员会委员,享受国务院政府特殊津贴。

如何让RNN神经元拥有基础通用的注意力能力

Submitted by huzhenda on Sat, 09/22/2018 - 14:34

循环神经网络(RNNs)是序列建模中被广泛使用的网络结构,它通过控制当前信息以及历史信息的贡献大小来实现序列信息的积累。RNN神经元将当前时刻的输入向量作为一个整体,通过门设计控制其信息载入到模型的信息量。然而,输入向量中的不同元素通常具有不同的重要性,RNNs忽略了对此重要属性的探索及利用以加强网络能力。

为此,微软亚洲研究院和西安交通大学合作,提出了通过对RNN层加入一个简单有效的元素注意力门,使得RNN神经元自身拥有基础通用的注意力能力,对不同的元素自适应地赋予不同的重要性来更加细粒度地控制输入信息流。该注意力门设计简单,并且通用于不同的RNN结构以及不同的任务。

RNN的网络结构

循环神经网络(Recurrent Neural Networks, 缩写RNNs),例如标准RNN、LSTM、GRU等,已经被广泛用于对时间序列数据的处理和建模,来解决许多应用问题,例如行为识别、机器翻译、手写识别等。RNN在对时域动态特性建模以及特征学习上具有强大的能力。如图1所示,在每个时间步,RNN神经元通过当前时刻的输入x_t和前一时刻的隐状态信息h_(t-1)来更新当前时刻的隐状态h_t,从而具有对历史信息的记忆性。

一文详解深度学习在命名实体识别(NER)中的应用

Submitted by huzhenda on Sat, 09/15/2018 - 14:43

近几年来,基于神经网络的深度学习方法在计算机视觉、语音识别等领域取得了巨大成功,另外在自然语言处理领域也取得了不少进展。在NLP的关键性基础任务—命名实体识别(Named Entity Recognition,NER)的研究中,深度学习也获得了不错的效果。最近,笔者阅读了一系列基于深度学习的NER研究的相关论文,并将其应用到达观的NER基础模块中,在此进行一下总结,与大家一起分享学习。

1. NER 简介

NER又称作专名识别,是自然语言处理中的一项基础任务,应用范围非常广泛。命名实体一般指的是文本中具有特定意义或者指代性强的实体,通常包括人名、地名、组织机构名、日期时间、专有名词等。NER系统就是从非结构化的输入文本中抽取出上述实体,并且可以按照业务需求识别出更多类别的实体,比如产品名称、型号、价格等。因此实体这个概念可以很广,只要是业务需要的特殊文本片段都可以称为实体。

旷视科技提出ExFuse——优化解决语义分割特征融合问题

Submitted by huzhenda on Sat, 09/08/2018 - 11:38

导语

计算机视觉领域有着三项最为基本的任务——分类,检测和分割,其中分割是指从像素层面识别出一张图像上所有物体的位置和分类,使得机器之眼对一张图像达到精确和充分的感知,这也是后续图像认知技术的重要一环。分割分为语义分割、实例分割和全景分割,其中语义分割最为基础,它为图像之中的每个像素做分类,而不涉及实例或背景的区分。

本文发现,当前语义分割方法直接融合高、低特征并不奏效,继而提出新架构 ExFuse,转而在低级特征引入语义信息,在高级特征嵌入空间信息,其性能超越 DeepLabv3,在 PASCAL VOC 2012 分割任务中夺得当前最优。

这一底层突破将在分割技术的适用领域带来新进展,比如自动驾驶,无人机,仓储机器人,医疗影像,无人超市、地理信息系统等。比如,旷视科技基于这一自身原创技术,进一步提升和完善了手机影像产品线,在人体扣像、手机打光、背景虚化等具体应用中不断提升用户体验,这也恰恰是旷视科技一直践行人工智能驱动的行业物联网构建者(AI+IoT)战略定位的证明。

FAIR提出用聚类方法结合卷积网络,实现无监督端到端图像分类

Submitted by huzhenda on Sun, 08/26/2018 - 16:30

聚类是一种在计算机视觉被广泛应用和研究的无监督学习方法,但几乎未在大规模数据集上的视觉特征端到端训练中被采用过。在本文中,Facebook AI 研究院提出了深度聚类(DeepCluster),一种联合学习神经网络参数和获取特征的聚类分配的聚类方法。在 ImageNet 和 YFCC100M 等典型规模数据集上的卷积神经网络的无监督训练的实验结果表明,该方法在所有基准性能中都远远优于目前的技术。

推荐系统特征构建新进展:极深因子分解机模型 | KDD 2018

Submitted by huzhenda on Sun, 08/26/2018 - 15:02

特征(features)的构建对推荐系统来说至关重要,直接关系到推荐系统的精准性。在传统的推荐系统中,高阶交叉特征通常由工程师手工提取,不仅人力成本高昂、维度空间极大,而且不可泛化。因此自动学习特征的交互是十分有必要的 ,但目前已有的相关工作学习的是隐式的交互特征,且特征交互发生在元素级(bit-wise)而非向量级。为此,微软亚洲研究院社会计算组在KDD 2018上提出一个新的模型——极深因子分解机(xDeepFM)。

近年来,随着深度学习技术在语音识别、计算机视觉和自然语言理解等领域取得巨大成功,越来越多的学者们也在着手研究基于深度学习技术的推荐系统对于搭建精准的推荐系统而言,特征(features)是至关重要的。从特征构建的层面而言,现阶段深度学习技术在推荐系统中的应用可以大致分为两类:

(1)从原始数据中自动学习出蕴含语义的隐特征,例如从本文、图像或者知识网络中提取出有效的隐特征;

(2)自动学习多个相关特征之间的交互关系。

Senta:基于语义和大数据的百度情感分类

Submitted by huzhenda on Sun, 08/26/2018 - 11:04

文本情感分析(简称情感分析)旨在识别和提取文本中的倾向、立场、评价、观点等主观信息。具体的说,情感分析主要包括两类任务:情感倾向分类(简称情感分类)和观点抽取。情感分析是人工智能的重要研究方向,具有很高的学术价值。同时,情感分析在消费决策、舆情分析、个性化推荐等领域均有重要的应用,具有很高的商业价值。

百度在情感分析领域开展了深入的技术研发和应用实践。此前,我们已经在百度AI开放平台开放了观点抽取和情感分类服务。近期,我们还通过Github开放了情感分类开源项目Senta。Senta项目包含了基于语义的情感分类模型,还包含了基于大数据训练好的模型。为此,本文将对百度的情感分类进行介绍。