理解条件随机场

Submitted by huzhenda on Sat, 07/14/2018 - 11:47

        条件随机场(conditional random fields,简称 CRF),是一种判别式概率模型,是给定一组输入序列条件下另一组输出序列的条件概率分布模型,常用于标注或分析序列资料。

1、哪些问题需要用到CRF模型

         我们以自然语言处理中的词性标注(POS Tagging)作为例子。词性标注的目标是给出一个句子中每个词的词性(名词,动词,形容词等)。而这些词的词性往往和上下文词的词性有关,因此,使用CRF来处理是很适合的。

2、从随机场到马尔可夫随机场

        首先,我们来介绍随机场。随机场是由若干个位置组成的整体,当给每一个位置中按照某种分布随机赋予一个值之后,其全体就叫做随机场。以词性标注为例:假如我们需要对一个包含十个词的句子做词性标注。这十个词每个词的词性可以在我们已知的词性集合(名词,动词...)中选择。当我们为每个词选择完词性后,这就形成了一个随机场。

用python分析热门夺冠球队

Submitted by yangjingbang on Sat, 06/16/2018 - 19:42

2018年,火热的世界杯即将拉开序幕。在比赛开始之前,我们不妨用 Python 来对参赛队伍的实力情况进行分析,并大胆的预测下本届世界杯的夺冠热门球队。

通过数据分析,可以发现很多有趣的结果,比如:

  • 找出哪些队伍是首次进入世界杯的黑马队伍
  • 找出2018年32强中之前已经进入过世界杯,但在世界杯上没有赢得过一场比赛的队伍

当然,我们本次的主要任务是要通过数据分析来预测2018年世界杯的夺冠热门队伍。

本次分析的数据来源于 Kaggle, 包含从 1872 年到今年的数据,包括世界杯比赛、世界杯预选赛、亚洲杯、欧洲杯、国家之间的友谊赛等比赛,一共大约 40000 场比赛的情况。

本次的环境为

  • window 7 系统
  • python 3.6
  • Jupyter Notebook
  • pandas version 0.22.0

先来看看数据的情况:

步态识别的深度学习:综述

Submitted by yangjingbang on Fri, 06/15/2018 - 16:22
由于步态容易受到物体遮挡、衣着、视角和携带物等协变量因素的影响,步态识别方法较难获得较优的识别性能.基于端到端和多层特征提取的思想,深度学习近年在步态识别领域取得一系列进展.本文综述深度学习在步态识别中的研究现状、优势和不足,总结其中的关键技术和潜在的研究方向.

机器学习中的五种回归损失函数

Submitted by chenrouyu on Sat, 06/09/2018 - 13:20
机器学习中的所有算法最后都归结到求一个函数的最值问题,我们称之为目标函数。需要我们去最小化的函数称之为损失函数。损失函数可以看作是用来判断预测模型好坏的度量。寻找一个函数最小点的方法是“梯度下降”。损失函数就好像是一个起伏的山脉,梯度下降法就是在寻找山的最低点。对于不同的模型,不同的数据存在许多不同的损失函数,损失函数的选择与很多因素有关,比如异常点、机器学习算法选择、梯度下降快慢、求导的难易程度以及预测的置信区间等。这篇文章的目的就说介绍不同的损失函数。 损失函数可以被分为两大类:对分类问题(离散)和对回归问题(连续)。本文介绍针对回归问题的损失函数。

机器学习预测混乱的超能力

Submitted by chenrouyu on Fri, 06/01/2018 - 17:54

半个世纪之前,“混沌理论”的发明者们就认为“蝴蝶效应”使长期预测变成了可能。在一个复杂系统(比如天气,金融或者其他的)中的微小扰动,都能引发一系列相关事物发生改变,他们会影响到未来。因为我们无法确定这些系统的准确状态,也就无法预测他们会如何变化,所以我们活在不确定中。

但是现在机器人可以帮助我们减少这样的不确定性。

在许多研究中,科学家们已经用机器学习——人工智能背后相同的计算机技术,来预测很久之后的混沌系统的未来发展。其他的科学及认为这种方法是基础,并可能有更广阔的应用。

这个发现来自于资深的混沌理论研究者Edward Ott和四名Maryland 大学的合作者。他们运用了一个名叫reservoir computing 的机器学习算法,来学习原型混沌系统的动力学,也就是Kuramoto-Sivashinsky方程。

从Kuramoto-Sivashinsky方程之前的演化中得到数据来训练之后,研究者们能够近似预测活跃系统在未来8倍的“Lyapunov times”如何进化,比之前的方法快8倍还多。Lyapunov time是衡量一个动力系统的混沌时间状态,他一般控制了我们能够预测的时间边界。

腾讯图像去模糊、自动人像操纵最新研究

Submitted by chenrouyu on Wed, 05/30/2018 - 13:13
解密运动模糊:走向实用的非特定场景图片去模糊技术 在慢速曝光或快速运动拍摄照片时,图像模糊常常困扰着照片拍摄者。优图实验室的研究人员开发了可以恢复模糊图像的有效新算法。 在此之前,图像去模糊一直是图像处理中困扰业界的难题。 图像模糊产生的原因可能非常复杂。比如,相机晃动,失焦,拍摄物体高速运动等等。现有的图片编辑软件中的工具通常不尽如人意,例如,Photoshop CC中的“相机抖动还原”工具,只能处理简单的相机平移抖动模糊。 这种类型的模糊在计算机视觉业内被称为“均匀模糊”。而大部分模糊图片并不是“均匀模糊”的,因而现有图片编辑软件的应用十分有限。

基于注意力机制的对抗网络

Submitted by chenrouyu on Mon, 05/28/2018 - 20:12
本文中我们提出了基于注意力机制的对抗网络(Self-Attention Generative Adversarial Network (SAGAN))。他由注意力机制驱动,可用于图形生成任务中的远程依赖关系建模。传统的卷积GANs仅对低分辨率图像集中的空间局部点做高分辨率的细节处理。在基于注意力机制的对抗网络中,可以对所有局部特征做细节处理。鉴别器还能判断相距很远的高分辨率特征是否彼此相符。最近研究表明生成器的条件也会影响到GAN的表现。为了平衡这个带来的影响,我们在GAN生成层中运用光谱归一化,这也能提高我们的训练效率。注意层的可视化显示,生成器利用与物体形状相对应的邻域而不是固定形状的局部区域。