机器学习中的五种回归损失函数

Submitted by chenrouyu on Sat, 06/09/2018 - 13:20
机器学习中的所有算法最后都归结到求一个函数的最值问题,我们称之为目标函数。需要我们去最小化的函数称之为损失函数。损失函数可以看作是用来判断预测模型好坏的度量。寻找一个函数最小点的方法是“梯度下降”。损失函数就好像是一个起伏的山脉,梯度下降法就是在寻找山的最低点。对于不同的模型,不同的数据存在许多不同的损失函数,损失函数的选择与很多因素有关,比如异常点、机器学习算法选择、梯度下降快慢、求导的难易程度以及预测的置信区间等。这篇文章的目的就说介绍不同的损失函数。 损失函数可以被分为两大类:对分类问题(离散)和对回归问题(连续)。本文介绍针对回归问题的损失函数。

机器学习预测混乱的超能力

Submitted by chenrouyu on Fri, 06/01/2018 - 17:54

半个世纪之前,“混沌理论”的发明者们就认为“蝴蝶效应”使长期预测变成了可能。在一个复杂系统(比如天气,金融或者其他的)中的微小扰动,都能引发一系列相关事物发生改变,他们会影响到未来。因为我们无法确定这些系统的准确状态,也就无法预测他们会如何变化,所以我们活在不确定中。

但是现在机器人可以帮助我们减少这样的不确定性。

在许多研究中,科学家们已经用机器学习——人工智能背后相同的计算机技术,来预测很久之后的混沌系统的未来发展。其他的科学及认为这种方法是基础,并可能有更广阔的应用。

这个发现来自于资深的混沌理论研究者Edward Ott和四名Maryland 大学的合作者。他们运用了一个名叫reservoir computing 的机器学习算法,来学习原型混沌系统的动力学,也就是Kuramoto-Sivashinsky方程。

从Kuramoto-Sivashinsky方程之前的演化中得到数据来训练之后,研究者们能够近似预测活跃系统在未来8倍的“Lyapunov times”如何进化,比之前的方法快8倍还多。Lyapunov time是衡量一个动力系统的混沌时间状态,他一般控制了我们能够预测的时间边界。

腾讯图像去模糊、自动人像操纵最新研究

Submitted by chenrouyu on Wed, 05/30/2018 - 13:13
解密运动模糊:走向实用的非特定场景图片去模糊技术 在慢速曝光或快速运动拍摄照片时,图像模糊常常困扰着照片拍摄者。优图实验室的研究人员开发了可以恢复模糊图像的有效新算法。 在此之前,图像去模糊一直是图像处理中困扰业界的难题。 图像模糊产生的原因可能非常复杂。比如,相机晃动,失焦,拍摄物体高速运动等等。现有的图片编辑软件中的工具通常不尽如人意,例如,Photoshop CC中的“相机抖动还原”工具,只能处理简单的相机平移抖动模糊。 这种类型的模糊在计算机视觉业内被称为“均匀模糊”。而大部分模糊图片并不是“均匀模糊”的,因而现有图片编辑软件的应用十分有限。

基于注意力机制的对抗网络

Submitted by chenrouyu on Mon, 05/28/2018 - 20:12
本文中我们提出了基于注意力机制的对抗网络(Self-Attention Generative Adversarial Network (SAGAN))。他由注意力机制驱动,可用于图形生成任务中的远程依赖关系建模。传统的卷积GANs仅对低分辨率图像集中的空间局部点做高分辨率的细节处理。在基于注意力机制的对抗网络中,可以对所有局部特征做细节处理。鉴别器还能判断相距很远的高分辨率特征是否彼此相符。最近研究表明生成器的条件也会影响到GAN的表现。为了平衡这个带来的影响,我们在GAN生成层中运用光谱归一化,这也能提高我们的训练效率。注意层的可视化显示,生成器利用与物体形状相对应的邻域而不是固定形状的局部区域。

基因组医学中的机器学习-计算问题与数据集综述

Submitted by chenrouyu on Fri, 05/25/2018 - 16:13
本文主要介绍了基因组医学涉及到的一些典型机器学习问题。基因组医学的一个目标就是发现个体 DNA 的变化是如何影响疾病风险,并试图找到背后的致病机理以便于研制出相应的靶向治疗[1]方案。本文的重点将放在如何利用机器学习来对 DNA 与细胞中可能与疾病风险存在关联的关键分子的数量(我们称之为细胞变量)之间的关系进行建模。现代生物学允许对很多细胞变量(包括基因表达[2],剪接[3]和核酸结合蛋白[4]等)进行高通量测量。这些细胞变量都可以作为预测模型的目标变量。随着大型数据集的不断涌现和计算技术(如深度学习)的高速发展,一个新的基因组医学时代可能会到来。

从对话中学习文本相似性

Submitted by chenrouyu on Sat, 05/19/2018 - 17:57
我们通过对话中的数据来学习句子中语义相似的表达。我们训练了一个无监督模型来预测对话中的问与答。在STS标准下我们的输出结果能够很好地嵌入进对话中。如果把多任务训练和对话中输入-回答任务相结合,并且能够用自然语言很好的表达,那么模型的输出表现会更好。更多的实验表明,这样的模型在STS标准下比所有的神经模型表现得更好,并且表达更加有艺术性。

用机器学习构建O(N)复杂度的排序算法,可在GPU和TPU上加速计算

Submitted by chenrouyu on Sat, 05/19/2018 - 16:01
排序一直是计算机科学中最为基础的算法之一,从简单的冒泡排序到高效的桶排序,我们已经开发了非常多的优秀方法。但随着机器学习的兴起与大数据的应用,简单的排序方法要求在大规模场景中有更高的稳定性与效率。中国科技大学和兰州大学等研究者提出了一种基于机器学习的排序算法,它能实现 O(N) 的时间复杂度,且可以在 GPU 和 TPU 上高效地实现并行计算。这篇论文在 Reddit 上也有所争议,我们也希望机器学习能在更多的基础算法上展现出更优秀的性能。

用傅立叶变换来美颜

Submitted by chenrouyu on Wed, 05/16/2018 - 15:01
在宇宙学里面,离散傅里叶变换在数值模拟方法中有很重要的应用,是Particle Mesh 方法的核心算法。核心思想是将不规则粒子规划到正规网格上,用傅里叶变化快速计算粒子之间相互的力和引力势,通过这种方法可以极大地压缩N体粒子运算量。