让机器学会看破“黑暗”

Submitted by chenrouyu on Thu, 05/10/2018 - 17:32
在黑暗的条件下分清图片很困难。短时曝光的图片会受到噪音干扰,然而长时间曝光会导致模糊并且也是不现实的。许多降噪,去模糊化和增强机器也先后被提出,但是在一些特定情境下,他们的效果受到了很大的限制。为了支持基于学习的黑暗条件下图片处理的发展,我们引入了一组黑暗下短时曝光的图片集,并且还有与之对应的长时曝光的图片。基于现有的数据集,我们发展了一套基于端对端训练的全卷积神经网络处理黑暗中图片的管道。该神经网络直接处理原始的感知数据,并且替换了之前一些处理黑暗中图片的方法。

令人拍案叫绝的Wasserstein GAN

Submitted by chenrouyu on Mon, 05/07/2018 - 13:02
要知道自从2014年Ian Goodfellow提出以来,GAN就存在着训练困难、生成器和判别器的loss无法指示训练进程、生成样本缺乏多样性等问题。从那时起,很多论文都在尝试解决,但是效果不尽人意,比如最有名的一个改进DCGAN依靠的是对判别器和生成器的架构进行实验枚举,最终找到一组比较好的网络架构设置,但是实际上是治标不治本,没有彻底解决问题。而今天的主角Wasserstein GAN(下面简称WGAN)成功地做到了以下爆炸性的几点: 彻底解决GAN训练不稳定的问题,不再需要小心平衡生成器和判别器的训练程度 基本解决了collapse mode的问题,确保了生成样本的多样性 训练过程中终于有一个像交叉熵、准确率这样的数值来指示训练的进程,这个数值越小代表GAN训练得越好,代表生成器产生的图像质量越高(如题图所示) 以上一切好处不需要精心设计的网络架构,最简单的多层全连接网络就可以做到

Tags

语音合成之Char2Wav模型和SampleRNN模型

Submitted by chenrouyu on Mon, 05/07/2018 - 10:39
语音合成是指将文本转化成音频的过程,整个过程的难点可以用两个词语来形容:清晰度(Intelligibility)和自然度(Naturalness),清晰度是指合成的音频是否是干净的,是否可以被人听懂;而自然度是指合成的音频是否融合了情感上的色彩。传统的语音合成通常有两种做法,一种是合成式,另外一种是参数式,下面我们分别看它们各自的特点。

自然语言处理中的注意力机制

Submitted by chenrouyu on Mon, 05/07/2018 - 09:15
概括地说,在神经网络实现预测任务时,引入注意力机制能使训练重点集中在输入数据的相关部分,而不是无关部分。注意力是指人的心理活动指向和集中于某种事物的能力。比如说,你将很长的一句话人工从一种语言翻译到另一种语言,在任何时候,你最关注的都是当时正在翻译的词或短语,与它在句子中的位置无关。在神经网络中引入注意力机制,就让它也学会了人类这种做法。

Kaggle经验分享||CNN识别患者CT图像预测患癌的可能性

Submitted by chenrouyu on Sat, 05/05/2018 - 11:40

背景

肺癌是最常见的癌症之一,尤其在北美地区。其是男性最常见的癌症形式,其次为女性。全球每年有160万人死于肺癌,仅在美国每年就有225000肺癌新增病例。此外,肺癌也是低存活率的癌症之一,平均5年的存活率低于20%。然而,早期发现的平均概率至少是肺癌存活率的两倍。

 

The Data Science Bowl (DSB) 是Kaggle举办的年度机器学习竞赛。2017年的竞赛是该赛事的第三届比赛,该次比赛共有2000名选手,其奖金池也高达100万美元。该比赛的目标为构建一个自动化系统,其能预测患者在下一年的CT扫描诊断中是否会被诊断为肺癌。该比赛的数据集只提供了每位患者的一次CT扫描图像,并删除了患者的相关信息。

 

工具

解决方案完全使用Python高级程序设计语言,并使用了相关的开源科学计算库:

  • keras

  • theano

  • numpy

  • scipy

  • scikit-learn

Tags

让机器“观色”:真实世界的表情识别

Submitted by chenrouyu on Sat, 05/05/2018 - 10:51
自古,“观色”即是全面分析人物的重要依据。在《论语.颜渊》中更是有,“夫达也者,质直而好义,察言而观色,虑以下人。” 而在计算机视觉领域,如果能够通过识别一个人的表情以观其色,即可为场景中出现的人物提供辅助的结构化信息,这在人机交互、安防等多个领域均有广泛的应用。 因此,在学术界衍生出了表情识别这一研究方向。传统的手工设计的面部特征,易受到光照变化等影响,面临真实场景中鲁棒性不足等问题,而近年来深度学习技术的出现,为表情识别带来了斐然的进展。

为什么深度学习要使用大量数据?

Submitted by chenrouyu on Sat, 05/05/2018 - 10:24
深度学习与机器学习一个很重要的区别在于数据量的大小。就目前大量的实验和工作证明,数据量的大小直接影响深度学习的性能。我们都希望利用小的数据集、简单的算法就能取得不错的效果,但目前的事实是小数据集上使用深度学习往往容易过拟合。本文中作者阐述了几个大容量训练数据的场景来展示大数据对深度学习的重要性。