从对话中学习文本相似性

Submitted by chenrouyu on Sat, 05/19/2018 - 17:57
我们通过对话中的数据来学习句子中语义相似的表达。我们训练了一个无监督模型来预测对话中的问与答。在STS标准下我们的输出结果能够很好地嵌入进对话中。如果把多任务训练和对话中输入-回答任务相结合,并且能够用自然语言很好的表达,那么模型的输出表现会更好。更多的实验表明,这样的模型在STS标准下比所有的神经模型表现得更好,并且表达更加有艺术性。

用机器学习构建O(N)复杂度的排序算法,可在GPU和TPU上加速计算

Submitted by chenrouyu on Sat, 05/19/2018 - 16:01
排序一直是计算机科学中最为基础的算法之一,从简单的冒泡排序到高效的桶排序,我们已经开发了非常多的优秀方法。但随着机器学习的兴起与大数据的应用,简单的排序方法要求在大规模场景中有更高的稳定性与效率。中国科技大学和兰州大学等研究者提出了一种基于机器学习的排序算法,它能实现 O(N) 的时间复杂度,且可以在 GPU 和 TPU 上高效地实现并行计算。这篇论文在 Reddit 上也有所争议,我们也希望机器学习能在更多的基础算法上展现出更优秀的性能。

用傅立叶变换来美颜

Submitted by chenrouyu on Wed, 05/16/2018 - 15:01
在宇宙学里面,离散傅里叶变换在数值模拟方法中有很重要的应用,是Particle Mesh 方法的核心算法。核心思想是将不规则粒子规划到正规网格上,用傅里叶变化快速计算粒子之间相互的力和引力势,通过这种方法可以极大地压缩N体粒子运算量。

让机器学会看破“黑暗”

Submitted by chenrouyu on Thu, 05/10/2018 - 17:32
在黑暗的条件下分清图片很困难。短时曝光的图片会受到噪音干扰,然而长时间曝光会导致模糊并且也是不现实的。许多降噪,去模糊化和增强机器也先后被提出,但是在一些特定情境下,他们的效果受到了很大的限制。为了支持基于学习的黑暗条件下图片处理的发展,我们引入了一组黑暗下短时曝光的图片集,并且还有与之对应的长时曝光的图片。基于现有的数据集,我们发展了一套基于端对端训练的全卷积神经网络处理黑暗中图片的管道。该神经网络直接处理原始的感知数据,并且替换了之前一些处理黑暗中图片的方法。

令人拍案叫绝的Wasserstein GAN

Submitted by chenrouyu on Mon, 05/07/2018 - 13:02
要知道自从2014年Ian Goodfellow提出以来,GAN就存在着训练困难、生成器和判别器的loss无法指示训练进程、生成样本缺乏多样性等问题。从那时起,很多论文都在尝试解决,但是效果不尽人意,比如最有名的一个改进DCGAN依靠的是对判别器和生成器的架构进行实验枚举,最终找到一组比较好的网络架构设置,但是实际上是治标不治本,没有彻底解决问题。而今天的主角Wasserstein GAN(下面简称WGAN)成功地做到了以下爆炸性的几点: 彻底解决GAN训练不稳定的问题,不再需要小心平衡生成器和判别器的训练程度 基本解决了collapse mode的问题,确保了生成样本的多样性 训练过程中终于有一个像交叉熵、准确率这样的数值来指示训练的进程,这个数值越小代表GAN训练得越好,代表生成器产生的图像质量越高(如题图所示) 以上一切好处不需要精心设计的网络架构,最简单的多层全连接网络就可以做到

Tags

语音合成之Char2Wav模型和SampleRNN模型

Submitted by chenrouyu on Mon, 05/07/2018 - 10:39
语音合成是指将文本转化成音频的过程,整个过程的难点可以用两个词语来形容:清晰度(Intelligibility)和自然度(Naturalness),清晰度是指合成的音频是否是干净的,是否可以被人听懂;而自然度是指合成的音频是否融合了情感上的色彩。传统的语音合成通常有两种做法,一种是合成式,另外一种是参数式,下面我们分别看它们各自的特点。