一文读懂如何用深度学习实现网络安全

Submitted by huzhenda on Sun, 08/19/2018 - 16:25

本文简要介绍深度学习以及它支持的一些现有信息安全应用,并提出一个基于深度学习的TOR流量检测方案。

简介

我们看到的大多数深度学习应用程序通常面向市场、销售、金融等领域,但在使用深度学习来保护这些领域的产品和业务、避免恶意软件和黑客攻击方面,则鲜有文章或资源。

像谷歌、脸谱、微软和SalesForce这样的大型科技公司已经将深度学习嵌入他们的产品之中,但网络安全行业仍在迎头赶上。这是一个具有挑战性的领域,需要我们全力关注。

21.1

本文中,我们简要介绍深度学习(Deep Learning,DL)以及它支持的一些现有信息安全(此处称为InfoSec)应用。然后,我们深入研究匿名TOR流量检测这个有趣的问题,并提出一个基于深度学习的TOR流量检测方案。

如何匹配两段文本的语义?

Submitted by huzhenda on Sun, 08/19/2018 - 14:13

本文基于理论分析与前人的实验结果来简要叙述了paraphrase任务和QA匹配任务的模型设计的相同与差异之处。

本文由来

笔者一年前在知乎上关注过这么一个问题:
如何判断两段文本说的是「同一件事情」? - 知乎 https://www.zhihu.com/question/56751077

如果是document level的判断,那么信息检索中的shingling算法是一个简单有效的解决方案。不过看了一下问题描述,应该是特指sentence level,所以这个问题应该是属于sentence level paraphrase任务。

近期小夕的研究中也顺带研究了一下相关任务,发现这个问题并不是如最高票所言的将QA匹配模型直接搬到这个问题里就万事大吉了。其实在理论层面上这种做法已经很不合适了,里面有很多坑要填,所以本文就试图纠正一下这个问题的导向吧。

基于目标依赖财经文档表示学习的累积超额收益预测

Submitted by huzhenda on Sun, 08/19/2018 - 10:15

本文介绍哈尔滨工业大学社会计算与信息检索研究中( SCIR)录于COLING 2018的论文《 Learning Target-Specific Representations of Financial News Documents For Cumulative Abnormal Return Prediction》中的工作。本文提出了一种新的目标依赖的新闻文档表示模型。该模型使用目标敏感新闻摘要的表示来衡量新闻中句子的重要性,从而选择和组合最有意义的句子来进行建模。在累积超额收益上的预测结果表明,相比于摘要和标题,基于文档表示的方法更有效。同时,相对于句子级的方法,我们的模型能更好地组合来自多个文档源的信息。

论文作者:段俊文,张岳,丁效,Ching-Yun Chang,刘挺

如何使用嵌套交叉验证方法处理时序数据

Submitted by huzhenda on Fri, 08/10/2018 - 22:29

本文讨论了对时序数据使用传统交叉验证的一些缺陷。具体来说,我们解决了以下问题:

1)在不造成数据泄露的情况下,对时序数据进行分割;2)在独立测试集上使用嵌套交叉验证得到误差的无偏估计;3)对包含多个时序的数据集进行交叉验证。

本文主要针对缺乏如何对包含多个时间序列的数据使用交叉验证的在线信息。

本文有助于任何拥有时间序列数据,尤其是多个独立的时间序列数据的人。这些方法是在医疗研究中被设计用于处理来自多个参与人员的医疗时序数据的。

交叉验证

交叉验证(CV)是一项很流行的技术,用于调节超参数,是一种具备鲁棒性的模型性能评价技术。两种最常见的交叉验证方式分别是 k 折交叉验证和 hold-out 交叉验证。

由于文献中术语的不同,本文中我们将明确定义交叉验证步骤。首先,将数据集分割为两个子集:训练集和测试集。如果有需要被调整的参数,我们将训练集分为训练子集和验证集。模型在训练子集上进行训练,在验证集上将误差最小化的参数将最终被选择。最后,模型使用所选的参数在整个训练集上进行训练,并且记录测试集上的误差。

理解随机森林

Submitted by huzhenda on Fri, 08/10/2018 - 20:46

今天的文章中我们将为大家介绍另外一种集成学习算法-随机森林。随机森林由多棵决策树组成,采用多棵决策树联合进行预测可以有效提高模型的精度。这些决策树用对训练样本集随机抽样构造出的样本集训练得到。由于训练样本集由随机抽样构造,因此称为随机森林。随机森林不仅对训练样本进行抽样,还对特征向量的分量随机抽样,在训练决策树时,每次寻找最佳分裂时只使用一部分抽样的特征分量作为候选特征进行分裂。

集成学习

集成学习(ensemble learning)是机器学习中的一种思想,而不是指某一具体算法,它通过多个模型的组合形成一个精度更高的模型,参与组合的模型称为弱学习器(weak learner)。在预测时使用这些弱学习器模型联合进行预测;训练时需要用训练样本集依次训练出这些弱学习器。这种集体决策的例子在我们的日常生活中经常会见到,如医生集体会诊,如果对某一病人的情况拿不定主意,可以让多位医生一起来诊断,用他们各自的诊断结果进行投票,得到最终的诊断结果。因此,集成学习是一种非常符合人类思维习惯的方法。

基于强化学习的中文零指代消解模型

Submitted by huzhenda on Fri, 08/10/2018 - 19:39

1 前言

中文的零指代,作为指代现象中的一种,能够更好地帮助机器理解自然语言。随着计算机技术和互联网的迅速发展,社会的信息化程度已经发展到一个全新的阶段,信息的传递与交流已成为现代社会生活运作的重要基础,各种信息呈爆炸式增长。人们在享受海量信息提供便利的同时,也面临着如何从浩如烟海的信息中找到自己所需内容的困境。一些集成了自然语言处理成果的技术,如信息检索(Information Retrieval)、信息抽取(Information Extraction)、问答(Question Answering)、自动文摘(Automatic Summarization)和机器翻译(Machine Translation)等系统,能够帮助用户更为方便快捷准确地获得自己所需的内容。在这些系统中,自然语言都扮演着很重要的角色。比如在问答系统中,用户的问题都是通过自然语言的形式提出的,而如何能够让机器正确有效地理解这些问题就成了重中之重。

基于交互感知注意力机制神经网络的行为分类技术

Submitted by huzhenda on Sat, 08/04/2018 - 16:19

以往注意机制模型通过加权所有局部特征计算和提取关键特征,忽略了各局部特征间的强相关性,特征间存在较强的信息冗余。为解决此问题,来自美图云视觉技术部门和中科院自动化所的研发人员借鉴 PCA(主成分分析)思想,提出了一种引入局部特征交互感知的自注意机制模型,并将模型嵌入到 CNN 网络中,提出一个端到端的网络结构。该算法在多个学术数据集和美图公司内部工业界视频数据集上的行为分类表现都非常出色。基于该算法思想的相关论文「Interaction-aware Spatio-temporal Pyramid Attention Networks for Action Classification」已被 ECCV2018 收录,下文将从背景、核心思想、效果和应用前景几个方面进行介绍。

一、背景

深度卷积神经网络中,特征图里相邻空间位置的局部通道特征,往往由于它们的感受野重叠而具有很高的相关性。自注意机制模型通常利用每个局部特征内部元素的加权和(或其他函数)来获得其权重得分,此权重用于加权所有局部特征获取关键特征。尽管局部特征之间具有很高的相关性,但此权重计算并没有考虑到它们之间的相互作用。

从几篇顶会论文看「知识图谱」领域最新研究进展 | 解读 & 代码

Submitted by huzhenda on Sat, 08/04/2018 - 15:07

ISWC 2018

14.1

■ 链接 | http://www.paperweekly.site/papers/1912

■ 源码 | https://github.com/quyingqi/kbqa-ar-smcnn

■ 解读 | 吴桐桐,东南大学博士生,研究方向为自然语言问答

概述

随着近年来知识库的快速发展,基于知识库的问答系统(KBQA )吸引了业界的广泛关注。该类问答系统秉承先编码再比较的设计思路,即先将问题和知识库中的三元组联合编码至统一的向量空间,然后在该向量空间内做问题和候选答案间的相似度计算。该类方法简单有效,可操作性比较强,然而忽视了很多自然语言词面的原始信息。

理解过拟合

Submitted by huzhenda on Sat, 08/04/2018 - 11:07

导言

在进行有监督的机器学习建模时,一般假设数据独立同分布(i.i.d,independently and identically distributed)。即样本数据根据通过一个概率分布采样得到,而且这些样本相互之间独立。我们使用历史数据集去训练模型,使得损失函数最小化,然后用训练得到的模型去预测未知数据。如果一味追求让损失函数达到最小,模型就会面临过拟合问题,导致预测未知数据的效果变差。如何判断自己的模型是否训练正常?怎么解决过拟合问题?

小明的故事

小明是个机器学习爱好者,他很喜欢吃蛋糕。有一天他突然想到:能不能用蛋糕的直径来预测蛋糕的价格。于是他定了各种不同尺寸的蛋糕,然后把尺寸和价格的数据记录起来,接着使用回归函数来拟合这些训练数据。小明决定使用四次多项式:

13.1

和均方差损失函数:

图神经网络+池化模块,斯坦福等提出层级图表征学习

Submitted by huzhenda on Sat, 07/28/2018 - 16:23

图网络(GN)在深度学习短板即因果推理上拥有巨大潜力,很有可能成为机器学习领域的下一个增长点,而图神经网络(GNN)正属于图网络的子集。GNN 近期在图形分类任务上得到了当前最佳的结果,但其存在平面化的局限,因而不能将图形分层表征。现实应用中,很多图形信息都是层级表征的,例如地图、概念图、流程图等,捕获层级信息将能更加完整高效地表征图形,应用价值很高。在本文中,来自斯坦福等大学的研究者通过在 GNN 中结合一种类似 CNN 中空间池化的操作——可微池化,实现了图形的分层表征。该方法在大部分图形分类基准上都取得了当前最佳的表现,并在较简单的约束下就能自动捕获层级结构。

近年来人们开发图形神经网络的兴趣持续激增。图形神经网络即可以在如社交网络数据 [16,21,36] 或基于图形的分子表征 [7,11,15] 的图形结构数据上运行的一般的深度学习架构。GNN 一般是将底层图形作为计算图,通过在图上传递、转换和聚合节点特征信息学习神经网络基元以生成单个节点嵌入。生成的节点嵌入可以作为输入,用于如节点分类或连接预测的任何可微预测层,完整的模型可以通过端到端的方式训练。