场景文字检测—CTPN原理与实现

Submitted by donghonglin on Tue, 04/24/2018 - 11:14
对于复杂场景的文字识别,首先要定位文字的位置,即文字检测。这一直是一个研究热点。 Detecting Text in Natural Image with Connectionist Text Proposal Network 是在ECCV 2016中提出的一种场景文本算法,作者Zhi Tian等。 CTPN结合CNN与LSTM深度网络,能有效的检测出复杂场景的横向分布的文字,效果如图1,是目前比较好的文字检测算法。

树回归

Submitted by donghonglin on Tue, 04/24/2018 - 10:15

CART

CART是一种二分递归分割的技术,分割方法采用基于最小距离的基尼指数估计函数,将当前的样本集分为两个子样本集,使得生成的的每个非叶子节点都有两个分支。因此,CART算法生成的决策树是结构简洁的二叉树。

分类树是针对目标变量是离散型变量,通过二叉树将数据进行分割成离散类的方法。而回归树则是针对目标变量是连续性的变量,通过选取最优分割特征的某个值,然后数据根据大于或者小于这个值进行划分进行树分裂最终生成回归树。

特征和最佳分割点的选取

在使用决策树解决回归问题中我们需要不断的选取某一特征的一个值作为分割点来生成子树。选取的标准就是使得被分割的两部分数据能有最好的纯度。

  • 对于离散型数据我们可以通过计算分割两部分数据的基尼不纯度的变化来判定最佳分割点;
  • 对于连续性变量我们通过计算最小平方残差,也就是选择使得分割后数据方差变得最小的特征和分割点。直观的理解就是使得分割的两部分数据能够有最相近的值。

树分裂的终止条件

有了选取分割特征和最佳分割点的方法,树便可以依此进行分裂,但是分裂的终止条件是什么呢?

Tags

深度学习也可以取悦女友

Submitted by donghonglin on Mon, 04/23/2018 - 10:49

深度学习目前在图像处理领域有着非常好的应用和研究,在医学领域可以用它在极早期判断癌症;在安防领域,可以用它来快速检索目标任务,进行可疑或危险人物的检测与抓捕;在金融领域,可以较好的分析风险风控等。

但是今天不说这么深奥的知识,我们今天来说的是一个能有程序取悦我们女朋友的“黑科技”!这一招叫艺术风格变换,就是你点击一下,就可以把你女朋友的大头照换成一个毕加索的后现代艺术作品(当然是取代还是找打要看你的艺术品位)。

艺术风格迁移是一个古老而现代的主题 ,多少艺术家为了描摹他人作品而竞折腰。在出现了深度学习之后,通过简单的训练就可以完成这个简单的任务,接下来,说说何玩转基于神经网络的风格迁移。

其实风格迁移就是把一张图片的内容和另一个图片的风格进行合成的一个方法,比如说你给出一个猫的图片和一个梵高的自画像,就可以生成一只梵高画像版本的猫。

在深度学习没有应用在该领域之前,机器视觉的工程师就尝试用各种滤镜提取图像的纹理信息或者用传统的机器学习方法提取,得到的纹理特征再经过某些变换放回到原始图片中,就得到了一个新的风格图片。

深度学习所作的事情,是把整个过程自动化智能化了。我们利用卷积网络的深层结构去提取图片的信息,来替代之前的各种滤镜或机器学习方法。 

基于强化学习开发人机对弈五子棋游戏

Submitted by donghonglin on Mon, 04/23/2018 - 09:25
今天通过一个实例来具体讲解状态空间、价值函数等概念,例子是编写一个可以人机对弈的五子棋程序。由于完整的棋盘导致状态空间太大,个人PC一时难以训练,因此这里我们使用的是5*5大小的棋盘。加入两个玩家的棋子为X和O,那么赢的情况就是: 同一行或者同一列的棋子相同; 正对角线或反对角线的棋子相同。

语义分割中的弱监督学习

Submitted by donghonglin on Sat, 04/21/2018 - 15:58
我们所关注的弱监督问题是指为实现某个计算机视觉任务,采用了比该任务更弱的一种人工标注作为监督信息。一般来讲,这种弱监督的标注比原始的标注更容易获取。例如,对于目标检测任务,image-level(图像层面)的标签相比物体的bounding box是一种弱监督的标注;对于语义分割任务,image-level的标签和物体的bounding box相比pixel-level(像素层面)的标签则是一种弱监督的标注。

详解计算机视觉五大技术:图像分类、对象检测、目标跟踪、语义分割和实例分割

Submitted by donghonglin on Sat, 04/21/2018 - 13:14
什么是计算机视觉呢? 这里给出了几个比较严谨的定义: ✦ “对图像中的客观对象构建明确而有意义的描述”(Ballard&Brown,1982) ✦ “从一个或多个数字图像中计算三维世界的特性”(Trucco&Verri,1998) ✦ “基于感知图像做出对客观对象和场景有用的决策”(Sockman&Shapiro,2001)

稀疏&集成的卷积神经网络学习

Submitted by donghonglin on Thu, 04/19/2018 - 16:19
目标识别是指用计算机实现人的视觉功能,它的研究目标就是使计算机具有从一幅或多幅图像或者是视频中认知周围环境的能力(包括对客观世界三维环境的感知、识别与理解)。目标识别作为视觉技术的一个分支,就是对视场内的物体进行识别,如人或交通工具,先进行检测,检测完后进行识别,然后分析他们的行为。