一文搞懂HMM(隐马尔可夫模型)

Submitted by shiwenbin on Fri, 07/21/2017 - 09:44
什么是熵(Entropy) 简单来说,熵是表示物质系统状态的一种度量,用它老表征系统的无序程度。熵越大,系统越无序,意味着系统结构和运动的不确定和无规则;反之,,熵越小,系统越有序,意味着具有确定和有规则的运动状态。熵的中文意思是热量被温度除的商。负熵是物质系统有序化,组织化,复杂化状态的一种度量。 熵最早来原于物理学. 德国物理学家鲁道夫·克劳修斯首次提出熵的概念,用来表示任何一种能量在空间中分布的均匀程度,能量分布得越均匀,熵就越大。 一滴墨水滴在清水中,部成了一杯淡蓝色溶液 热水晾在空气中,热量会传到空气中,最后使得温度一致 更多的一些生活中的例子: 熵力的一个例子是耳机线,我们将耳机线整理好放进口袋,下次再拿出来已经乱了。让耳机线乱掉的看不见的“力”就是熵力,耳机线喜欢变成更混乱。 熵力另一个具体的例子是弹性力。一根弹簧的力,就是熵力。 胡克定律其实也是一种熵力的表现。 万有引力也是熵力的一种(热烈讨论的话题)。 浑水澄清[1] 于是从微观看,熵就表现了这个系统所处状态的不确定性程度。香农,描述一个信息系统的时候就借用了熵的概念,这里熵表示的是这个信息系统的平均信息量(平均不确定程度)。

GPU加速深度学习

Submitted by pengkun on Fri, 07/21/2017 - 09:12
本文介绍了GPU用于深度学习(尤其是深度学习训练)加速的背景,使用了主流的开源深度学习框架在NVIDIA GPU上实测加速性能,并给出了一些使用建议。

【MIT计算机视觉预测城市衰落】下一个北上广在哪?人才比钱重要

Submitted by zhongzhimin on Thu, 07/20/2017 - 15:25
一个社区,一个城市的未来会发展成什么样?计算机视觉可以告诉我们答案。MIT 媒体实验室的研究员分析了160万组拍摄于不同年份的照片。使用比较的结果,研究者测试了几个社会科学中关于城市复兴的几个流行的假设。他们发现,受过高等教育的居民的数量、离城市商业中心的接近性、与其他有吸引力的社区的距离以及系统分配的初始完好评分与社区未来的实体条件的改善有着强烈的正相关。下一个大城市的兴起,受过高等教育的人才是关键因素。在中国,如果寻找下一个北上广,这是一个启示。

基于分布式的短文本命题实体识别之----人名识别(python实现)

Submitted by wangqingqing on Thu, 07/20/2017 - 14:18
目前对中文分词精度影响最大的主要是两方面:未登录词的识别和歧义切分。 据统计:未登录词中中文姓人名在文本中一般只占2%左右,但这其中高达50%以上的人名会产生切分错误。在所有的分词错误中,与人名有关的错误占到了将近90%,这中国人名都是根据人的想法起的名字,有很大的随意性,并且数量巨大,规律也不尽相同。

Microsoft COCO: Common Objects in Context(微软计算机视觉:基于场景的日常事物探测)

Submitted by like on Thu, 07/20/2017 - 09:48
We present a new dataset with the goal of advancing the state-of-the-art in object recognition by placing the question of object recognition in the context of the broader question of scene understanding. This is achieved by gathering images of complex everyday scenes containing common objects in their natural context. Objects are labeled using per-instance segmentations to aid in precise object localization. Our dataset contains photos of 91 objects types that would be easily recognizable by a 4 year old. With a total of 2.5 million labeled instances in 328k images, the creation of our dataset drew upon extensive crowd worker involvement via novel user interfaces for category detection, instance spotting and instance segmentation. We present a detailed statistical analysis of the dataset in comparison to PASCAL, ImageNet, and SUN. Finally, we provide baseline performance analysis for bounding box and segmentation detection results using a Deformable Parts Model.

详解基于朴素贝叶斯的情感分析及 Python 实现

Submitted by wukezhou on Thu, 07/20/2017 - 09:34
相对于「 基于词典的分析 」,「 基于机器学习 」的就不需要大量标注的词典,但是需要大量标记的数据,比如: 还是下面这句话,如果它的标签是: 服务质量 - 中 (共有三个级别,好、中、差) 然后你在输入一条评论,来判断标签级别 国庆活动,用62开头的信用卡可以6.2元买一个印有银联卡标记的冰淇淋, 有香草,巧克力和抹茶三种口味可选,我选的是香草口味,味道很浓郁。 另外任意消费都可以10元买两个马卡龙,个头虽不是很大,但很好吃,不是很甜的那种,不会觉得腻。 标签:服务质量 - 中 朴素贝叶斯 1、贝叶斯定理

商业公司应该如何配备数据分析团队?

Submitted by zhongzhimin on Wed, 07/19/2017 - 15:52
近期收到读者朋友的咨询,他们在建立开发部数据团队的过程中遇到困惑:在大老板的支持下,部门破天荒获得了组建专职数据团队支持开发部,然而新部门几乎没有工作成果,薪酬又高的吓人,几乎面临解散。 我认为如果没有正确的认知,这应该是未来主流的问题,这些传统行业赚的是辛苦钱,大老板能给钱给支持就要用好,本篇分享一些建议.

用python和Tesseract实现光学字符识别(OCR)

Submitted by wangqingqing on Wed, 07/19/2017 - 15:13
在上周的博客中我们学会了安装光学字符识别程序Tesseract,以及应用Tesseract程序来测试和评估OCR引擎在一小部分示例图像上的性能。 正如结果所示,当从背景中分离出前景文本时,Tesseract的效果最佳。实际上这是非常有挑战性的。因此,我们倾向于训练特定领域的图像分类器和识别器。然而,在我们将OCR应用于我们自己的项目之前,我们需要了解如何通过Python编程语言来实现Tesseract OCR。涉及OCR的示例项目可能包括构建一个移动文档扫描器,您希望从中提取文本信息,或者您正在运行扫描纸质医疗记录的服务,并且希望将信息放入符合HIPA的数据库。