一种基于图像分割及动态阈值的字幕提取方法

Submitted by neurta on Sat, 02/08/2020 - 08:51
字幕提取

随着字幕技术以及视频播放软件的发展,字幕与视频的结合方式也分为三种:外挂字幕、内挂字幕和内嵌字幕。

包括步骤:s1、遍历视频内某一时段含字幕的视频帧,做轮廓查找和划定轮廓外部矩形边界的操作;s2、分析矩形边界的特征,获取字幕区域的位置;s3、取定间隔的视频帧,对所述字幕区域进行图像分割;S4、对分割后的图形进行灰度化处理,根据灰度图像的像素直方分布获取二值化的动态阈值;S5、基于前序步骤中获得的动态阈值进行图像二值化操作,突出字幕图形,消除噪声像素点;S6、根据所述的动态阈值以及二值化图像进行判断,对不包含字幕的图像进行忽略,仅对包含字幕的图像进行字符识别;s7、汇总识别结果去重去冗;最终获得按时间排序的字幕文本文件

过滤是基于GrabCut算法实现。如公式

E(α,k,θ,z)=U(α,k,θ,z)+V(α,z)

能量函数依赖与高斯混合模型的组件参数k,其中数据项U需要参用颜色值的高斯混合模型,其定义如公式(2)所示,公式(2)中的函数D如公式(3)所示,其中函数p是高斯概率分布,函数Π是混合的加权系数

U(α,k,θ,z)=∑D(α,k,θ,z)

正确率=正确识别字符数/字幕包含字符数

Π代表权重,μ代表均值,∑代表协方差