一种基于数据挖掘和可视化的电网事故关联原因回溯方法

Submitted by neurta on Sun, 02/09/2020 - 09:43
tf-idf

s12,将对决策有用的数据从数据集中提取出来形成数据样本;

s13, 利用数据挖掘的各种方法对数据样本进行挖掘,发现其中隐含的、对决策有用的数据或者数据间的相互关系;

数据挖掘分为包括六类功能:(1)自动预测趋势和行为;(2)关联分析;(3)分类:(4)聚类;(5)概念描述;(6)偏差检测;

为识别系统运行人、物、事(pi,pj)之间的关系,对clique关联图G中所有边上的关键词统计每个关键词在图中出现的边数;假设集合v中的某个关键词k在图中边上出现的词数为fqk,tf-idf(term frequency-inverse Document frequency)计算出的关键词权重wk,最终关键词k对于系统运行人、物、事的重要性为Weightk:

weightk=wk*fqk

关键词关键网络建立完成以后,需要对关联网络进行分析以发现系统运行人、物、事关系;表示系统运行人、物、事关系的关键词与系统运行人、物、事会存在频繁的共现关系,而且在关键词关联网络中处于核心的位置,通过图聚类的方式找到系统运行人、物、事关系;使用基于团clieque的图聚类方法,检测出关联网络中所有固定大小的clique;每个clique中包含若干个关键词,这些关键词在关联网络中都有边相连;在关键词关键网络建立以后,使用复杂网络分析工具networkx中的find——cliques()函数查找关键词关联网络中的所有clique;为利用识别出的clique挖掘系统运行人、物、事的关系词,构建clique之间的关联;关联网络中检测出的clique之间往往会存在共同的关键词;clique间的共同出现关键词组成集合v={w1,w2,...,wm},共包含m个关键词;以每个clique作为节点,clique之间的共现关键词为边的来建立clique关联图G;

 

tfidf代码

 

tfidf03