term frequency-inverse document frequency

NLP自然语言处理tf-idf 三个基本应用【更新中】

Submitted by neurta on Sat, 05/11/2019 - 14:16
任务三:如何通过词频,对文章进行自动摘要 信息都包含在句子中,有些句子包含的信息多,有些句子包含的信息少。 "自动摘要"就是要找出那些包含信息最多的句子。 句子的信息量用"关键词"来衡量。如果包含的关键词越多,就说明这个句子越重要。 Luhn提出用"簇"(cluster)表示关键词的聚集。所谓"簇"就是包含多个关键词的句子片段。