27-7

了解 TF-IDF 文档匹配算法吗

TF-IDF 的核心思想

TF-IDF 的核心思想可以用一句话概括:一个词语在一个文档中出现得越多,并且在所有文档中出现得越少,那么它对于该文档的区分度就越高,也就越重要

这个算法将一个词语的重要性分为两个部分来计算:

1. 词频

TF 表示一个词语在一个文档中出现的频率。计算公式通常是:

TF(t,d)=文档 d 中所有词语的总数词语 t 在文档 d 中出现的次数

  • 作用:衡量一个词语在当前文档中的重要性。一个词在文档中出现得越多,TF 值就越大,表明该词与该文档的相关性可能更高。

2. 逆文档频率(IDF, Inverse Document Frequency)

IDF 表示一个词语在整个文档集中出现的稀有程度。计算公式通常是:

IDF(t,D)=log(包含词语 t 的文档数+1文档总数 N)

这里的 +1 是为了防止分母为零,以避免对未出现的词语产生错误计算。

  • 作用:衡量一个词语在所有文档中的重要性。
    • 如果一个词语在很多文档中都出现,说明它是一个通用词(如“的”、“是”、“了”),它的 IDF 值就会很低,接近于0。
    • 如果一个词语只在很少的文档中出现,说明它是一个稀有词,它的 IDF 值就会很高。