
文档词频权重统计工具
批量分析文本文档的词频分布,支持TF-IDF和BM25权重计算
使用说明
使用说明
- 选择文件:点击选择按钮或直接拖拽TXT文本文件到上传区域
- 选择分析方法:
- 词频统计:统计每个词汇出现的次数(必选)
- TF-IDF权重:计算词汇的重要性权重
- BM25权重:使用BM25算法计算相关性得分
- 设置参数:
- 最小词长:过滤掉长度过短的词汇
- 显示数量:设置结果中显示的关键词数量
- 过滤选项:选择是否过滤停用词和标点符号
- 开始分析:点击"开始分析"按钮进行文本处理
- 查看结果:在结果表格中查看词频统计和权重计算结果
- 下载结果:点击下载按钮获取CSV格式的分析报告
常见问题
TF-IDF(词频-逆文档频率)是一种用于信息检索与数据挖掘的常用加权技术。它能够评估一个词对于一个文档集或语料库中某份文档的重要程度,数值越高表示该词越重要。
BM25是一种排序函数,用于评估查询词与文档的相关性。它是TF-IDF的改进版本,考虑了文档长度的影响,在信息检索领域被广泛应用,是搜索引擎的核心算法之一。
停用词是指在文本中频繁出现但对文本主题贡献较少的词汇,如"的"、"了"、"在"等。过滤停用词可以提高分析质量,突出真正有意义的关键词。
最小词长用于过滤过短的词汇。对于中文文本,建议设置为2,可以过滤掉单字词;对于英文文本,建议设置为3-4,可以过滤掉过短的单词。
词频表示词汇出现的次数;TF-IDF值越高表示该词在当前文档中越重要;BM25得分越高表示该词与查询的相关性越强。可以根据这些指标识别文档的关键主题。
目前仅支持TXT格式的纯文本文件。如果您有Word、PDF等格式的文档,请先将其转换为TXT格式再进行分析。
理论上没有数量限制,但受限于设备内存和性能。建议单次处理不超过100个文件,每个文件大小不超过10MB,以确保最佳分析效果和稳定性。