
文章抄袭检测工具
专业的在线文本相似度检测工具,支持多种算法检测文本重复率和相似度。
工具使用
智能文本相似度检测器
基于多种AI算法的专业文本相似度分析工具
余弦相似度
Jaccard系数
最长公共子序列
N-gram匹配
编辑距离
语义相似度
📄 拖拽文件到此处上传
📄 拖拽文件到此处上传
🔧 检测参数设置
📊 检测结果
正在进行文本相似度分析...
使用说明
软件使用说明
- 输入文本内容:在左侧"原始文本"框中输入参考文本,在右侧"对比文本"框中输入待检测文本。也可以通过点击"选择文件上传"按钮上传txt格式的文本文件。
- 选择检测算法:在参数设置面板中选择需要使用的相似度检测算法:
- 余弦相似度:基于向量空间模型的相似度计算
- Jaccard系数:集合交并比的相似度度量
- 最长公共子序列:动态规划算法计算序列相似性
- N-gram匹配:基于字符/词汇片段的匹配算法
- 编辑距离:字符串编辑操作的距离度量
- 语义相似度:基于词向量的语义理解算法
- 调整检测参数:
- 相似度阈值:设置相似度判定的百分比阈值(0-100%)
- N-gram长度:设置N-gram算法的字符片段长度
- 最小匹配长度:设置最小匹配字符数
- 忽略选项:选择是否忽略标点符号和大小写
- 语言模式:选择中文、英文或中英混合模式
- 批量文件处理:支持同时上传多个txt文件进行批量检测,界面显示前20个文件,但会处理所有上传的文件。
- 开始检测:点击"开始检测"按钮,系统将使用选定的算法对文本进行相似度分析。
- 查看结果:检测完成后查看详细的相似度报告,包括各算法的检测结果和可视化图表。
- 导出结果:点击"导出结果"按钮,将检测报告和原始数据打包下载为ZIP文件。
常见问题
答:每种算法的计算原理不同,余弦相似度关注词频分布,Jaccard系数关注词汇重合度,LCS算法关注字符序列,N-gram关注片段匹配,编辑距离关注字符修改成本,语义相似度关注语义理解。建议综合多种算法结果进行判断。
答:阈值设置建议:70%以上表示高度相似,50-70%表示中等相似,30-50%表示低度相似,30%以下表示基本不相似。学术检测建议设置60-70%,内容原创性检测建议设置40-50%。
答:N-gram长度影响检测精度:长度2-3适合检测字符级相似性,长度4-5适合检测词汇级相似性,长度6-8适合检测短语级相似性。中文文本建议使用3-4,英文文本建议使用4-5。
答:不会。所有文本相似度检测都在您的设备本地完成,文本内容和文件都不会上传到服务器,完全保护您的数据隐私和安全。
答:目前支持TXT格式的纯文本文件。建议将Word、PDF等格式的文档先转换为TXT格式,或直接复制文本内容到输入框中进行检测。
答:文本相似度检测需要消耗计算资源。建议:1)减少同时使用的算法数量;2)将长文本分段检测;3)单次检测文本长度控制在10万字符以内;4)关闭其他占用内存的程序。
答:导出的ZIP文件包含:相似度检测报告.txt(人类可读的详细报告)和检测数据.json(机器可读的结构化数据)。报告包含各算法的相似度百分比、平均值、详细描述等信息。