文本相似度去重雷达

文本相似度去重雷达是 TATOOLS 提供的零代码在线工具，适合中文文本分析、学术研究、论文写作、舆情分析和内容处理场景。页面支持直接上传或输入材料，完成分析后生成结构化结果与可视化报告。

与「文本相似度计算」的区别

文本相似度计算侧重两两数值与排序，适合已知要对比哪些段落。本工具面向批量行级扫描：先聚类再列出成对句子。若选「同义改写嫌疑」，会在意思仍接近的前提下专门找措辞改动大的成对句子，并给出词级左右对照；若选「近似复制与合并」，则找高度同质、适合去重的句子。

分析模式

两种模式共用同一套语义向量与场景预设；仅筛选区间与列表解读不同，计费一致。

近似复制与合并

找高度相似、适合去重合并的句子对；阈值通常 0.8+。

同义改写嫌疑

在语义仍接近的前提下，找用词差异大、适合人工抽查「洗稿」的句子对；阈值宜 0.55–0.80。

加载文件上传组件中...

数据准备建议

每一行视为一个独立样本；如果整篇文本没有分成至少两条有效内容，系统会按下方窗口自动切成句段。建议先使用“文本清洗”等工具，避免乱码影响效果。

自动分段窗口

180 字

仅在上传内容缺少有效分行或分段时触发；窗口越小，切出的句段越短。

分析场景

根据文本来源选择预设，系统会自动调整分词、停用词和相似度置信区间。

调研/问卷反馈

适用于问卷开放题、用户评价，强化短句语义聚合能力。

政策/公文段落

保持专业术语，偏向格式统一的长文本分句去重。

客服/投诉日志

自动识别账号、手机号等敏感信息并参与匹配。

社媒/论坛帖子

适配错别字与口语化表达，召回更多弱相似文本。

相似度阈值

82%

推荐：调研反馈 0.8，政策/公文 0.85。

重复聚类最小样本数

3条

控制去重雷达中的最小聚类粒度，建议≥3以获得稳定的模式。

语义向量模型

默认语义向量

中文和双语材料通用，适合批量相似句段查找与重复合并。

BGE-M3

适合语义检索和相似内容召回，可用于更宽泛的相似表达查找。

去重策略

保守去重

仅保留≥阈值+0.05的重复结果，保证结论高度一致。

均衡去重

兼顾召回与准确度，自动调节不同文档长度的影响。

召回优先

尽可能捕捉表达不同但诉求一致的文本，适合用户洞察。

希望重点跟踪的主题（可选）

输入多个关键词用顿号或逗号分隔，将在雷达图中单独标注。

完成后发送邮件通知