文本相似度去重雷达
文本相似度去重雷达是 TATOOLS 提供的零代码在线工具,适合中文文本分析、学术研究、论文写作、舆情分析和内容处理场景。页面支持直接上传或输入材料,完成分析后生成结构化结果与可视化报告。
与「文本相似度计算」的区别
文本相似度计算侧重两两数值与排序,适合已知要对比哪些段落。本工具面向批量行级扫描:先聚类再列出成对句子。若选「同义改写嫌疑」,会在意思仍接近的前提下专门找措辞改动大的成对句子,并给出词级左右对照;若选「近似复制与合并」,则找高度同质、适合去重的句子。
两种模式共用同一套语义向量与场景预设;仅筛选区间与列表解读不同,计费一致。
找高度相似、适合去重合并的句子对;阈值通常 0.8+。
在语义仍接近的前提下,找用词差异大、适合人工抽查「洗稿」的句子对;阈值宜 0.55–0.80。
加载文件上传组件中...
数据准备建议
每一行视为一个独立样本;如果整篇文本没有分成至少两条有效内容,系统会按下方窗口自动切成句段。建议先使用“文本清洗”等工具,避免乱码影响效果。
180 字
仅在上传内容缺少有效分行或分段时触发;窗口越小,切出的句段越短。
根据文本来源选择预设,系统会自动调整分词、停用词和相似度置信区间。
适用于问卷开放题、用户评价,强化短句语义聚合能力。
保持专业术语,偏向格式统一的长文本分句去重。
自动识别账号、手机号等敏感信息并参与匹配。
适配错别字与口语化表达,召回更多弱相似文本。
82%
推荐:调研反馈 0.8,政策/公文 0.85。
3条
控制去重雷达中的最小聚类粒度,建议≥3以获得稳定的模式。
中文和双语材料通用,适合批量相似句段查找与重复合并。
适合语义检索和相似内容召回,可用于更宽泛的相似表达查找。
仅保留≥阈值+0.05的重复结果,保证结论高度一致。
兼顾召回与准确度,自动调节不同文档长度的影响。
尽可能捕捉表达不同但诉求一致的文本,适合用户洞察。
输入多个关键词用顿号或逗号分隔,将在雷达图中单独标注。
