语料对比关键词分析

语料对比关键词分析是 TATOOLS 提供的零代码在线工具,适合中文文本分析、学术研究、论文写作、舆情分析和内容处理场景。页面支持直接上传或输入材料,完成分析后生成结构化结果与可视化报告。
使用前请读:keyness 不是单纯找高频词

需要 两组语料:上面是目标语料(你想分析的那一份), 下面是参考语料(拿来作对比的"普通文本")。 工具会自动找出"在目标里反复出现、但在参考里少见"的词 (过度代表,俗称"目标语料的特征词"), 以及反过来"目标里少见、参考里却常见"的词 (不足代表,目标语料"刻意避开"的话题)。

实际能拿来做什么:

  • 市场 / 品牌:自家品牌评论 vs 行业评论 → 看用户嘴里反复提到的卖点和槽点,作为投放文案、客服话术、产品迭代的输入。
  • 政策 / 舆情:政府公文 / 政策文本 vs 通用新闻 → 看本期文件强调了哪些新提法、淡化了哪些旧表述,沉淀政策口径变化时间线。
  • 研究 / 学术:A 作者 vs B 作者、A 期刊 vs B 期刊、医学文献 vs 通用语料 → 提取学科术语、写作风格、专业表达,可直接用作论文「关键词」「术语表」素材。
  • 内容运营:自家公众号 / 自媒体 vs 全网通用语料 → 看自己的内容标签是不是过窄或过时,反向指导选题。
  • 客服 / 售后:投诉工单 vs 普通对话 → 找出投诉里反复出现的问题词,作为质检 / 培训重点。

只有一组语料时改用「高频词提取」或「关键词抽取」即可。

目标语料(你想分析的那一份)

支持一篇或多篇 txt / csv,自动按句切词后统计词频。

加载文件上传组件中...

参考语料(拿来对比的"普通文本")

上传 txt 文件,或直接把整段参考文本贴到下方文本框;不需要任何额外的内置词频表。

加载文件上传组件中...

建议提供 至少 5 万字 的参考语料,才有足够的统计稳健性;越大越好。

没有参考语料?一键填入下面的示例文本(仅作演示,真实分析请用更大语料)

点击后会自动切换到「直接输入参考文本」模式,并把示例文本填入文本框,可在此基础上修改。

默认同时计算并展示三种关键性统计量: Log-likelihood(Dunning 1993,主流首选)、 Chi-squareLog-ratio(Hardie 2014)。 LL 与 χ² 偏向高频词;log-ratio 更突出"差异倍数"。 报告里三种统计量会分别给出 Top N 条形图,详情表也支持按任一统计量排序。

5 次

过滤"在目标里只出现 1-2 次"的词,避免低频噪声。短文本可调到 2-3,长文本建议 5-10。

200 个

报告分别保留 N 个过度代表词 + N 个不足代表词。

强烈建议开启:否则关键词排行的最前列大概率会被「的、是、和、了、the、of、a」这类高频功能词淹没。 目标语料与参考语料会同步使用这套停用词,保证 keyness 统计前后一致。

系统停用词与自定义停用词会取并集;关闭自定义停用词时会自动清空已上传文件。