词语搭配强度分析

词语搭配强度分析是 TATOOLS 提供的零代码在线工具，适合中文文本分析、学术研究、论文写作、舆情分析和内容处理场景。页面支持直接上传或输入材料，完成分析后生成结构化结果与可视化报告。

搭配 ≠ 共现：看的不是「在一起出现多少次」，而是「显著程度」

当你需要看一个词在你这批材料里"真正"和谁搭配—— 名词的典型修饰语、动词的典型宾语、品牌词在用户口中常被怎么形容、某个政策关键词在不同年份周围的形容词如何变化—— 把语料丢给本工具，它会替你算出每个候选搭配伙伴的"统计显著程度"，把"的、是、和"这类高频却没意义的功能词从前列剔除，让你一眼看到真正稳定的搭配。

基于语料库语言学经典的关联强度指标体系（PMI / MI3 / Log-likelihood / T-score / Z-score / Dice / LogDice 等 7 种主流统计量同时计算，可在结果里互相印证）： PMI 看"比偶然显著高多少"， Log-likelihood（Dunning 1993）对小样本最稳， T-score 偏向高频固定搭配， LogDice（SketchEngine 标准）对词典编纂友好。

典型用法： 词典编纂找搭配例句、政策/舆情看节点词周围的形容词随时间变化、品牌评论挖掘看用户在产品名旁反复用的修饰语、外语教学整理高频实义动词的典型宾语清单。

支持格式：.txt / .csv，单文件 ≤ 5 MB、最多 20 个文件；中英文均可，自动识别。 不太适合：单条短于 5 个字的弹幕 / 短评（统计量过低，结果不稳）。

两种使用模式： 填了 节点词 → 节点模式，每个节点出一份"它的显著搭配伙伴"清单；留空 → 全局模式，跑出整个语料里所有显著的二词组合。

本工具的输出常用于下一步的词共现网络、关键词抽取、 KWIC 索引，可以在对应的工具中继续处理（结果页底部会给出跳转入口）。

加载文件上传组件中...

节点词（可选；留空 → 全局模式跑出所有显著二词组合）

节点词数量越多，需要的语料就越大；建议一次 1-10 个，配合至少 1 万字的语料。

左窗口宽度5 词

节点词左边几个词内算"共现"。

右窗口宽度5 词

节点词右边几个词内算"共现"。

允许窗口跨句默认关闭：窗口在句号/换行处截断，更接近真实搭配关系。

最低共现次数3 次

过滤"只共现 1-2 次"的偶然搭配。短文本设 2-3，长文本可设 5-10。

文本语言

自动检测

中文

英文

关联强度指标

默认同时计算 7 种主流关联强度指标： PMI · MI3 · LL（Log-likelihood）· T-score · Z-score · Dice · LogDice。不同指标在挑选稀有词 / 高频固定搭配上的偏好不同，结果页里会一并展示，方便你互相印证。

停用词过滤

强烈建议开启：否则结果排行的最前列大概率会被「的、是、和、了、the、of、a」这类高频功能词淹没。

应用系统自带的中英文常用停用词（默认开启）

使用自定义停用词

完成后发送邮件通知