词语搭配强度分析
当你需要看一个词在你这批材料里"真正"和谁搭配—— 名词的典型修饰语、动词的典型宾语、品牌词在用户口中常被怎么形容、 某个政策关键词在不同年份周围的形容词如何变化—— 把语料丢给本工具,它会替你算出每个候选搭配伙伴的"统计显著程度", 把"的、是、和"这类高频却没意义的功能词从前列剔除,让你一眼看到真正稳定的搭配。
基于语料库语言学经典的关联强度指标体系(PMI / MI3 / Log-likelihood / T-score / Z-score / Dice / LogDice 等 7 种主流统计量同时计算,可在结果里互相印证): PMI 看"比偶然显著高多少", Log-likelihood(Dunning 1993)对小样本最稳, T-score 偏向高频固定搭配, LogDice(SketchEngine 标准)对词典编纂友好。
典型用法: 词典编纂找搭配例句、政策/舆情看节点词周围的形容词随时间变化、 品牌评论挖掘看用户在产品名旁反复用的修饰语、 外语教学整理高频实义动词的典型宾语清单。
支持格式:.txt / .csv,单文件 ≤ 5 MB、最多 20 个文件;中英文均可,自动识别。 不太适合:单条短于 5 个字的弹幕 / 短评(统计量过低,结果不稳)。
两种使用模式: 填了 节点词 → 节点模式,每个节点出一份"它的显著搭配伙伴"清单; 留空 → 全局模式,跑出整个语料里所有显著的二词组合。
本工具的输出常用于下一步的词共现网络、关键词抽取、 KWIC 索引,可以在对应的工具中继续处理(结果页底部会给出跳转入口)。
节点词数量越多,需要的语料就越大;建议一次 1-10 个,配合至少 1 万字的语料。
节点词左边几个词内算"共现"。
节点词右边几个词内算"共现"。
过滤"只共现 1-2 次"的偶然搭配。短文本设 2-3,长文本可设 5-10。
关联强度指标
默认同时计算 7 种主流关联强度指标: PMI · MI3 · LL(Log-likelihood)· T-score · Z-score · Dice · LogDice。 不同指标在挑选稀有词 / 高频固定搭配上的偏好不同,结果页里会一并展示,方便你互相印证。
强烈建议开启:否则结果排行的最前列大概率会被「的、是、和、了、the、of、a」这类高频功能词淹没。
