领域术语抽取

领域术语抽取是 TATOOLS 提供的零代码在线工具,适合中文文本分析、学术研究、论文写作、舆情分析和内容处理场景。页面支持直接上传或输入材料,完成分析后生成结构化结果与可视化报告。
使用前请读:术语抽取 ≠ 关键词抽取 ≠ 新词发现

术语抽取找的是多词、稳固、领域专有的术语单位 —— 「乡村振兴战略」「全面深化改革」「支持向量机」「量子纠缠态」。 算法走语言学界标准的 C-value / NC-value(Frantzi & Ananiadou), 基于词性序列模板 + 频次 + 嵌套惩罚,与 TF-IDF / TextRank 完全不同。

与现有工具的关系: 关键词抽取(extract-keywords)输出的是单词级关键词; 新词发现(find-new-words)走互信息 + 左右熵,找字符序列; 本工具基于 jieba 词性序列挖掘多词术语, 更适合论文 / 政策 / 行业语料。

支持一篇或多篇 txt / csv。建议输入同一领域的语料,规模越大越能筛出真术语。

加载文件上传组件中...

C-value:log₂(|a|) × (f(a) − 嵌套惩罚);NC-value:0.8·C + 0.2·上下文加成。 长语料 + 想要更稳定术语 → 用 NC-value;快速过一遍 → 用 C-value。

基于 jieba 粗颗粒词性:n=名词、a=形容词、v=动词、d=副词。 英文走启发式词性,模板基本不影响结果。

2
5
3 次

多词术语长度通常 2 ~ 5 词;最低出现次数推荐 ≥ 3 抗噪,长语料可提到 5 ~ 10。

200 个

候选术语首尾不能是停用词;上方通用停用词设置会一起生效。