领域术语抽取

领域术语抽取是 TATOOLS 提供的零代码在线工具，适合中文文本分析、学术研究、论文写作、舆情分析和内容处理场景。页面支持直接上传或输入材料，完成分析后生成结构化结果与可视化报告。

使用前请读：术语抽取 ≠ 关键词抽取 ≠ 新词发现

术语抽取找的是多词、稳固、领域专有的术语单位 —— 「乡村振兴战略」「全面深化改革」「支持向量机」「量子纠缠态」。算法走语言学界标准的 C-value / NC-value（Frantzi & Ananiadou），基于词性序列模板 + 频次 + 嵌套惩罚，与 TF-IDF / TextRank 完全不同。

与现有工具的关系： 关键词抽取（extract-keywords）输出的是单词级关键词； 新词发现（find-new-words）走互信息 + 左右熵，找字符序列；本工具基于 jieba 词性序列挖掘多词术语，更适合论文 / 政策 / 行业语料。

上传语料

支持一篇或多篇 txt / csv。建议输入同一领域的语料，规模越大越能筛出真术语。

加载文件上传组件中...

使用自定义停用词

排序算法

C-value（更快）

NC-value（加上下文权重，更准但稍慢）

C-value：log₂(|a|) × (f(a) − 嵌套惩罚)；NC-value：0.8·C + 0.2·上下文加成。长语料 + 想要更稳定术语 → 用 NC-value；快速过一遍 → 用 C-value。

词性序列模板

仅对中文有效

名词+名词 (n+n)

形容词+名词 (a+n)

名+名+名 (n+n+n)

形+名+名 (a+n+n)

动词+名词 (v+n)

名+动+名 (n+v+n)

副+形+名 (d+a+n)

形+形+名 (a+a+n)

基于 jieba 粗颗粒词性：n=名词、a=形容词、v=动词、d=副词。英文走启发式词性，模板基本不影响结果。

最短词数2

最长词数5

最低出现次数3 次

多词术语长度通常 2 ~ 5 词；最低出现次数推荐 ≥ 3 抗噪，长语料可提到 5 ~ 10。

输出术语数 (Top N)200 个

文本语言

自动检测

中文

英文

候选首尾停用词过滤

开启（推荐）

候选术语首尾不能是停用词；上方通用停用词设置会一起生效。

完成后发送邮件通知