词汇增长曲线分析

词汇增长曲线分析是 TATOOLS 提供的零代码在线工具，适合中文文本分析、学术研究、论文写作、舆情分析和内容处理场景。页面支持直接上传或输入材料，完成分析后生成结构化结果与可视化报告。

使用前请读：词汇增长曲线 + Zipf 拟合

按 token 顺序逐段累计，给出 Heaps' Law 词汇增长曲线（V = K · N^β），以及高频词的 Zipf 分布（freq ∝ rank^-s）。 β 越小越「封闭」（用词稳定），越大越「开放」（不断引入新词）；s 自然语言一般在 1.0 附近。

多文件可分别拟合（默认）做横向对比，也可 合并拟合得到整批语料的整体规模感。中文按 jieba（词）/ 按字两挡可选；英文按 split + lowercase。

关于「停用词」：本工具的停用词 不会参与 Heaps / Zipf 拟合，只用于过滤报告里「Top 高频词」表格的展示——把「的、了、是、and、the」这类排在最前面但读起来没意义的功能词藏起来，让你更快看到真正有内容的词。
为什么不能在拟合时去掉？因为 Heaps 曲线里那张「公文 / 散文 / 新闻 / 百科」的对照带，以及 Zipf 的「自然语言区 s≈0.9–1.15」，全都是含停用词统计出来的；一旦把停用词扔掉， β 会假性偏高、s 会显著下降，对照图就全错位了。

⚠️ 极短文本（< 1000 tokens）拟合误差大，仅供参考；想要稳健结果建议每文件至少 1 万 token。

加载文件上传组件中...

文本语言

自动检测

中文

英文

自动模式按文中中英文字符占比判断；混排建议手动指定。

停用词与词性过滤

仅用于过滤报告里的 Top 高频词展示，不影响 Heaps 曲线、β、Zipf 指数 s、R² 等拟合结果。

使用系统停用词

使用自定义停用词

系统停用词与自定义停用词会取并集；关闭自定义停用词时会自动清空已上传文件。

使用词性过滤

切分单位

按词（中文 jieba / 英文 split）主流计量语言学默认

按字（中文按汉字 / 英文按字母）古文 / 字本位研究

Heaps 曲线采样步长每 100 token 记一次

步长越小曲线越精细但点越多；万字级语料用 100 即可，十万字级建议 500。

Zipf 拟合用前 N 个高频词5000 个

只用前 N 个高频词做 log-log 拟合，避免长尾低频词的统计噪声拉低 R²。

完成后发送邮件通知