词汇增长曲线分析
词汇增长曲线分析是 TATOOLS 提供的零代码在线工具,适合中文文本分析、学术研究、论文写作、舆情分析和内容处理场景。页面支持直接上传或输入材料,完成分析后生成结构化结果与可视化报告。
使用前请读:词汇增长曲线 + Zipf 拟合
按 token 顺序逐段累计,给出 Heaps' Law 词汇增长曲线(V = K · Nβ), 以及高频词的 Zipf 分布(freq ∝ rank-s)。 β 越小越「封闭」(用词稳定),越大越「开放」(不断引入新词);s 自然语言一般在 1.0 附近。
多文件可分别拟合(默认)做横向对比,也可 合并拟合得到整批语料的整体规模感。中文按 jieba(词)/ 按字两挡可选;英文按 split + lowercase。
关于「停用词」:本工具的停用词 不会参与 Heaps / Zipf 拟合, 只用于过滤报告里「Top 高频词」表格的展示——把「的、了、是、and、the」这类排在最前面但读起来没意义的功能词藏起来, 让你更快看到真正有内容的词。
为什么不能在拟合时去掉?因为 Heaps 曲线里那张「公文 / 散文 / 新闻 / 百科」的对照带, 以及 Zipf 的「自然语言区 s≈0.9–1.15」,全都是含停用词统计出来的;一旦把停用词扔掉, β 会假性偏高、s 会显著下降,对照图就全错位了。
⚠️ 极短文本(< 1000 tokens)拟合误差大,仅供参考;想要稳健结果建议每文件至少 1 万 token。
加载文件上传组件中...
自动模式按文中中英文字符占比判断;混排建议手动指定。
仅用于过滤报告里的 Top 高频词展示,不影响 Heaps 曲线、β、Zipf 指数 s、R² 等拟合结果。
系统停用词与自定义停用词会取并集;关闭自定义停用词时会自动清空已上传文件。
每 100 token 记一次
步长越小曲线越精细但点越多;万字级语料用 100 即可,十万字级建议 500。
5000 个
只用前 N 个高频词做 log-log 拟合,避免长尾低频词的统计噪声拉低 R²。
