依存句法模式挖掘
依存句法模式挖掘是 TATOOLS 提供的零代码在线工具,适合中文文本分析、学术研究、论文写作、舆情分析和内容处理场景。页面支持直接上传或输入材料,完成分析后生成结构化结果与可视化报告。
使用前请读:跨语料挖掘的不是单句句法树,而是高频句法模式
这个工具回答的是「整片语料里反复出现的句法关系是什么」, 不是「这一句怎么解析」。后者请用「依存句法分析」(dependency)。
底层以本站的依存句法分析为基础, 先逐句解析得到句法树,再在整片语料上聚合统计高频模式,无需选择解析器。
四种模式类型各管一类问题:
依存三元组:所有 head → dep [关系],最直接的句法关系;
词性序列:句法骨架(n+v+n / a+n+n …),看"作者偏爱的句式";
动词论元框架:每个动词带的 nsubj / dobj / iobj 排列(比如「推动 + 什么宾语」);
修饰对:amod / nn / advmod 等修饰关系下"什么 + 什么"高频搭配。
填节点词聚焦某些词的高频模式(如"推动""加快"的论元); 不填则全语料挖掘。
⚠️ 仅推荐中文文本(含正确标点),英文也能跑但精度有限。 每句不超过 200 字,超长句会被跳过。
加载文件上传组件中...
填写节点词后,工具只输出与这些词相关的高频句法模式。开启自动节点词后,会先从整批语料中选出 Top 10 高频词再挖掘。
5 次
出现次数低于此值的模式不入选。语料越大可调越高(10-20)以滤噪。
100 个
报告内显示的模式数;CSV 也只导出 Top-N。
统一基于本站的依存句法分析能力,无需选择解析器。
开启后会先检查上传文本是否缺少句末标点、段落边界或存在超长行;不适合直接解析时自动切成较短片段,并在结果中说明处理原因。
强烈建议开启:否则「的、是、和、了、the、of、a」这类高频功能词会大量进入模式排行, 把真正有意义的句法搭配淹没。命中节点词的模式不受过滤影响(节点词永远保留)。
系统停用词与自定义停用词会取并集;关闭自定义停用词时会自动清空已上传文件。
