nlp语义分析技术(为中文NLP模型定制的自然语言理解基准)
nlp语义分析技术(为中文NLP模型定制的自然语言理解基准)3、详见:基准模型-模型训练 c. 运行各个模型文件夹下的 run_classifier.sh 即可sh run_classifier.sh2、训练模型a. 将预训练模型下载解压到对应的模型中 prev_trained_model 文件夹里。以 bert 和 albert 为例子: ``` a1. albert ``` ```https://github.com/brightmart/albert_zh ``` ```a1. bert ``` ```https://github.com/google-research/bert ``` b. 修改 run_classifier.sh 指定模型路径
基线模型代码
1、数据集整体下载,解压到 glue 文件夹里
cd gluewget https://storage.googleapis.com/chineseglue/chineseGLUEdatasets.v0.0.1.zip
lcqmc 数据集,请从以下链接申请或搜索网络 :http://icrc.hitsz.edu.cn/info/1037/1146.htm
2、训练模型
a. 将预训练模型下载解压到对应的模型中 prev_trained_model 文件夹里。以 bert 和 albert 为例子:
``` a1. albert ``` ```https://github.com/brightmart/albert_zh ``` ```a1. bert ``` ```https://github.com/google-research/bert ```
b. 修改 run_classifier.sh 指定模型路径
c. 运行各个模型文件夹下的 run_classifier.sh 即可sh run_classifier.sh
3、详见:基准模型-模型训练
https://github.com/chineseGLUE/chineseGLUE/tree/master/baselines
语料库:语言建模、预训练或生成型任务
可用于语言建模、预训练或生成型任务等,数据量超过 10G,主要部分来自于 nlp_chinese_corpus 项目。
当前语料库按照【预训练格式】处理,内含有多个文件夹;每个文件夹有许多不超过 4M 大小的小文件,文件格式符合预训练格式:每句话一行,文档间空行隔开。
包含如下子语料库(总共 14G 语料):
- 新闻语料: 8G 语料,分成两个上下两部分,总共有 2000 个小文件。
- 社区互动语料:3G 语料,包含 3G 文本,总共有 900 多个小文件。
- 维基百科:1.1G 左右文本,包含 300 左右小文件。
- 评论数据:2.3G 左右文本,含有 811 个小文件,合并 ChineseNLPCorpus 的多个评论数据,清洗、格式转换、拆分成小文件。
可以通过上面这两个项目,清洗数据并做格式转换获得语料;也可以通过邮件申请获得单个项目的语料。