第3章使用数据集工具_HuggingFace自然语言处理详解：基于BERT中文模型的任务实战-QQ阅读男生中文轻小说网

上QQ阅读APP看书，第一时间看更新

第3章　使用数据集工具

在以往的自然语言处理任务中会花费大量的时间在数据处理上，针对不同的数据集往往需要不同的处理过程，各个数据集的格式差异大，处理起来复杂又容易出错。针对以上问题，HuggingFace提供了统一的数据集处理工具，让开发者在处理各种不同的数据集时可以通过统一的API处理，大大降低了数据处理的工作量。

登录HuggingFace官网，单击顶部的Datasets，即可看到HuggingFace提供的数据集，如图3-1所示。

图3-1　HuggingFace数据集页面

在该界面左侧可以根据不同的任务类型、语言、体积、使用许可来筛选数据集，右侧为具体的数据集列表，其中有经典的glue、super_glue数据集，问答数据集squad，情感分类数据集imdb，纯文本数据集wikitext。

单击具体的某个数据集，进入数据集的详情页面，可以看到数据集的概要信息。以glue数据集为例，在详情页可以看到glue的各个数据子集的概要内容，每个数据子集的下方可能会有作者写的说明信息，如图3-2所示。

图3-2　数据集详情页面

不要担心，你不需要熟悉所有的数据集，这些数据集大多是英文的，本书重点关注中文的数据集。出于简单起见，本书只会使用几个简单的数据集来完成后续的实战任务，具体可参看接下来的代码演示。

本周热推：