![HuggingFace自然语言处理详解:基于BERT中文模型的任务实战](https://wfqqreader-1252317822.image.myqcloud.com/cover/707/52842707/b_52842707.jpg)
上QQ阅读APP看书,第一时间看更新
第3章 使用数据集工具
3.1 数据集工具介绍
在以往的自然语言处理任务中会花费大量的时间在数据处理上,针对不同的数据集往往需要不同的处理过程,各个数据集的格式差异大,处理起来复杂又容易出错。针对以上问题,HuggingFace提供了统一的数据集处理工具,让开发者在处理各种不同的数据集时可以通过统一的API处理,大大降低了数据处理的工作量。
登录HuggingFace官网,单击顶部的Datasets,即可看到HuggingFace提供的数据集,如图3-1所示。
![](https://epubservercos.yuewen.com/F2E9D4/31398179003058506/epubprivate/OEBPS/Images/Figure-P26_49100.jpg?sign=1738805439-OnthlAfbPy1gPsL2tCV1le2PPxfXPy6k-0-693baedde1de9e40018328e63f3608b4)
图3-1 HuggingFace数据集页面
在该界面左侧可以根据不同的任务类型、语言、体积、使用许可来筛选数据集,右侧为具体的数据集列表,其中有经典的glue、super_glue数据集,问答数据集squad,情感分类数据集imdb,纯文本数据集wikitext。
单击具体的某个数据集,进入数据集的详情页面,可以看到数据集的概要信息。以glue数据集为例,在详情页可以看到glue的各个数据子集的概要内容,每个数据子集的下方可能会有作者写的说明信息,如图3-2所示。
![](https://epubservercos.yuewen.com/F2E9D4/31398179003058506/epubprivate/OEBPS/Images/Figure-P27_49122.jpg?sign=1738805439-tNn0O7vCUEAjyRQVjOCi2EeXmohiKUUo-0-5bd254018a836d15f97935cf8fb0d7b1)
图3-2 数据集详情页面
不要担心,你不需要熟悉所有的数据集,这些数据集大多是英文的,本书重点关注中文的数据集。出于简单起见,本书只会使用几个简单的数据集来完成后续的实战任务,具体可参看接下来的代码演示。