阿里天池文本分类竞赛task1: 赛题理解
一.比赛背景 在本次Datawhale的竞赛当中,我们有一个具有20w条训练集,5w条测试集的数据集。整个数据集里面包含了各种分类不同的文本,每一个文本在训练集里都进行了标注label,这个label能够让我们知道训练集里面的句子是属于哪一个类别的数据。本次竞赛的文本分类一共有14个类别的数据,分别是:财经,彩票,房产,家居,教育,科技,社会,时尚,时政,体育,星座,游戏和娱乐。那么我们来看看数据集长啥样: 其中,在数据集中标签的对应的关系如下:{'科技': 0, '股票': 1, '体育': 2, '娱乐': 3, '时政': 4, '社会': 5, '教育': 6, '财经': 7, '家居': 8, '游戏': 9, '房产': 10, '时尚': 11, '彩票': 12, '星座': 13}。这个数据集我们打开只会看到我们text的数据,而不会看到每一条text所对应的label,这是因为在csv文件当中标注的label是不会显示出来的,我们需要将其使用pandas进行读入,然后再通过dataframe来查看这个文件,就可以看到训练集数据的label了! 二.测评指标 在本次比赛当中我们使用了f1_score的测评指标,什么是f1_scrore呢?我们来看看它的定义: 相当于f1_score就是精确率和召回率的一个调和均值,这个算法和物理当中求解电阻的方法非常相似