前言:最近写论文在celebA上训练之后,结果不错所以就在cifar-10数据继续训练数据集,但是在cifar-10官网上下载好数据之后,形式是:
上网上查了一下如何加载cifar-10的数据集,大神们各种方法都有,但是不是很懂里面原理,想想自己刚接触人工智能还是脚踏实地的分析一下,慢慢分析cifar-10的数据集吧, 所以以写一个小程序来实现cifar-10数据的读取,并且将其转化图像的形式放到不同类别的文件夹下。
程序主要实现的功能如下:
第一:把data_batch中的数据转化成numpy用来读取数据
第二:把data_batch数据按照类别存到不同的文件夹下面,仅仅只做了一张数据,下一篇将所有的数据都转化成图像并且分类
程序主要分成两步:
第一:使用pickle加载数据集,并按照关键字找到所需要的数据集
第二:将numpy转化成图像的形式
开始秀代码: 代码写的有点乱 可以简单封装一下 方法定义一个函数, 然后根据需要设置返回值cifar_image cifar_label cifar_image_name 其他的不需要修改
import pickle
import os
import numpy as np
import scipy.misc
from tqdm import tqdm
# 这段代码是cifar官网上给的 但是官网上给的解码方式是encoding='bytes'读数据会出问题 可以直接需改成encoding='latin1'
def unpickle(file):
with open(file, 'rb') as f:
cifar_dict = pickle.load(f, encoding='latin1')
return cifar_dict
# 定义用来存放图像数据 图像标签 图像名称list 最后返回的cifar_image cifar_label即是图像cifar-10 对应的数据和标签
tem_cifar_image = []
tem_cifar_label = []
tem_cifar_image_name = []
size = 64
for i in range(1, 6):
# 存放是你的文件对应的目录
cifar_file = "../Dataset/cifar-10/data_batch_" + str(i)
# print("确认一下目标文件是否正确",cifar_file)
cifar =unpickle(cifar_file)
# print("测试一下cifar的类型:", type(cifar), len(cifar['data']), cifar['batch_label'])
cifar_label = cifar['labels']
cifar_image = cifar['data']
cifar_image_name = cifar['filenames']
# 测试可知道cifar中存放四个信息 标签 图像的numpy数据 图像文件名称 batch_label
# print("测试一下cifar_image[0], cifar_label[0], cifar_image_name[0]",cifar_image[0], cifar_label[0],cifar_image_name[0])
# 使用transpose()函数是因为cifar存放的是图像标准是 通道数 高 宽 所以要修改成 高 宽 通道数
cifar_image = cifar_image.reshape(10000, 3, 32, 32).transpose(0, 2, 3, 1).astype("float")
cifar_image = np.asarray([scipy.misc.imresize(x_img, [size, size]) for x_img in cifar_image])
cifar_label = np.array(cifar_label)
cifar_image_name = np.array(cifar_image_name)
tem_cifar_image.append(cifar_image)
tem_cifar_label.append(cifar_label)
tem_cifar_image_name.append(cifar_image_name)
# 之所以把数据进行连接一维是因为 不连接成维的话 后面将numpy转化成图像的时候不方便
# 有兴趣的可以试一下 提示一下 不执行np.concatenate() tem_cifar_image_name的形状是:(5 10000)
cifar_image = np.concatenate(tem_cifar_image)
print("cifar_image",type(cifar_image))
cifar_label = np.concatenate(tem_cifar_label)
cifar_image_name = np.concatenate(tem_cifar_image_name)
print("长度cifar_label",len(cifar_image))
'''
print(cifar_label[1])
print(cifar_image_name[1])
print(cifar_image[1])
'''
# 装化成图像 单元测试通过 下一篇将怎么把这些cifar-10存成图像的形式
a = "samples/"
scipy.misc.toimage(cifar_image[1], cmin=0.0, cmax=1.0).save('%s.jpg'%(a+cifar_image_name[1]))
来源:CSDN
作者:YYLin-AI
链接:https://blog.csdn.net/qq_41776781/article/details/86668457