与处理整个数据集相反的另一个极端是每次只处理一条记录,这种方法也不科学,一次处理一条记录无法充分发挥 GPU 和 NumPy 的平行处理优势。
因此,在实际使用中往往采用批量处理(Mini-Batch)的方法。
如何把大数据拆分成多个批次呢?可采用如下步骤:
- 得到数据集
- 随机打乱数据
- 定义批大小
- 批处理数据集
下面我们通过一个示例来具体说明:
import numpy as np #生成10000个形状为2X3的矩阵 data_train = np.random.randn(2000, 2, 3) #这是一个3维矩阵, 第1个维度为样本数, 后两个是数据形状 print(data_train.shape) #(10000,2,3) #打乱这10000条数据 np.random.shuffle(data_train) #定义批量大小 batch_size=100 #进行批处理 for i in range(0,len(data_train),batch_size): x_batch_sum=np.sum(data_train[i:i+batch_size]) print("第{}批次,该批次的数据之和:{}".format(i,x_batch_sum))
运行结果:
(2000, 2, 3)
第0批次,该批次的数据之和:-9.308741645955498
第100批次,该批次的数据之和:32.35559294218453
第200批次,该批次的数据之和:-11.861583953891046
第300批次,该批次的数据之和:17.96593793982428
第400批次,该批次的数据之和:-42.80131768606121
第500批次,该批次的数据之和:-9.716756691902336
第600批次,该批次的数据之和:-19.48607669927781
第700批次,该批次的数据之和:3.486042861593658
第800批次,该批次的数据之和:-14.28531351734479
第900批次,该批次的数据之和:-32.96999579309573
第1000批次,该批次的数据之和:-0.7251674142801512
第1100批次,该批次的数据之和:7.5213947548894575
第1200批次,该批次的数据之和:-10.215508100326279
第1300批次,该批次的数据之和:-12.18791584939293
第1400批次,该批次的数据之和:-29.792363766913127
第1500批次,该批次的数据之和:8.767114966381298
第1600批次,该批次的数据之和:-4.908531806928961
第1700批次,该批次的数据之和:-7.523182605046644
第1800批次,该批次的数据之和:5.147548514201093
第1900批次,该批次的数据之和:41.036640967932996
说明:批次从 0 开始,所以最后一个批次是 1900。
原创文章,作者:奋斗,如若转载,请注明出处:https://blog.ytso.com/tech/pnotes/23608.html