資料集內容¶

共 552 張圖片
未區分訓練集及測試集
以 png 格式儲存

NSYSU digits examples

資料來源¶

來自學生小考考卷
課前詢問學生是否同意以匿名方式貢獻資料
由研究助理加標籤
公開在 GitHub: SageLabTW/auto-grading.git [ LICENSE ]

資料前處理¶

每張圖大小為 28x28
數字大小不一致
白 0 ~ 255 黑（顏色偏淺）
未置中

MNIST 訓練、NSYSU-digits 測試¶

random: ~10%
ink: 6%
kNN: 13% (1 minutes)
linear: 21%
SVM: 27% (5 minutes)
NN: 28%
CNN: 44% (one epoch) ~ 58%

Les Misérables

(Source: Wikipedia of Les Misérables (musical)
Details of copyright)

悲慘世界

In [ ]:

### convolution neural network
model = tf.keras.models.Sequential()
model.add(tf.keras.layers.Conv2D(32, kernel_size=(3, 3), 
                                 activation='relu', 
                                 input_shape=(28, 28, 1)))
model.add(tf.keras.layers.Conv2D(64, (3, 3), activation='relu'))
model.add(tf.keras.layers.MaxPool2D(pool_size=(2, 2)))
model.add(tf.keras.layers.Dropout(0.25))
model.add(tf.keras.layers.Flatten())
model.add(tf.keras.layers.Dense(128, activation='relu'))
model.add(tf.keras.layers.Dropout(0.5))
model.add(tf.keras.layers.Dense(10, activation='softmax'))

model.compile(loss='categorical_crossentropy', 
              optimizer='adam', 
              metrics=['accuracy'])
model.fit(Xcnn_train, yone_train, epochs=1, batch_size=100, validation_data=(Xsyscnn, ysysone))

NSYSU-digits 3/4 訓練、1/4 測試¶

random: ~10%
ink: 19%
kNN: 45%
linear: 34%
SVM: 52%
NN: 25%
CNN: 32% (one epoch) ~ 75%

In [ ]:

### convolution neural network
model = tf.keras.models.Sequential()
model.add(tf.keras.layers.Conv2D(32, kernel_size=(3, 3), 
                                 activation='relu', 
                                 input_shape=(28, 28, 1)))
model.add(tf.keras.layers.Conv2D(64, (3, 3), activation='relu'))
model.add(tf.keras.layers.MaxPool2D(pool_size=(2, 2)))
model.add(tf.keras.layers.Dropout(0.25))
model.add(tf.keras.layers.Flatten())
model.add(tf.keras.layers.Dense(128, activation='relu'))
model.add(tf.keras.layers.Dropout(0.5))
model.add(tf.keras.layers.Dense(10, activation='softmax'))

model.compile(loss='categorical_crossentropy', 
              optimizer='adam', 
              metrics=['accuracy'])
model.fit(Xsyscnn_train, ysysone_train, epochs=20, batch_size=100, validation_data=(Xsyscnn_test, ysysone_test))

整體比較（準確率 in %）¶

	M to M	M to N	N to N
random	10	10	10
ink	22	6	19
kNN	98.8	13	45
linear	88	21	34
SVM	97	27	52
NN	92	28	25
CNN	97	44	32

M: MNIST
N: NSYSU-digits

資料科學的用意不只在於使用模型
更重要的是在結果不如預期的時候了解可能的原因

我們與數字辨識的距離¶