您的位置:首页 > 其它

TensorFlow官方文档中文版-笔记(二)

2017-11-02 16:42 375 查看

简单的Softmax Regression模型实现MNIST任务

首先下载MNIST数据集,下载下来的MNIST数据集被分成两部分:60000行的训练数据集(mnist.train)和10000行的测试数据集(mnist.test)。这样的切分很重要,在机器学习模型设计时必须有一个单独的测试数据集不用于训练而是用来评估这个模型的性能,从而更加容易把设计的模型推广到其他数据集上(泛化)。

正如前面提到的一样,每一个MNIST数据单元有两部分组成:一张包含手写数字的图片和一个对应的标签。我们把这些图片设为“xs”,把这些标签设为“ys”。训练数据集和测试数据集都包含xs和ys,比如训练数据集的图片是 mnist.train.images ,训练数据集的标签是 mnist.train.labels。

每一张图片包含28X28个像素点。我们可以用一个数字数组来表示这张图片:



我们把这个数组展开成一个向量,长度是 28x28 = 784。如何展开这个数组(数字间的顺序)不重要,只要保持各个图片采用相同的方式展开。

展平图片的数字数组会丢失图片的二维结构信息。这显然是不理想的,最优秀的计算机视觉方法会挖掘并利用这些结构信息,我们会在后续教程中介绍。但是在这个教程中我们忽略这些结构,所介绍的简单数学模型,softmax回归(softmax regression),不会利用这些结构信息。

因此,在MNIST训练数据集中,mnist.train.images 是一个形状为 [60000, 784] 的张量,第一个维度数字用来索引图片,第二个维度数字用来索引每张图片中的像素点。在此张量里的每一个元素,都表示某张图片里的某个像素的强度值,值介于0和1之间。

相对应的MNIST数据集的标签是介于0到9的数字,用来描述给定图片里表示的数字。为了用于这个教程,我们使标签数据是”one-hot vectors”。 一个one-hot向量除了某一位的数字是1以外其余各维度数字都是0。所以在此教程中,数字n将表示成一个只有在第n维度(从0开始)数字为1的10维向量。比如,标签0将表示成([1,0,0,0,0,0,0,0,0,0,0])。因此, mnist.train.labels 是一个 [60000, 10] 的数字矩阵。

# TensorFlow进阶1-简单MLP网络
import tensorflow as tf
from tensorflow.examples.tutorials.mnist import input_data

# Import data
mnist = input_data.read_data_sets("MNIST_data/", one_hot=True)


我们通过操作符号变量来描述这些可交互的操作单元,x不是一个特定的值,而是一个占位符placeholder,我们在TensorFlow运行计算时输入这个值。我们希望能够输入任意数量的MNIST图像,每一张图展平成784维的向量。我们用2维的浮点数张量来表示这些图,这个张量的形状是[None,784 ]。(这里的None表示此张量的第一个维度可以是任何长度的。)

# Step1 定义输入
# 创建新的InteractiveSession,使用这个命令会将session注册为默认的session,之后的运算默认跑在这个session里
sess = tf.InteractiveSession()
# 输入数据的地方,placeholder第一个参数是数据类型,第二个参数代表tensor的shape,即数据的尺寸(None代表不限条数的输入,784代表每条输入是一个784维的向量)
x = tf.placeholder(tf.float32, [None, 784])


我们的模型也需要权重值和偏置量,当然我们可以把它们当做是另外的输入(使用占位符),但TensorFlow有一个更好的方法来表示它们:Variable 。 一个Variable代表一个可修改的张量,存在在TensorFlow的用于描述交互性操作的图中。它们可以用于计算输入值,也可以在计算中被修改。对于各种机器学习应用,一般都会有模型参数,可以用Variable表示。

我们赋予tf.Variable不同的初值来创建不同的Variable:在这里,我们都用全为零的张量来初始化W和b。因为我们要学习W和b的值,它们的初值可以随意设置。

注意,W的维度是[784,10],因为我们想要用784维的图片向量乘以它以得到一个10维的证据值向量,每一位对应不同数字类。b的形状是[10],所以我们可以直接把它加到输出上面。

# Step2 定义算法公式softmax regression
# variable是用来存储模型参数的,在模型训练迭代中是持久化的,可以长期存在并且在每轮迭代中被更新
# 给softmax regression模型中的weights和biases创建variable对象
# 784是特征的维数,10代表有10类,因为label在独热编码后是10维的向量
W = tf.Variable(tf.zeros([784, 10]))
b = tf.Variable(tf.zeros([10]))


实现我们的模型,首先,我们用tf.matmul(​​X,W)表示x乘以W,这里x是一个2维张量拥有多个输入。然后再加上b,把和输入到tf.nn.softmax函数里面。

# 实现softmax regression算法,matmul是Tensorflow中的矩阵乘法函数
y = tf.nn.softmax(tf.matmul(x, W) + b)


至此,我们先用了几行简短的代码来设置变量,然后只用了一行代码来定义我们的模型。TensorFlow不仅仅可以使softmax回归模型计算变得特别简单,它也用这种非常灵活的方式来描述其他各种数值计算。

为了训练我们的模型,我们首先需要定义一个指标来评估这个模型是好的。其实,在机器学习,我们通常定义指标来表示一个模型是坏的,这个指标称为成本(cost)或损失(loss),然后尽量最小化这个指标。但是,这两种方式是相同的。

一个非常常见的,非常漂亮的成本函数是“交叉熵”(cross-entropy)。交叉熵产生于信息论里面的信息压缩编码技术,但是它后来演变成为从博弈论到机器学习等其他领域里的重要技术手段。

为了计算交叉熵,我们首先添加一个新的占位符y_用于输入正确值,然后计算交叉熵。

# Step3 定义损失函数cross-entropy
y_ = tf.placeholder(tf.float32, [None, 10])
cross_entropy = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(labels=y_, logits=y))
# cross_entropy = tf.reduce_mean(-tf.reduce_sum(y_* tf.log(y),reduction_indices=[1]))


在这里,我们要求TensorFlow用梯度下降算法(gradient descent algorithm)以0.5的学习速率最小化交叉熵。

# Step4 定义优化算法-SGD
train_step = tf.train.GradientDescentOptimizer(0.5).minimize(cross_entropy)


现在,我们已经设置好了我们的模型。在运行计算之前,我们添加一个操作来初始化我们创建的变量。

# 全局参数初始化
tf.global_variables_initializer().run()


然后开始训练模型,这里我们让模型循环训练1000次!该循环的每个步骤中,我们都会随机抓取训练数据中的100个批处理数据点,然后我们用这些数据点作为参数替换之前的占位符来运行train_step。

# 定义好优化算法后,Tensorflow就可以根据我们定义的整个计算图(即前面定义的各个公式)自动求导,并根据BP算法进行训练,在每轮迭代时更新参数来减小loss
# 以上BP和梯度下降操作由Tensorflow自动添加operation实现,给我们提供的就是一个封装好的优化器,只需要每轮迭代时feed数据给它就好
# Step5 迭代执行训练操作
# 每次随机从训练集中抽取出100条样本构成一个mini-batch,并feed给placeholder,然后调用train_step对这些样本进行训练
for _ in range(1000):
batch_xs, batch_ys = mnist.train.next_batch(100)
sess.run(train_step, feed_dict={x: batch_xs, y_: batch_ys})


首先让我们找出那些预测正确的标签。tf.argmax 是一个非常有用的函数,它能给出某个tensor对象在某一维上的其数据最大值所在的索引值。由于标签向量是由0,1组成,因此最大值1所在的索引位置就是类别标签,比如tf.argmax(y,1)返回的是模型对于任一输入x预测到的标签值,而 tf.argmax(y_,1) 代表正确的标签,我们可以用 tf.equal 来检测我们的预测是否真实标签匹配(索引位置一样表示匹配)。

Step6 验证模型准确率
# tf.argmax(y, 1)求各个预测的数字中概率最大的那个;tf.argmax(y_, 1)找样本的真实数字类别
correct_prediction = tf.equal(tf.argmax(y, 1), tf.argmax(y_, 1))


correct_prediction给我们一组布尔值。为了确定正确预测项的比例,我们可以把布尔值转换成浮点数,然后取平均值。例如,[True, False, True, True] 会变成 [1,0,1,1] ,取平均值后得到 0.75.

# tf.cast将之前输出的correct_prediction输出的bool值转换为float32,再求平均
accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32))


最后,我们计算所学习到的模型在测试数据集上面的正确率。

# 将测试数据的特征和Label输入评测流程accuracy,计算模型在测试机上的准确率,再将结果打印出来
print(sess.run(accuracy, feed_dict={x: mnist.test.images, y_: mnist.test.labels}))


准确度为92%!

完整代码如下:

# TensorFlow进阶1-简单MLP网络
import tensorflow as tf
from tensorflow.examples.tutorials.mnist import input_data

# Import data
mnist = input_data.read_data_sets("MNIST_data/", one_hot=True)

# Step1 定义输入
sess = tf.InteractiveSession()
x = tf.placeholder(tf.float32, [None, 784])

# Step2 定义算法公式softmax regression
W = tf.Variable(tf.zeros([784, 10]))
b = tf.Variable(tf.zeros([10]))
y = tf.nn.softmax(tf.matmul(x, W) + b)

# Step3 定义损失函数cross-entropy y_ = tf.placeholder(tf.float32, [None, 10]) cross_entropy = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(labels=y_, logits=y)) # cross_entropy = tf.reduce_mean(-tf.reduce_sum(y_* tf.log(y),reduction_indices=[1]))

# Step4 定义优化算法-SGD train_step = tf.train.GradientDescentOptimizer(0.5).minimize(cross_entropy)
tf.global_variables_initializer().run()

# Step5 迭代执行训练操作
for _ in range(1000):
batch_xs, batch_ys = mnist.train.next_batch(100)
sess.run(train_step, feed_dict={x: batch_xs, y_: batch_ys})

# Step6 验证模型准确率
correct_prediction = tf.equal(tf.argmax(y, 1), tf.argmax(y_, 1))
accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32))
print(sess.run(accuracy, feed_dict={x: mnist.test.images, y_: mnist.test.labels}))
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: