前言:因為研究工作的需要,要更改激活函數以適應自己的網絡模型,但是單純的函數替換會訓練導致不能收斂。這里還有些不清楚為什么,希望有人可以給出解釋。查了一些博客,發現了解決之道。下面將解決過程貼出來供大家指正。
1.背景
之前聽某位老師提到說tensorflow可以在不給梯度函數的基礎上做梯度下降,所以嘗試了替換。我的例子時將ReLU改為平方。即原來的激活函數是 現在換成
單純替換激活函數并不能較好的效果,在我的實驗中,迭代到一定批次,準確率就會下降,最終降為10%左右保持穩定。而事實上,這中間最好的訓練精度為92%。資源有限,問了對神經網絡頗有研究的同學,說是激活函數的問題,然而某篇很厲害的論文中提到其精度在99%,著實有意思。之后開始研究自己些梯度函數以完成訓練。
2.大概流程
首先要確定梯度函數,之后將其處理為tf能接受的類型。
2.1定義自己的激活函數
def square(x): return pow(x, 2)
2.2 定義該激活函數的一次梯度函數
def square_grad(x): return 2 * x
2.3 讓numpy數組每一個元素都能應用該函數(全局)
square_np = np.vectorize(square)square_grad_np = np.vectorize(square_grad)
2.4 轉為tf可用的32位float型,numpy默認是64位(全局)
square_np_32 = lambda x: square_np(x).astype(np.float32)square_grad_np_32 = lambda x: square_grad_np(x).astype(np.float32)
2.5 定義tf版的梯度函數
def square_grad_tf(x, name=None): with ops.name_scope(name, "square_grad_tf", [x]) as name: y = tf.py_func(square_grad_np_32, [x], [tf.float32], name=name, stateful=False) return y[0]
2.6 定義函數
def my_py_func(func, inp, Tout, stateful=False, name=None, my_grad_func=None): # need to generate a unique name to avoid duplicates: random_name = "PyFuncGrad" + str(np.random.randint(0, 1E+8)) tf.RegisterGradient(random_name)(my_grad_func) g = tf.get_default_graph() with g.gradient_override_map({"PyFunc": random_name, "PyFuncStateless": random_name}): return tf.py_func(func, inp, Tout, stateful=stateful, name=name)
2.7 定義梯度,該函數依靠上一個函數my_py_func計算并傳播
def _square_grad(op, pred_grad): x = op.inputs[0] cur_grad = square_grad(x) next_grad = pred_grad * cur_grad return next_grad
2.8 定義tf版的square函數
def square_tf(x, name=None): with ops.name_scope(name, "square_tf", [x]) as name: y = my_py_func(square_np_32, [x], [tf.float32], stateful=False, name=name, my_grad_func=_square_grad) return y[0]
新聞熱點
疑難解答