tensorflow自定義激活函數實例

2020-02-15 21:25:18

字體：大中小

來源：轉載

供稿：網友

前言：因為研究工作的需要，要更改激活函數以適應自己的網絡模型，但是單純的函數替換會訓練導致不能收斂。這里還有些不清楚為什么，希望有人可以給出解釋。查了一些博客，發現了解決之道。下面將解決過程貼出來供大家指正。

1.背景

之前聽某位老師提到說tensorflow可以在不給梯度函數的基礎上做梯度下降，所以嘗試了替換。我的例子時將ReLU改為平方。即原來的激活函數是現在換成

單純替換激活函數并不能較好的效果，在我的實驗中，迭代到一定批次，準確率就會下降，最終降為10%左右保持穩定。而事實上，這中間最好的訓練精度為92%。資源有限，問了對神經網絡頗有研究的同學，說是激活函數的問題，然而某篇很厲害的論文中提到其精度在99%，著實有意思。之后開始研究自己些梯度函數以完成訓練。

2.大概流程

首先要確定梯度函數，之后將其處理為tf能接受的類型。

2.1定義自己的激活函數

def square(x): return pow(x, 2)

2.2 定義該激活函數的一次梯度函數

def square_grad(x): return 2 * x

2.3 讓numpy數組每一個元素都能應用該函數（全局）

square_np = np.vectorize(square)square_grad_np = np.vectorize(square_grad)

2.4 轉為tf可用的32位float型，numpy默認是64位（全局）

square_np_32 = lambda x: square_np(x).astype(np.float32)square_grad_np_32 = lambda x: square_grad_np(x).astype(np.float32)

2.5 定義tf版的梯度函數

def square_grad_tf(x, name=None): with ops.name_scope(name, "square_grad_tf", [x]) as name: y = tf.py_func(square_grad_np_32, [x], [tf.float32], name=name, stateful=False) return y[0]

2.6 定義函數

def my_py_func(func, inp, Tout, stateful=False, name=None, my_grad_func=None): # need to generate a unique name to avoid duplicates: random_name = "PyFuncGrad" + str(np.random.randint(0, 1E+8)) tf.RegisterGradient(random_name)(my_grad_func) g = tf.get_default_graph() with g.gradient_override_map({"PyFunc": random_name, "PyFuncStateless": random_name}): return tf.py_func(func, inp, Tout, stateful=stateful, name=name)

2.7 定義梯度，該函數依靠上一個函數my_py_func計算并傳播

def _square_grad(op, pred_grad): x = op.inputs[0] cur_grad = square_grad(x) next_grad = pred_grad * cur_grad return next_grad

2.8 定義tf版的square函數

def square_tf(x, name=None): with ops.name_scope(name, "square_tf", [x]) as name: y = my_py_func(square_np_32,   [x],   [tf.float32],   stateful=False,   name=name,   my_grad_func=_square_grad) return y[0]

上一篇：pytorch對梯度進行可視化進行梯度檢查教程

下一篇：tensorflow 實現自定義layer并添加到計算圖中

學習交流

如何重啟打印機打印服務

如何重啟打印機打印服務...

熱門圖片

猜你喜歡的新聞

猜你喜歡的關注