在用tensorflow實現一些模型的時候,有時候我們在運行程序的時候,會發現程序占用的內存在不斷增長。最后內存溢出,程序被kill掉了。
這個問題,其實有兩個可能性。一個是比較常見,同時也是很難發現的。這個問題的解決,需要我們知道tensorflow在構圖的時候,是沒有所謂的臨時變量的,只要有operator。那么tensorflow就會在構建的圖中增加這個operator所代表的節點。所以,在運行程序的過程中,內存不斷增長的原因就是在模型訓練迭代的過程中,tensorflow一直在幫你增加圖的節點。導致內存占用越來越多。
那么什么情況下就會像上面說的那樣呢?我們舉個例子:
import tensorflow as tfx = tf.Variable(tf.constant(1))y = tf.constant(2)sess = tf.Session()sess.run(tf.global_variables_initializer())while True: print(sess.run(x+y))
如果你運行上面這段代碼,會發現在運行的過程中,內存占用越來越大。原因就在于sess.run(x+y)這個語句。我們知道在tensorflow中,所有的操作都是graph的節點。而在迭代的過程中,x+y這個operator(操作)是匿名的,所以它會不斷地重復,在graph中創建節點,導致內存占用越來越大。
所以要對上面的代碼進行修改:
z = x+ywhile True: print(sess.run(z))
這樣就不會出現問題了。
上面只是一個簡單的例子,我們可以很快發現問題。但是有時候我們的模型比較復雜,很難判斷是否在迭代的過程中一直在增加節點。那怎么辦呢?
其實在tensorflow里面有個函數叫做:
sess.graph.finalize()
只要每一次構圖完成后,調用這個函數。然后運行程序,如果你的程序在運行的過程中還一直新建節點,這個函數就會檢測到,然后就會報錯。這樣你就知道你的程序中一定有不合理的地方。
另一個導致內存暴漲的原因是,數據的加載問題。tensorflow現在有一個API接口,tf.data.Dataset 。這個接口里面有個函數叫做cache(filename)。cache函數的作用是將加載進來的數據存放到filename指定的地方。但是如果我們沒有指定filename,數據就是一直存儲在內存中。所以,隨著迭代次數的增加,存儲在內存中的數據越來越多,就會導致內存暴漲。所以要么不要使用這個函數,要么就要記得添加filename參數。
以上這篇淺談tensorflow之內存暴漲問題就是小編分享給大家的全部內容了,希望能給大家一個參考,也希望大家多多支持武林站長站。
新聞熱點
疑難解答