梯度下降法的原理和公式這里不講,就是一個直觀的、易于理解的簡單例子。
1.最簡單的情況,樣本只有一個變量,即簡單的(x,y)。多變量的則可為使用體重或身高判斷男女(這是假設,并不嚴謹),則變量有兩個,一個是體重,一個是身高,則可表示為(x1,x2,y),即一個目標值有兩個屬性。
2.單個變量的情況最簡單的就是,函數hk(x)=k*x這條直線(注意:這里k也是變化的,我們的目的就是求一個最優的 k)。而深度學習中,我們是不知道函數的,也就是不知道上述的k。 這里討論單變量的情況:
在不知道k的情況下,我們是通過樣本(x1,y1),(x2,y2),(xn,yn)來獲取k。獲取的k的好壞則有損失函數來衡量。
損失函數:就是你預測的值和真實值的差異大?。ū热缫粋€樣本(1,1)他的真實值是1,而你預測的是0.5,則差異 比較大,如果你預測值為0.9999,則差異就比較小了)。
損失函數為定義如下(此處為單變量的情況)
目的是求使損失函數最小的變量k(注意和變量x區分),則將損失函數對k求導(多變量時為求偏導得梯度,這里單變量求導,其實不算梯度),求偏導如下:
然后迭代,迭代時有個步長alpha,(深度學習中貌似叫學習率)
3.例子
假如我們得到樣本(1,1),(2,2),(3,3).其實,由這三個樣本可以得到函數為y = 1*x。此時損失函數為0.而機器是不知道的,所以我們需要訓練。
下面是一段python代碼。
import numpy as npimport matplotlib.pyplot as pltx=np.arange(-5, 5, 0.001)y=(((x-1)*(x-1)+(x*2-2)*(x*2-2)+(x*3-3)*(x*3-3))*1/6.0)plt.plot(x,y) #plt.show() #顯示圖形 def sum(x): return ((x*1-1)*1+(x*2-2)*2+(x*3-3)*3)def fun(x): return ((1/3.0)*sum(x))old = 0new = 5step = 0.01pre = 0.00000001 def src_fun(x): print(((x-1)*(x-1)+(x*2-2)*(x*2-2)+(x*3-3)*(x*3-3))*1/6.0) while abs(new-old)>pre: old = new #src_fun(old) #輸出每次迭代的損失值 new = new - step*fun(old) print(new)print(src_fun(new))
下圖是損失函數的圖像,損失函數中變量是k。下圖橫坐標為k的不同取值,縱軸為對應的損失大小。由下圖可以大致看出,當k為1時,損失函數值為0。注意:這里取的最優值k=1是在我們已有樣本的情況下得出的,樣本不同,k值自然不同。
下面是print(new)和print(src_fun(new))的輸出結果
新聞熱點
疑難解答