바코94 2019. 7. 31. 17:50

출력층부터 계산되어지는데 그 과정에서 sigmoid의 미분을 하면 A*(1-A) 가 계산되어 값이 매우 작아진다. ( A의 범위가 0~1 사이의 값이기 때문)

 

따라서 몇번 반복되면 값이 굉장히 작아진다.