출력층부터 계산되어지는데 그 과정에서 sigmoid의 미분을 하면 A*(1-A) 가 계산되어 값이 매우 작아진다. ( A의 범위가 0~1 사이의 값이기 때문)
따라서 몇번 반복되면 값이 굉장히 작아진다.
'딥러닝(deep learning) > 인공신경망(Neural Network)' 카테고리의 다른 글
real data processing (0) | 2019.08.05 |
---|---|
sigmoid의 한계 ( vanishing gradient ) (0) | 2019.08.01 |
오차역전파 도입 (0) | 2019.07.31 |
deep_learning 최종 정리 (0) | 2019.07.29 |
데이터 분포가 치우쳐 있다면 (0) | 2019.07.26 |