[Stanford Univ: CS231n] Lecture 4. Backpropagation and Neural Networks

뉴하늘 2025. 4. 20. 14:35

728x90

본 포스팅은 Stanford University School of Engineering의 CS231n: Convolutional Neural Networks for Visual Recognition을 수강하고 공부한 내용을 정리하기 위한 포스팅입니다.

GitHub - cs231n/cs231n.github.io: Public facing notes page

Public facing notes page. Contribute to cs231n/cs231n.github.io development by creating an account on GitHub.

github.com

CS231n Lecture 4는 신경망의 학습 방법, 특히 역전파 알고리즘(Backpropagation)을 중심으로 다룬다. 이번 강의는 딥러닝에서 가장 핵심적인 개념 중 하나인 Gradient-based Learning을 수학적으로, 직관적으로 풀어낸다.

1. 신경망의 구조와 비선형성의 중요성

ReLU Activation Function은 element-wise 함수이기 때문에 각 출력 f_i는 오직 입력 x_i 하나에만 작동된다. 따라서 ReLU의 Jacobian 구조는 대각행렬이 된다.

따라서 실제로 ReLU의 전체 Jacobian 행렬을 작성하고 공식화 할 필요는 없다. 출력에 대한 x의 영향에 대해서 그리고 이 값을 사용하는 것에 대해서만 알면 된다. 그리고 계산한 gradient의 값을 채워 넣기만 하면 다.

728x90