일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- Python
- computer vision
- BFS
- cs231n
- Optimization
- assignment1
- 밑바닥부터 시작하는 딥러닝2
- 밑바닥부터 시작하는 딥러닝
- marchine learning
- CPP
- do it! 알고리즘 코딩테스트: c++편
- C++
- CNN
- Baekjoon
- Multi-Head Attention
- 딥러닝
- Machine Learning
- dropout
- assignment2
- Adam
- Transformer
- Algorithm
- SQLD
- Generative Models
- deep learning
- mask r-cnn
- Alexnet
- RNN
- DFS
- Regularization
- Today
- Total
newhaneul
[Seoul National Univ: ML/DL] Lecture 3. Linear Regression 1 본문
[Seoul National Univ: ML/DL] Lecture 3. Linear Regression 1
뉴하늘 2025. 2. 27. 17:19본 포스팅은 서울대학교 이준석 교수님의 M3239.005300 Machine Learning & Deep Learning 1을 수강하고 공부 한 내용을 정리하기 위한 포스팅입니다.
이준석 교수님에게 강의 자료 사용에 대한 허락을 받았음을 알립니다.
https://youtu.be/aaWylMFDnJw?si=9RLNkXvxSKM2p5Hz
Linear regression은 y가 x들과 선형적이라고 가정하는 대표적인 supervised learning이다. local적 측면으로는 선형적인 부분이 있지만 대부분의 경우 비선형적이다.
Single Predictor: coefficients or parameters를 data들로부터 적절한 값을 찾아야 함. 그리고 unseen x로 y의 예측을 할 수 있어야 함.
RSS(residual sum of squares): 모델의 예측력을 판단하는 척도. 값이 낮을수록 예측력이 좋음. 오차 제곱합.
R-squared: 1- RSS/TSS, TSS는 전체 분산, RSS는 모델이 잘못 예측한 오차, RSS = 0일 경우 이상적인 모델을 의미한다.
이상적인 모델은 predictors들이 uncorrelated할 때이다.
Correlations의 scale을 고려하면서 Coefficient를 비교해야 한다.
1. IID (Independent and Identically Distributed)
- 독립적이고 동일한 분포 (Independent and Identically Distributed)의 약자이다.
- 독립적 (Independent): 각 데이터 포인트가 다른 데이터 포인트와 상관관계가 없다는 의미이다. 즉, 하나의 데이터가 다른 데이터에 영향을 미치지 않는다.
- 동일한 분포 (Identically Distributed): 모든 데이터 포인트가 동일한 확률 분포에서 나온다는 의미이다. 즉, 데이터들이 같은 방식으로 생성된다.
- 실제로는 IID Assumption을 따르지 않지만, 계산을 쉽게 하기 위해 가정한다.
2. Likelihood
- Likelihood는 주어진 데이터를 바탕으로 특정 모델 파라미터가 얼마나 그 데이터를 설명할 수 있는지를 나타내는 함수이다.
- Likelihood 함수는 모델의 파라미터가 주어졌을 때, 데이터가 나타날 확률을 구한다. 하지만 확률이 아니라 확률의 역인 개념으로, 파라미터를 찾기 위해 데이터를 어떻게 최대화할 수 있는지 분석한다.
- 주로 MLE(Maximum Likelihood Estimation)에서 사용된다. MLE는 주어진 데이터를 가장 잘 설명할 수 있는 파라미터를 찾는 방법다.
수식적으로, Likelihood 함수는 보통 다음과 같이 나타낸다.
여기서 X는 관측된 데이터이고, θ는 모델의 파라미터이다. L(θ)는 데이터가 주어진 θ값에서 나올 확률을 나타내며, IID의 가정과 함께 사용한다.
Likelihood에 log를 붙이는 것을 Log-Likelihood라고 한다. log를 붙이는 이유는 Likelihood에 있는 곱 연산이 MLE를 구하는 계산하을 어렵게 만들기 때문에 log를 사용하여 덧셈(시그마)으로 바꾸는 아이디어이다. log를 마음대로 붙여도 되는 이유는 구하고자 하는 것이 최대의 확률인데, log는 단조 증가 함수이므로 최대가 동일하게 유지되어 사용 가능하다.
로그 우도 함수를 최대화하는 θ를 찾기 위해, 보통 미분을 사용하여 최댓값을 찾는 방법을 적용한다. 이를 위해 로그 우도 함수를 θ에 대해 미분하고, 그 값을 0으로 설정하여 파라미터의 최적값을 추정한다. 0으로 설정하는 이유는 미분한 값이 0이되는 곳이 극대, 극소 중 하나이기 때문이다.
한 번 미분하면 극대, 극소를 찾을 수 없기 때문에 2번 미분을 하여 log-likelihood의 gradient가 0보다 작은 negatove-definite를 확인한다.
데이터를 학습시킬 때 Matrix Notation을 사용하면 훨씬 빠르게 학습시킬 수 있다.
Matrix Notation을 MLE 수행하게 된 결과를 Normal Equation이라 하고, 이 값이 Linear regression의 해이다.
MSE는 실제 값과 추정 값 간의 오차 제곱의 합의 평이다. 이 MSE가 Variance와 squared bias의 합임을 증명하고자 한다.
dimension이 여러개여도 연산을 여러번 하는 차이이기 때문에 연산의 간소화를 위해 d = 1이라는 가정과 함께 시작한다.
가운데 연산이 0으로 사라지게 되므로 최종 연산 결과 Variance와 squared Bias의 합만 남는 것을 볼 수 있다.
Linear regression은 unbiased이므로 bias는 0을 가지게 되고, MSE는 분산 값만을 가지게 된다.