일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- computer vision
- mask r-cnn
- Adam
- 밑바닥부터 시작하는 딥러닝2
- do it! 알고리즘 코딩테스트: c++편
- Baekjoon
- CPP
- RNN
- Optimization
- assignment1
- cs231n
- 딥러닝
- Transformer
- Multi-Head Attention
- CNN
- 밑바닥부터 시작하는 딥러닝
- Machine Learning
- Positional Encoding
- Regularization
- Alexnet
- C++
- Python
- assignment2
- SQLD
- dropout
- DFS
- marchine learning
- Algorithm
- deep learning
- BFS
- Today
- Total
목록2025/06 (9)
newhaneul

본 포스팅은 서울대학교 이준석 교수님의 M3224.000100 Machine Learning for Visual Understanding을 수강하고 공부한 내용을 정리하기 위한 포스팅입니다. https://www.youtube.com/watch?v=MVYxgJGc92g 1. Metric Learning Metric Learning은 입력 샘플 간의 유사도(similarity) 또는 거리(distance)를 학습하는 방법으로, 비슷한 것끼리는 가까이, 다른 것끼리는 멀리 배치하도록 학습하는 기술이다. 즉, 거리 공간 상에서 의미 있는 표현(embedding)을 학습한다. 분류(classification)이나 검색(retrieval) 문제에서 효과적이다. Metric Learning Data는 거리 기반..

본 포스팅은 서울대학교 이준석 교수님의 M3224.000100 Machine Learning for Visual Understanding을 수강하고 공부한 내용을 정리하기 위한 포스팅입니다. https://youtu.be/QtzaSZdmUrg?si=w5JvUazBk4bMdiMk Computer Vision Tasks Semantic Segmentations with CNNs Semantic Segmentation: Applications First Ideas for Semantic Segmentation Semantic Segmentation의 가장 단순한 아이디어는 Input image를 작은 patch단위로 분리하고 그 patch의 중심 pixel에 대해서 CNN을 진행시킨뒤 classificatio..
보호되어 있는 글입니다.

본 포스팅은 서울대학교 이준석 교수님의 M3224.000100 Machine Learning for Visual Understanding을 수강하고 공부한 내용을 정리하기 위한 포스팅입니다. https://youtu.be/CcZs5YT-Ar0?si=6fcR_verULfk5ng6 1. Object Detection Object Detection은 이미지나 영상에서 객체가 어느 위치에 있는지를 식별하는 유서 깊은 컴퓨터 비전 기술이다. 단순한 Classification과는 달리, 객체의 위치(Bounding Box)와 클래스(Label0을 함께 예측하는 것이 목표이다. 가장 단순한 Object detection은 입력 이미지를 CNN에 통과시키고 Class Loss와 Bounding Box Loss를 합산..

본 포스팅은 서울대학교 이준석 교수님의 M3224.000100 Machine Learning for Visual Understanding을 수강하고 공부한 내용을 정리하기 위한 포스팅입니다. https://www.youtube.com/watch?v=AsH4HRWMY7E&list=PL0E_1UqNACXBhqjwBzFQ88YXWotXrKRG-&index=13 1. Bidirectional Encoder Representations from Transformers(BERT, 2018) BERT는 사전학습 기반 자연어 처리 모델이다. Transformer Encoder 블록만 사용하며, 양방향(Bidirectional) attention을 수행하여 양쪽 문맥을 모두 고려한다. 기존의 단방향 모델들과는 다르게 완..

본 포스팅은 서울대학교 이준석 교수님의 M3224.000100 Machine Learning for Visual Understanding을 수강하고 공부한 내용을 정리하기 위한 포스팅입니다. https://youtu.be/p1fdYbs9W0c?si=4d87BJ3pcIUCCgV5 1. Attention Mechanism Attention Mechanism은 입력 시퀀스 중에서 중요한 부분에 집중(attend)하도록 학습하는 메커니즘이다. 즉, 모든 입력 요소 간의 상호작용을 계산하고, 중요한 정보에 더 많은 가중치를 부여한다. Query: Decoder hidden stateKey, Value: Encoder hidden stateAttention Value: Weighted average of enco..

본 포스팅은 서울대학교 이준석 교수님의 M3224.000100 Machine Learning for Visual Understanding을 수강하고 공부한 내용을 정리하기 위한 포스팅입니다. https://youtu.be/xXG5LV7mmcc?si=mEl00P-RJN1hMMrX 1. 3D Convolution 3D convolution은 영상이나 시계열처럼 시간/깊이 축을 포함한 3차원 데이터를 처리하기 위한 합성곱 연산이다. 입력은 일반적으로 다음과 같은 5차원 텐서로 구성된다.N: 배치 크기D: 깊이(시간축)H, W: 높이, 너비C: 입력 채널 수 커널의 텐서는 아래와 같다.k_D, k_H, k_W: 깊이, 높이, 너비 방향 커널 크기C_in: 입력 채널 수C_out: 출력 채널 수(필터 개수) 출..

본 포스팅은 서울대학교 이준석 교수님의 M3224.000100 Machine Learning for Visual Understanding을 수강하고 공부한 내용을 정리하기 위한 포스팅입니다. https://www.youtube.com/watch?v=dm2MCZ1QNH0&list=PL0E_1UqNACXBhqjwBzFQ88YXWotXrKRG-&index=10 1. Video Understanding Video classification은 입력으로 주어진 video clip에 대해 그 내용이 무엇인지 label을 예측하는 컴퓨터 비전 task를 말한다. image classification과는 다르게 여러 pixel들에 담겨있는 action을 바탕으로 label을 분류한다. query가 입력으로 주어지면 이..