다수의 input task 모델
Video
- 하나의 input과 다르게 비디오는 motion에 대한 정보를 담고 있음
- 프레임이 진행되면서 translation, scale, rotation, camera motion, light change 등 다양한 data augmentation이 이루어짐
이미지 쌍이 input인 경우
Optical flow estimation
- input으로 연속된 RGB 이미지 쌍이 들어올 경우target은 두 이미지의 변화에 따른 dense flow map과 2D translation displacement가 됨.
- 대표적인 모델로 FlowNet이 있음
FlowNet
- U-NET과 유사하게 encoder - decoder 구조를 가짐
- Supervised training이며 loss로 Euclidean distance를 사용함
비디오가 input인 경우
- 비디오는 연속적인 프레임으로 이루어지며, 이 개별 프레임을 계속해서 image model에 넣는 것은 일종의 video model이라 볼 수 있음
- 좀 더 효율적인 3D Convolution을 사용한 video model을 사용, 이 경우는 video를 일종의 volume으로 보는 것.(시간축 T를 추가하여 3D Convolution)
- 3D convolution은 kernel이 공강 뿐 아니라 시간에 대해서도 sliding하면서 spatio-temporal feature map을 생성
- 2D Convolution과 거의 유사하나 kernel이 시간축에 대해서도 slide한다는 차이가 있음
- stride, dilated, padded convolution등 다양한 연산 방법들을 3D convolution에도 적용할 수 있음
- 다양한 task를 할 수 있는데 대표적으로 action recognition을 할 수 있음
- 또다른 연구로는 SlowFast network가 있음.
SlowFast
- 사람이 뽑은 representation인 optical flow를 배제하고 사람의 시각시스템을 모방하여 만든 네트워크
- 사람의 시각 시스템은 temporal한 information에 반응하는 세포가 20%
- spatial detail이나 color등의 sementic information에 반응하는 세포가 80% 정도의 비율로 이루어짐
- slow pathway에서는 low frame rate를 바탕으로 많은 channel을 가지도록 하여 semantic information을 포착할 수 있도록 함.
- fast pathway에서는 high frame rate와 적은 channel을 기반으로 temporal information을 포착할 수 있도록 구성함.
Transfer Learning returns
- 2d image classifier filter를 3d action classifier filter로 확장하여 사용한 연구
- transfer learning 개념을 재사용
- 2d convolution filter의 차원을 확장하여 시간축에 따라 늘려붙여 3D convolution filter로 활용하여 학습
Metric learning
위에 소개된 방법들은 모드 supervised learning(지도학습)
metric learning은 self - supervision leaning
여지껏 사용했던 cross-entropy나 mean square error와 같은 일반적인 loss는 input을 output distribution이나 value에 mapping하기 위한 것
metring learning은 input데이터를 embedding space에 mapping하고 similarity에 대한 거리를 예측
contrastive loss : data로 r0, r1, y가 입력되고 r0와 r1이 같은 사람이라면 y=1, 아니라면 y=0
triplet loss : data로 r_a, r_p, r_n형태로 들어옴.r_a와 r_p는 서로 simmilar하고 r_n 은 dissimilar함.
contrastive loss와 다르게 상대적인 거리 차이에 초점을 맞춤
hard negative mining이 적절한 triplet을 고르는데 도움을 줌
'Etc.. > 인공지능 연구동향' 카테고리의 다른 글
[인공지능 연구동향] Object Detection, Semantic Segmentation 사례 분석 (0) | 2021.08.28 |
---|---|
[인공지능 연구동향] Convolutional_Neural_Netwrok_구조 사례 분석 (0) | 2021.08.28 |
[인공지능 연구동향] Convolutional_Neural_Netwrok_기본 (0) | 2021.08.28 |
[인공지능 연구동향] Neural_Networks_학습_방법과_이슈 (0) | 2021.08.28 |
[인공지능 연구동향] Neural_Netwrok_기본 (0) | 2021.08.28 |