[인공지능 연구동향] Video Models, Metric Learning사례 분석

다수의 input task 모델

하나의 input과 다르게 비디오는 motion에 대한 정보를 담고 있음
프레임이 진행되면서 translation, scale, rotation, camera motion, light change 등 다양한 data augmentation이 이루어짐

input으로 연속된 RGB 이미지 쌍이 들어올 경우target은 두 이미지의 변화에 따른 dense flow map과 2D translation displacement가 됨.
대표적인 모델로 FlowNet이 있음

비디오는 연속적인 프레임으로 이루어지며, 이 개별 프레임을 계속해서 image model에 넣는 것은 일종의 video model이라 볼 수 있음
좀 더 효율적인 3D Convolution을 사용한 video model을 사용, 이 경우는 video를 일종의 volume으로 보는 것.(시간축 T를 추가하여 3D Convolution)
3D convolution은 kernel이 공강 뿐 아니라 시간에 대해서도 sliding하면서 spatio-temporal feature map을 생성
2D Convolution과 거의 유사하나 kernel이 시간축에 대해서도 slide한다는 차이가 있음
stride, dilated, padded convolution등 다양한 연산 방법들을 3D convolution에도 적용할 수 있음
다양한 task를 할 수 있는데 대표적으로 action recognition을 할 수 있음
또다른 연구로는 SlowFast network가 있음.

사람이 뽑은 representation인 optical flow를 배제하고 사람의 시각시스템을 모방하여 만든 네트워크
사람의 시각 시스템은 temporal한 information에 반응하는 세포가 20%
spatial detail이나 color등의 sementic information에 반응하는 세포가 80% 정도의 비율로 이루어짐
slow pathway에서는 low frame rate를 바탕으로 많은 channel을 가지도록 하여 semantic information을 포착할 수 있도록 함.
fast pathway에서는 high frame rate와 적은 channel을 기반으로 temporal information을 포착할 수 있도록 구성함.

위에 소개된 방법들은 모드 supervised learning(지도학습)
metric learning은 self - supervision leaning
여지껏 사용했던 cross-entropy나 mean square error와 같은 일반적인 loss는 input을 output distribution이나 value에 mapping하기 위한 것
metring learning은 input데이터를 embedding space에 mapping하고 similarity에 대한 거리를 예측
contrastive loss : data로 r0, r1, y가 입력되고 r0와 r1이 같은 사람이라면 y=1, 아니라면 y=0
triplet loss : data로 r_a, r_p, r_n형태로 들어옴.r_a와 r_p는 서로 simmilar하고 r_n 은 dissimilar함.

contrastive loss와 다르게 상대적인 거리 차이에 초점을 맞춤
hard negative mining이 적절한 triplet을 고르는데 도움을 줌

[인공지능 연구동향] Object Detection, Semantic Segmentation 사례 분석 (0)	2021.08.28
[인공지능 연구동향] Convolutional_Neural_Netwrok_구조 사례 분석 (0)	2021.08.28
[인공지능 연구동향] Convolutional_Neural_Netwrok_기본 (0)	2021.08.28
[인공지능 연구동향] Neural_Networks_학습_방법과_이슈 (0)	2021.08.28
[인공지능 연구동향] Neural_Netwrok_기본 (0)	2021.08.28