본문 바로가기

Etc../인공지능 연구동향

[인공지능 연구동향] Video Models, Metric Learning사례 분석

다수의 input task 모델

Video

  • 하나의 input과 다르게 비디오는 motion에 대한 정보를 담고 있음
  • 프레임이 진행되면서 translation, scale, rotation, camera motion, light change 등 다양한 data augmentation이 이루어짐

이미지 쌍이 input인 경우

Optical flow estimation

  • input으로 연속된 RGB 이미지 쌍이 들어올 경우target은 두 이미지의 변화에 따른 dense flow map과 2D translation displacement가 됨.
  • 대표적인 모델로 FlowNet이 있음

FlowNet

  • U-NET과 유사하게 encoder - decoder 구조를 가짐
  • Supervised training이며 loss로 Euclidean distance를 사용함

비디오가 input인 경우

  • 비디오는 연속적인 프레임으로 이루어지며, 이 개별 프레임을 계속해서 image model에 넣는 것은 일종의 video model이라 볼 수 있음
  • 좀 더 효율적인 3D Convolution을 사용한 video model을 사용, 이 경우는 video를 일종의 volume으로 보는 것.(시간축 T를 추가하여 3D Convolution)
  • 3D convolution은 kernel이 공강 뿐 아니라 시간에 대해서도 sliding하면서 spatio-temporal feature map을 생성
  • 2D Convolution과 거의 유사하나 kernel이 시간축에 대해서도 slide한다는 차이가 있음
  • stride, dilated, padded convolution등 다양한 연산 방법들을 3D convolution에도 적용할 수 있음
  • 다양한 task를 할 수 있는데 대표적으로 action recognition을 할 수 있음
  • 또다른 연구로는 SlowFast network가 있음.

SlowFast

  • 사람이 뽑은 representation인 optical flow를 배제하고 사람의 시각시스템을 모방하여 만든 네트워크
  • 사람의 시각 시스템은 temporal한 information에 반응하는 세포가 20%
  • spatial detail이나 color등의 sementic information에 반응하는 세포가 80% 정도의 비율로 이루어짐
  • slow pathway에서는 low frame rate를 바탕으로 많은 channel을 가지도록 하여 semantic information을 포착할 수 있도록 함.
  • fast pathway에서는 high frame rate와 적은 channel을 기반으로 temporal information을 포착할 수 있도록 구성함.

Transfer Learning returns

  • 2d image classifier filter를 3d action classifier filter로 확장하여 사용한 연구
  • transfer learning 개념을 재사용
  • 2d convolution filter의 차원을 확장하여 시간축에 따라 늘려붙여 3D convolution filter로 활용하여 학습

Metric learning

  • 위에 소개된 방법들은 모드 supervised learning(지도학습)

  • metric learning은 self - supervision leaning

  • 여지껏 사용했던 cross-entropy나 mean square error와 같은 일반적인 loss는 input을 output distribution이나 value에 mapping하기 위한 것

  • metring learning은 input데이터를 embedding space에 mapping하고 similarity에 대한 거리를 예측

  • contrastive loss : data로 r0, r1, y가 입력되고 r0와 r1이 같은 사람이라면 y=1, 아니라면 y=0

  • triplet loss : data로 r_a, r_p, r_n형태로 들어옴.r_a와 r_p는 서로 simmilar하고 r_n 은 dissimilar함.

    contrastive loss와 다르게 상대적인 거리 차이에 초점을 맞춤

  • hard negative mining이 적절한 triplet을 고르는데 도움을 줌




참고 : K-MOOC 인공지능 연구동향 - 중앙대학교 김영빈 교수님