Vision(2)
-
Intriguing Properties of Vision Transformers
arxiv, github, 나의 요약 : vision transformer >>>>> CNN, texture보단 shape을 본다. 요약 occlusion(가림막), domain shifts(질감 변경), spatial permutations(격자무니 섞기), adversarial attack(공격), perturbations(픽셀 노이즈) 실험으로 ViT의 좋음을 확인 결과 1. occlusion, perturbation, domain shift에 좋다. 2. texture에 less biased(texture바껴도 잘맞춤) 3. high shape biased(shape 바뀌면 못맞춤) 4. Off-the-shelf feature사용해도 좋음(이전 layer의 feature로 앙상블) 1. Intro..
2021.06.10 -
얀 르쿤 페이스북 요약. Self-supervised learning: NLP vs VISION
얀 르쿤(Yann LeCun)의 facebook에 남긴 의견(링크) 요약 SSL의 방법이 NLP와 VISION에 다르다 Text Text는 discrete한 신호이다. 이것이 '예측'에 있어 uncertainty를 표현하기 쉽다. 따라서 따라서 '신호'를 예측(predict)하거나, reconstruct하는 architecture와 훈련 패러다임이 잘 작동한다. 예) The (blank) chases the (blank) in the savanna에서 blank 맞추기. 어휘라는게 엄청나게 방대한 양이고, 빈칸 맞추기가 엄청 uncertainty하지만, a list of all possible words를 제공하기에 좋다. 그리고 해당 장소에 그 단어들의 출현을 측정하는 확률을 제공한다. 예를들어, de..
2021.03.08