Intriguing Properties of Vision Transformers
arxiv, github, 나의 요약 : vision transformer >>>>> CNN, texture보단 shape을 본다. 요약 occlusion(가림막), domain shifts(질감 변경), spatial permutations(격자무니 섞기), adversarial attack(공격), perturbations(픽셀 노이즈) 실험으로 ViT의 좋음을 확인 결과 1. occlusion, perturbation, domain shift에 좋다. 2. texture에 less biased(texture바껴도 잘맞춤) 3. high shape biased(shape 바뀌면 못맞춤) 4. Off-the-shelf feature사용해도 좋음(이전 layer의 feature로 앙상블) 1. Intro..
2021.06.10