Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
arxiv, github, twitter(저자 아님), Microsoft 참고 : 다음에 나온 Scaled-YOLOv4가 이 논문 이김. 요약 vision이 language와 차이점 1) large variation 2) high resolution shifted windows를 도입한 계층적 transformer를 제안함. shifted windows는 non-overlapping한 windows를 연결함. 장점 : 1) various scale에 가능 2) O(n), n : image size Introduction 앞선 sliding windows방식의 self-attention은 low latency임. 우리 논문에서는 all query patch가 같은 key를 공유함. -> latency 해결..
2021.06.10