mino28 님의 블로그

  • 홈
  • 태그
  • 방명록

MLP 1

ViT(Vistion Transformer)

1. ViT(Vistion Transformer)ViT(Vision Transformer)는 이미지를 일정 크기의 패치(예: 16×16)로 나눈 뒤 각 패치를 임베딩 벡터로 투영해 토큰 시퀀스로 만들고, 여기에 위치 임베딩을 더해 트랜스포머 인코더(멀티헤드 자기어텐션+FFN)로 처리하여 분류 등의 다운스트림 작업을 수행하는 모델입니다. 분류의 경우 BERT처럼 맨 앞에 [CLS] 토큰을 두고 그 출력으로 최종 예측을 합니다. CNN이 지역적 합성곱과 계층적 다운샘플링으로 전역 정보를 “깊이”에서 얻게 되는 반면, ViT는 자기어텐션으로 처음부터 전역 관계를 직접 학습하는 것이 특징입니다. 충분한 데이터와 적절한 사전학습·증강이 있을 때 스케일이 클수록 성능이 잘 향상되지만, 어텐션의 계산량이 토큰 수 제..

인공지능/컴퓨터 비전 2025.09.08
이전
1
다음
더보기
프로필사진

mino28 님의 블로그

mino28 님의 블로그 입니다.

  • 분류 전체보기 (170)
    • Basic (1)
    • 인공지능 (98)
      • 파이썬 (37)
      • LLM 서비스 개발 (7)
      • 데이터 분석 (10)
      • 딥러닝 (13)
      • 컴퓨터 비전 (9)
      • 생성형 AI (3)
      • 자연어 처리 (10)
      • AI Agent (8)
      • 로봇 시스템 개발 (1)
    • 백엔드 (37)
      • Node.js (9)
      • Java (24)
      • SpringBoot (4)
    • 프론트엔드 (34)
      • HTML , CSS (13)
      • Javascript (21)
      • React (0)
      • Swift (0)

Tag

패딩, GRU, 인코더, 디코더, 제어문, Transformer, DataLoader, DataSet, softmax, 트랜스포머, 컴퓨터 비전, CNN, length, 반복문, yolo, 데이터셋, 분류, 오버라이딩, 바운딩 박스, 파이토치,

최근글과 인기글

  • 최근글
  • 인기글

최근댓글

공지사항

페이스북 트위터 플러그인

  • Facebook
  • Twitter

Archives

Calendar

«   2026/05   »
일 월 화 수 목 금 토
1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
31

방문자수Total

  • Today :
  • Yesterday :

Copyright © AXZ Corp. All rights reserved.

티스토리툴바