Transformer 3

ViT(Vistion Transformer)

1. ViT(Vistion Transformer)ViT(Vision Transformer)는 이미지를 일정 크기의 패치(예: 16×16)로 나눈 뒤 각 패치를 임베딩 벡터로 투영해 토큰 시퀀스로 만들고, 여기에 위치 임베딩을 더해 트랜스포머 인코더(멀티헤드 자기어텐션+FFN)로 처리하여 분류 등의 다운스트림 작업을 수행하는 모델입니다. 분류의 경우 BERT처럼 맨 앞에 [CLS] 토큰을 두고 그 출력으로 최종 예측을 합니다. CNN이 지역적 합성곱과 계층적 다운샘플링으로 전역 정보를 “깊이”에서 얻게 되는 반면, ViT는 자기어텐션으로 처음부터 전역 관계를 직접 학습하는 것이 특징입니다. 충분한 데이터와 적절한 사전학습·증강이 있을 때 스케일이 클수록 성능이 잘 향상되지만, 어텐션의 계산량이 토큰 수 제..

Language Model 발전

1. BERT & GPT1. BERT (Bidirectional Encoder Representations from Transformers)BERT는 트랜스포머의 인코더 구조만 사용한 모델로, 문장을 이해하는 데 최적화되어 있습니다. 학습은 문장 속 단어를 가려 맞히는 마스크드 언어모델(MLM)과 두 문장이 이어지는지 판별하는 NSP 방식을 통해 진행되며, 이 과정에서 단어의 앞뒤 문맥을 동시에 참고하는 양방향(Bidirectional) 이해 능력을 갖추게 됩니다. 이러한 특성 덕분에 BERT는 문장 분류, 감정 분석, 질의응답, 문장 유사도 계산 등과 같은 문맥 이해 중심의 자연어 처리 과제에서 강력한 성능을 발휘합니다. 3. GPT (Generative Pre-trained Transformer)GP..

사전 학습된 언어 모델(PML)

1. PMLPLM(Pre-trained Language Model)은 대량의 텍스트 데이터를 사전 학습하여 자연어 이해와 생성 능력을 갖춘 인공지능 모델입니다. 대표적으로 BERT, GPT, T5 등이 있으며, 이들은 대규모 데이터에서 단어의 의미와 문맥을 학습한 후, 특정 작업(예: 문장 분류, 번역, 질의응답 등)에 맞게 추가 학습(Fine-tuning)하여 활용됩니다. PLM은 문맥을 고려한 자연어 처리 능력이 뛰어나며, 다양한 언어 기반 AI 애플리케이션에서 핵심 기술로 사용됩니다. 1. BERTBERT(Bidirectional Encoder Representations from Transformers)는 구글에서 개발한 사전 훈련된 자연어 처리(NLP) 모델로, Transformer 아키텍처를 ..