1. 단어 사전단어 사전(Vocabulary)은 자연어 처리에서 사용되는 모든 고유한 토큰(단어, 서브워드, 문자 등)을 모아 각 토큰에 고유한 인덱스(ID)를 매핑한 집합입니다. 문장을 토크나이징한 뒤 만들어지는 단어 사전은 텍스트를 정수 시퀀스로 변환하는 기준이 되며, 모델이 문자열을 직접 처리할 수 없는 한계를 극복하게 해줍니다. 또한 단어 사전에는 학습 시 사용된 모든 토큰뿐 아니라, 사전에 없는 새로운 단어를 처리하기 위한 OOV(Out-Of-Vocabulary) 토큰 같은 특수 기호도 포함될 수 있어 실제 모델 학습과 추론 과정에서 중요한 역할을 합니다. OOVOOV(Out-Of-Vocabulary) 문제는 자연어 처리 모델이 학습 과정에서 본 적 없는 단어나 토큰이 입력에 등장했을 때 발생하..