
딥러닝 모델이 텍스트를 이해하려면 먼저 문자 기반의 텍스트 데이터를 숫자 기반의 벡터로 변환해야 합니다. 이 과정을 임베딩(embedding)이라고 부르며, 보통 다음의 세 가지 단계를 거칩니다.1. 토큰화 (Tokenization)텍스트를 모델에 넣기 위해 가장 먼저 해야 할 일은 텍스트를 잘게 나누는 것, 즉 토큰화입니다. 이때 각 토큰에 고유한 숫자 ID를 부여하며, 이 정보를 사전(dict)에 기록합니다.토큰화 방법은 다양하지만, 크게 다음 두 가지 방식이 있습니다:큰 단위 토큰화: 예를 들어 단어 단위로 자르는 방식입니다. 의미 보존에 유리하지만, 새로운 단어가 등장했을 때 처리할 수 없는 OOV(Out-Of-Vocabulary) 문제가 발생합니다.작은 단위 토큰화: 예를 들어 글자 단위로 자르..