![](https://tistory1.daumcdn.net/tistory_admin/blogs/image/category/new_ico_5.gif)
언어 모델을 효과적으로 활용하려면 모델을 최적화하고 경량화하는 과정이 중요합니다. 이번 포스트에서는 모델의 추론 과정, KV 캐시, 양자화, 지식 증류 등의 개념을 직관적으로 정리해보겠습니다.1. 언어 모델이 텍스트를 생성하는 방식1.1 언어 모델이 텍스트 생성을 마치는 이유EOS(End of Sequence) 토큰 생성문장이 끝났음을 알리는 특수 토큰을 생성할 경우 텍스트 생성을 종료합니다.최대 길이 도달사용자가 설정한 최대 토큰 길이에 도달하면 텍스트 생성을 종료합니다.1.2 자기 회귀적(Auto-Regressive) 모델언어 모델은 입력된 텍스트를 기반으로 다음 토큰을 하나씩 순차적으로 예측합니다. 즉, 이전에 생성된 토큰들을 다시 모델 입력으로 넣어 다음 토큰을 예측하는 과정을 반복합니다.2. 중..