Deeplearning 2

[Transformer] 어텐션 연산과 핵심 구성 요소

1. 어텐션 연산우리는 글을 읽을 때 모든 단어에 동일한 중요도를 부여하지 않습니다. 어떤 단어들은 특별히 주목하고, 다른 단어들은 상대적으로 덜 집중하며 전체 맥락을 파악합니다. 트랜스포머 모델의 핵심인 어텐션 연산은 이러한 인간의 읽기 방식을 모방한 연산입니다. 1) 어텐션이란 무엇인가?어텐션은 단어들 사이의 관계를 파악하여 문맥을 이해하는 방식으로, 다음과 같은 과정으로 작동합니다:단어와 단어 사이의 관계를 계산하여 관련성의 깊이를 판단관련이 깊은 단어는 더 많이, 관련이 적은 단어는 더 적게 맥락에 반영이 연산은 모델이 문장 내에서 단어 간의 복잡한 관계를 이해하고, 문맥에 따라 단어의 의미를 적절히 해석할 수 있게 합니다. 2. QKV(쿼리, 키, 값) 모델 이해하기트랜스포머 아키텍처를 개발한 ..

DeepLearning 2025.04.14

[DeepLearning] 제목 기반 카테고리 예측 모델 개발

본 내용은 하단 참고자료에 작성된 책에 대한 내용을 기반으로 다시한번 정리한 내용입니다. 예제를 통해 연합뉴스 기사의 제목을 바탕으로 카테고리를 예측하는 딥러닝 모델을 개발하는 과정을 정리하였습니다. 이를 위해 데이터셋 로드부터 모델 학습 및 평가까지의 전체 과정을 단계별로 설명하며, 주요 개념과 코드 실행 결과를 함께 살펴보도록 하겠습니다. 1. 모델 학습에 사용할 연합뉴스 데이터셋 다운로드모델 학습을 위해 KLUE 데이터셋의 YNAT 서브셋을 사용합니다. datasets 라이브러리의 load_dataset 함수를 이용하여 데이터를 로드합니다.from datasets import load_datasetklue_tc_train = load_dataset('klue', 'ynat', split='train..

DeepLearning 2025.02.09
728x90