어텐션 3

[Transformer] 인코더와 디코더

1. 인코더인코더는 입력 텍스트를 이해하고 의미를 추출하는 역할을 합니다. 기본적으로 여러 개의 동일한 층이 반복되는 구조로 되어 있습니다. 1) 인코더의 주요 구성 요소층 정규화(Layer Normalization): 데이터의 분포를 조정하여 학습을 안정화멀티 헤드 어텐션(Multi-Head Attention): 입력 시퀀스의 다양한 관계를 파악피드 포워드 층(Feed Forward Layer): 비선형 변환을 통해 표현력 강화 2) 잔차 연결잔차 연결은 이미지에 보이는 것처럼 원래 입력값을 각 하위 층의 출력에 더해주는 방식을 말합니다. 그래디언트 소실 문제 해결: 깊은 네트워크에서 학습 신호가 손실되는 문제 방지학습 안정화: 층이 많아져도 안정적인 학습 가능정보 보존: 원본 정보가 네트워크를 통과..

DeepLearning 2025.04.15

[Transformer] 어텐션 연산과 핵심 구성 요소

1. 어텐션 연산우리는 글을 읽을 때 모든 단어에 동일한 중요도를 부여하지 않습니다. 어떤 단어들은 특별히 주목하고, 다른 단어들은 상대적으로 덜 집중하며 전체 맥락을 파악합니다. 트랜스포머 모델의 핵심인 어텐션 연산은 이러한 인간의 읽기 방식을 모방한 연산입니다. 1) 어텐션이란 무엇인가?어텐션은 단어들 사이의 관계를 파악하여 문맥을 이해하는 방식으로, 다음과 같은 과정으로 작동합니다:단어와 단어 사이의 관계를 계산하여 관련성의 깊이를 판단관련이 깊은 단어는 더 많이, 관련이 적은 단어는 더 적게 맥락에 반영이 연산은 모델이 문장 내에서 단어 간의 복잡한 관계를 이해하고, 문맥에 따라 단어의 의미를 적절히 해석할 수 있게 합니다. 2. QKV(쿼리, 키, 값) 모델 이해하기트랜스포머 아키텍처를 개발한 ..

DeepLearning 2025.04.14

[Transformer] RNN과 트랜스포머 아키텍처의 이해

딥러닝 기반 자연어 처리 기술은 최근 몇 년간 혁신적인 발전을 이루었습니다. 이 발전의 중심에는 RNN(순환신경망)에서 트랜스포머 아키텍처로의 패러다임 전환이 있었습니다. 이번 글에서는 두 모델의 특징과 차이점, 그리고 트랜스포머가 어떻게 기존 RNN의 한계를 극복했는지 알아보겠습니다.1. 순환신경망(RNN)의 구조와 한계RNN은 시퀀스 데이터를 처리하기 위한 초기 딥러닝 모델로, 텍스트를 순차적으로 하나씩 처리하는 특징을 가집니다.  1) RNN의 작동 방식텍스트의 각 토큰(단어)을 하나씩 순차적으로 입력이전 토큰 처리 결과를 다음 토큰 처리에 활용이런 순환 구조가 시퀀스 데이터 처리에 적합2) RNN의 한계점 순차적 처리로 인한 비효율병렬 처리가 불가능해 학습 속도가 느림긴 시퀀스 처리 시 계산 시간..

DeepLearning 2025.04.10
728x90