📌 강의 중점
- Transformer 모델의 Self-Attention 메커니즘 이해
- Encoder-Decoder 구조와 Multi-Head Attention 작동 원리
- Positional Encoding의 역할과 필요성
- Feed-Forward Network와 Residual Connection 이해
- Transformer가 RNN/LSTM을 대체하는 이유
🎯 학습 목표
- Transformer의 전체 아키텍처를 설명하고 각 구성요소의 역할 이해
- Self-Attention과 Multi-Head Attention의 수학적 원리 파악
- Positional Encoding이 시퀀스 정보를 표현하는 방식 이해
- PyTorch를 사용한 Transformer 모델 구현 능력 획득
- 기계 번역 태스크에 Transformer를 적용하는 전체 파이프라인 구축
- Transformer가 BERT, GPT 등 최신 모델의 기반이 되는 이유 파악
이 강의 노트는 "Attention Is All You Need" 논문 (Vaswani et al., NeurIPS 2017)을 기반으로 작성되었습니다.
7. 시계열을 고려한 신경망 모델