
이번 주에는 자연어 처리(NLP)의 핵심 모델인 Transformer 구조와 이를 기반으로 발전한 GPT, BERT 모델에 대해 학습했다.
- Transformer 구조
- 2017년 논문 "Attention is All You Need"에서 소개된 구조로, RNN/CNN 없이도 시퀀스를 처리할 수 있는 모델
- 핵심 구성 요소:
- Self-Attention: 단어 간 관계를 가중치로 표현
- Multi-Head Attention: 다양한 시각에서 관계를 파악
- Position Encoding: 순서를 반영하기 위한 추가 정보
- Encoder-Decoder 구조: 전체 문맥을 인코딩하여 출력 생성
- 장점: 병렬 처리 가능, 긴 문맥도 잘 반영
- BERT (Bidirectional Encoder Representations from Transformers)
- Google에서 제안한 양방향 인코더 기반의 모델
- Masked Language Modeling (MLM)과 Next Sentence Prediction (NSP)을 통해 사전 학습
- 입력 문장의 양방향 문맥을 고려하여 의미 파악에 유리함
- 주로 문장 분류, 개체명 인식(NER), 질의응답 등에 사용
- GPT (Generative Pre-trained Transformer)
- OpenAI에서 제안한 디코더 기반의 언어 생성 모델
- 입력을 순차적으로 예측하는 Autoregressive 방식
- 단방향(왼쪽 → 오른쪽)으로 문맥을 학습
- 대화형 모델, 텍스트 생성 등 생성(task)에 특화
Transformer 구조의 등장이 NLP 모델의 발전을 크게 앞당겼다는 점이 인상 깊었다. 특히 BERT는 문맥 이해에 강하고, GPT는 텍스트 생성 능력이 뛰어난 등 각각의 모델이 목적에 따라 최적화되어 있다는 점이 흥미로웠다. 복잡한 수식보다는 구조 간의 차이와 활용 목적에 집중하면서 개념을 이해하는 데 도움이 되었다. 실습을 통해 attention 시각화도 확인해보았고, 향후에는 Hugging Face 라이브러리로 직접 파인튜닝해보고 싶다.
본 후기는 [한글과컴퓨터x한국생산성본부x스나이퍼팩토리] 한컴 AI 아카데미 (B-log) 리뷰로 작성 되었습니다.
'HANCOM AI ACAMEMY > 학습일지 🗒️' 카테고리의 다른 글
| [스나이퍼팩토리] 한컴AI아카데미 19주차 (0) | 2025.06.06 |
|---|---|
| [스나이퍼팩토리] 한컴AI아카데미 18주차 (0) | 2025.05.28 |
| [스나이퍼팩토리] 한컴AI아카데미 16주차 (0) | 2025.05.16 |
| [스나이퍼팩토리] 한컴AI아카데미 15주차 (0) | 2025.05.08 |
| [스나이퍼팩토리] 한컴AI아카데미 14주차 (2) | 2025.05.02 |
댓글