HANCOM AI ACAMEMY/학습일지 🗒️

[스나이퍼팩토리] 한컴AI아카데미 18주차

c'est sunny 2025. 5. 28.

 

 

다음 주 프로젝트 시작에 앞서 LLM 관련 몇몇 개념들을 간단하게 복습해보겠음. 나는 사실 프론트엔드 파트 맡으려고 맘을 먹었기 땜시 복잡한 로직은 살짝 모른 척하고 싶지만 서비스를 더 잘 구현하려면 나도 전체 구조에 대한 이해가 필요하고, 또 명색이 AI 아카데미 일원으로서 어디 가서 아는 척은 해야하니까 후후 ㅎ >< 

 

 

요즘 나의 행복 : 점심시간마다 불닭 먹기 (집에서 먹음 꼭 잔소리 들음 ㅎ)

 

 

 

1. LLM 기반 서비스 구조 개요

우리가 법 문서나 교육 자료처럼 특정한 지식에 기반한 질문 응답 서비스를 만들고 싶다면, 단순히 GPT API만 호출하는 걸로는 부족함.

이유는 

- GPT는 최신 정보나 특정 도메인의 세부사항을 학습하지 않았을 수 있음

- 따라서 사용자 질문에 대해 신뢰할 수 있는 정확한 근거 문서 기반 응답을 만들기 위해서는 구조적인 접근이 필요함

이때 등장하는 개념이 바로 RAG(Retrieval-Augmented Generation)

 

2. RAG (Retrieval-Augmented Generation)

1) GPT와 같은 언어 모델이 정답을 상상하는 게 아니라, 외부 문서를 검색(Retrieval)해서, 그 내용을 바탕으로 답변을 생성(Generation)하는 구조

2) 흐름: 질문 입력 → 관련 문서 검색 → GPT에 함께 전달 → 문서 기반 답변 생성

3) 구성 요소:

- Retrieval: 문서 검색. 사전 수집한 문서들을 벡터화해 벡터DB(예: FAISS, Chroma 등)에 저장한 후, 질문과 유사한 내용을 찾아냄

- Generation: 검색된 문서를 GPT에게 “참고자료”로 제공하여, 그것을 바탕으로 응답 생성

4) 장점

- 근거 기반 응답 (출처가 명확)

- 최신 정보나 특정 도메인 지식 반영 가능

- 할루시네이션(헛소리) 감소

 

3. LangChain

RAG 시스템을 빠르게 구축할 수 있도록 도와주는 Python 기반 오픈소스 프레임워크
1) 역할 : 
- 문서 로딩, 전처리, 벡터화, 검색 등 파이프라인을 간단하게 구성 가능
- 프롬프트 템플릿 관리
- 여러 LLM, 벡터DB, 도구 연동 지원 (OpenAI, Cohere, Pinecone, Chroma 등)
2) 예시 기능들:
- DocumentLoader: PDF, 웹사이트, Notion 등에서 문서 불러오기
- TextSplitter: 문서 chunking
- Embeddings: 문서 벡터화
- RetrievalQA: 질문 → 검색 → 응답까지 자동 처리

 

4. 요약

역할 개념 설명

지식 전달자 LLM (ex. GPT-4) 문서를 바탕으로 질문에 대한 답변 생성
문서 공급자 RAG 구조 외부 문서를 검색해서 GPT에 전달
도구 조립기 LangChain 이 모든 걸 연결해주는 프레임워크

 

 

+ ) 왜 문서를 수집하고 전처리하는가?

GPT는 자체적으로 특정 문서를 “기억”하고 있는 것이 아님 → 사용자가 직접 크롤링, 정리한 문서를 벡터DB에 넣고 검색하는 구조를 통해 GPT가 참고할 수 있는 문맥을 제공해야 함 →  문서는 일반적으로 쪼개기(chunking) 및 벡터화(embedding) 과정을 거쳐야 검색 가능함

 

 

 

 

 

 

우리가 어느 정도로 deep하게 프로젝트 주제를 정하느냐에 따라 다를 것 같긴 한데 일단 이 정도만 봤을 땐 괜찮은데 ㅎㅎ?

어차피 똑똑한 사람들이 모델 다 개발해놨잖여 ~ 기대된다ㅎㅎ 이거 하려고 여태 수업 들은 거자나 ? 플젝 화띵~  > < 

 

 

 

 

본 후기는 [한글과컴퓨터x한국생산성본부x스나이퍼팩토리] 한컴 AI 아카데미 (B-log) 리뷰로 작성 되었습니다.

 

댓글