공업일반은 한국 직업탐구 영역의 한 과목으로, 기계·전기·화학·건설 등 다양한 공업 분야의 기초 개념을 다루는 고등학교 교육 과정입니다. 이 프로젝트에서는 LG AI Research의 Exaone 4.0 소형 언어 모델(약 1.2억 파라미터)을 기반으로 공업일반 과목에 특화된 맞춤형 학습 AI를 구축하였습니다. EBS 교재와 기출문제 등 풍부한 도메인 데이터를 활용하여 모델을 파인튜닝함으로써, 해당 과목 문제 풀이에 최적화된 AI를 만들어보고자 했습니다. 아래에서는 데이터셋 구축, 모델 파인튜닝 과정, 그리고 성능 평가 결과와 주요 인사이트를 상세히 보고합니다.
데이터셋은 공업일반 도메인의 지식을 충분히 학습시키기 위해 다양한 원본 자료로부터 구축되었습니다. 사용된 주요 원본 자료는 다음과 같습니다:
위 자료들은 대부분 PDF 또는 이미지 형식이어서, 텍스트 추출 및 구조화를 위한 전처리 과정이 필요했습니다. 이를 위해 자체 개발한 gemini_response_v1 파이프라인을 활용하였으며, 각 챕터별 개념 정리와 문제-정답-해설 구조를 JSON으로 변환 처리했습니다. 이미지에서 문제와 해설을 OCR로 인식한 뒤, 선택지와 정답을 매칭하고 해설 부분까지 구조화하는 일련의 과정은 그림 1의 파이프라인과 같이 자동화되었습니다. 변환 과정에서 **정답 매칭률 약 85%**를 달성하여 대부분의 문제에 정답과 해설이 정확히 연결되었고, 누락된 부분은 규칙 기반 보정으로 보완되었습니다. 최종 산출된 학습 데이터는 5,000여 개의 문제 및 Q&A 항목으로, 이를 JSON Lines 포맷의 훈련(train.jsonl) 및 검증(valid.jsonl) 파일로 저장하였습니다.
모델은 LG AI 연구원이 공개한 EXAONE-4.0-1.2B 언어 모델을 사용했습니다 . 이 모델은 한국어 및 영어 능력이 우수한 하이브리드 아키텍처 기반의 중소규모 LLM으로, 공업일반 분야에 특화된 지식을 학습시키기에 적합합니다. 파인튜닝에는 메모리 효율을 높이기 위해 4-bit QLoRA 기법이 적용되었습니다. QLoRA란 사전학습 모델을 4비트로 양자화하여 메모리를 대폭 줄인 상태에서, LoRA (Low-Rank Adaptation) 레이어만 학습하는 방식입니다 . 이를 통해 한정된 자원으로도 대규모 모델의 미세조정이 가능해집니다.
학습 시에는 사전학습된 모델의 대부분 파라미터를 고정하고 LoRA 모듈만 업데이트하였으며, 효과적인 하이퍼파라미터 설정은 아래와 같습니다:
# 파인튜닝 모델 및 LoRA 구성
base_model: LGAI-EXAONE/EXAONE-4.0-1.2B
quantization: 4-bit (QLoRA)
lora_layers: 24 # LoRA 적용 레이어 수
lora_rank: 4 # 랭크 (보조 행렬 차원)
lora_alpha: 8 # 스케일 계수
lora_dropout: 0.15 # 드롭아웃 비율
# 학습 하이퍼파라미터
epochs: 10 # 총 10 에폭 (약 750 iteration)
learning_rate: 2e-5 # 초기 학습률 (코사인 감쇠 적용)
batch_size: 128 # 유효 배치 크기 (gradient accumulation)
모델의 파인튜닝 과정은 약 10 epoch 동안 진행되었으며, 한 epoch마다 전체 데이터셋을 순회하면서 모델이 공업일반 문제와 해설을 학습하도록 했습니다. 학습률은 2×10^-5에서 cosine decay 스케줄로 점진 감소시켜 최적화를 안정화하였고, 배치 크기는 128의 유효 크기가 되도록 조정하였습니다 (실제 배치의 gradient를 누적하여 효과적인 크기를 달성). 또한, LoRA 적용 레이어 수를 모델의 일부로 제한(num_layers=24)하여 미세조정 범위를 조절하고 학습 효율을 높였습니다. Dropout 0.15를 주어 과적합을 방지하였고, rank=4, alpha=8 설정을 통해 LoRA 보조행렬의 기여도를 적절히 조정하였습니다. 이러한 설정 하에 750 step가량의 파인튜닝을 수행한 결과, 안정적으로 수렴하면서도 원본 모델 대비 향상된 성능을 얻을 수 있었습니다.
파인튜닝을 완료한 모델을 평가하기 위해, 앞서 준비한 검증용 문제(공업일반 20문항) 세트를 활용하여 원본 모델과의 성능 비교 테스트를 진행했습니다. 또한 GPT-4o mini 모델(동일한 문제에 대한 GPT-4 기반 소형 모델의 응답)을 참고 점수로 포함하여, 세 모델의 문제 정답률과 점수를 비교했습니다. 아래는 그 평가 결과의 요약입니다:
모델별 정답률 및 점수 비교 차트. 파란색=원본 모델, 녹색=파인튜닝 모델, 빨간색=GPT-4o mini. 파인튜닝 모델이 가장 높은 정답 개수와 점수를 기록했고, GPT-4o mini가 그 뒤를 이었다.