•
지난주 업무
◦
선정된 모델 테스트 및 베이스 모델 채택
◦
LLM 평가 질문 및 답변 생성 (Gemma3, Phi-4, Qwen2.5 모델)
▪
일반 질문 (과학, 수학, 사회, 문화 등) 언어별 25문항 (총 100개)
◦
•
금주 업무
◦
LLM 평가 질문 및 답변 확장 (100개 → 500개)
▪
Phi-4 → Qwen3 변경 (Phi-4 성능 이슈)
▪
일반 질문 언어별 50문항 (200)
▪
운동관련 질문 언어별 50문항 (200)
▪
연산(운동) 질문 언어별 25문항 (100)
◦
LLM 성능 재평가
▪
지표 (정확도, 관련성, 논리성, 언어품질, 창의성) 평가
▪
블라인드 평가 (대인평가)