Daniel

지난주 업무
선정된 모델 테스트 및 베이스 모델 채택
LLM 평가 질문 및 답변 생성 (Gemma3, Phi-4, Qwen2.5 모델)
일반 질문 (과학, 수학, 사회, 문화 등) 언어별 25문항 (총 100개)
LLM 성능 평가 (정확도, 관련성, 논리성, 언어품질, 창의성)
3가지 모델 비교할 수 있도록 페이지 구성
금주 업무
LLM 평가 질문 및 답변 확장 (100개 → 500개)
Phi-4 → Qwen3 변경 (Phi-4 성능 이슈)
일반 질문 언어별 50문항 (200)
운동관련 질문 언어별 50문항 (200)
연산(운동) 질문 언어별 25문항 (100)
LLM 성능 재평가
지표 (정확도, 관련성, 논리성, 언어품질, 창의성) 평가
블라인드 평가 (대인평가)