Daniel

•

지난주 업무 

◦

선정된 모델 테스트 및 베이스 모델 채택

◦

LLM 평가 질문 및 답변 생성 (Gemma3, Phi-4, Qwen2.5 모델)

▪

일반 질문 (과학, 수학, 사회, 문화 등) 언어별 25문항 (총 100개)

◦

LLM 성능 평가 (정확도, 관련성, 논리성, 언어품질, 창의성)

▪

3가지 모델 비교할 수 있도록 페이지 구성

▪

Model Answer Comparison

•

금주 업무

◦

LLM 평가 질문 및 답변 확장 (100개 → 500개)

▪

Phi-4 → Qwen3 변경 (Phi-4 성능 이슈)

▪

일반 질문 언어별 50문항 (200)

▪

운동관련 질문 언어별 50문항 (200)

▪

연산(운동) 질문 언어별 25문항 (100)

◦

LLM 성능 재평가 

▪

지표 (정확도, 관련성, 논리성, 언어품질, 창의성) 평가 

▪

블라인드 평가 (대인평가)