•
지난주 업무
◦
LLM 평가 질문 및 답변 확장 (100개 → 500개)
▪
Phi-4 → Qwen3 변경 (Phi-4 성능 이슈)
▪
일반 질문 언어별 50문항 (200)
▪
운동관련 질문 언어별 50문항 (200)
▪
연산(운동) 질문 언어별 25문항 (100)
◦
LLM 성능 재평가
▪
지표 (정확도, 관련성, 논리성, 언어품질, 창의성) 평가
◦
AI 모델 평가 페이지 (Gemma3 vs Qwen3)
▪
UI / UX
▪
한국어, 영어, 일본어, 대만어(중국번체), 인도네시아어
▪
구글 클라우드 서버 연결
▪
답변 품질 개선 (프롬프트 & 샘플링 하이퍼파라미터 조정)
•
금주 업무
◦
AI 모델 평가 페이지
▪
단어 수 비슷하게, 파라미터 조정
◦
Gemma3 연산 개선
◦
루틴 활용 대비 - json형식으로 답변 나올 수 있도록 (평가)
◦
AI 기획 완료 후
▪
데이터셋 수집 (사용자 DB 기반 데이터 증강)
▪
AI 응답구조 설계 (워크플로우, 파이프라인, RAG 활용 유무)