Daniel

지난주 업무
LLM 평가 질문 및 답변 확장 (100개 → 500개)
Phi-4 → Qwen3 변경 (Phi-4 성능 이슈)
일반 질문 언어별 50문항 (200)
운동관련 질문 언어별 50문항 (200)
연산(운동) 질문 언어별 25문항 (100)
LLM 성능 재평가
지표 (정확도, 관련성, 논리성, 언어품질, 창의성) 평가
AI 모델 평가 페이지 (Gemma3 vs Qwen3)
UI / UX
한국어, 영어, 일본어, 대만어(중국번체), 인도네시아어
구글 클라우드 서버 연결
답변 품질 개선 (프롬프트 & 샘플링 하이퍼파라미터 조정)
금주 업무
AI 모델 평가 페이지
단어 수 비슷하게, 파라미터 조정
Gemma3 연산 개선
루틴 활용 대비 - json형식으로 답변 나올 수 있도록 (평가)
AI 기획 완료 후
데이터셋 수집 (사용자 DB 기반 데이터 증강)
AI 응답구조 설계 (워크플로우, 파이프라인, RAG 활용 유무)