Daniel

•

지난주 업무

◦

LLM 평가 질문 및 답변 확장 (100개 → 500개)

▪

Phi-4 → Qwen3 변경 (Phi-4 성능 이슈)

▪

일반 질문 언어별 50문항 (200)

▪

운동관련 질문 언어별 50문항 (200)

▪

연산(운동) 질문 언어별 25문항 (100)

◦

LLM 성능 재평가 

▪

지표 (정확도, 관련성, 논리성, 언어품질, 창의성) 평가 

◦

AI 모델 평가 페이지 (Gemma3 vs Qwen3)

▪

UI / UX

▪

한국어, 영어, 일본어, 대만어(중국번체), 인도네시아어

▪

구글 클라우드 서버 연결

▪

답변 품질 개선 (프롬프트 & 샘플링 하이퍼파라미터 조정)

•

금주 업무

◦

AI 모델 평가 페이지

▪

단어 수 비슷하게, 파라미터 조정

◦

Gemma3 연산 개선

◦

루틴 활용 대비 - json형식으로 답변 나올 수 있도록 (평가)

◦

AI 기획 완료 후

▪

데이터셋 수집 (사용자 DB 기반 데이터 증강)

▪

AI 응답구조 설계 (워크플로우, 파이프라인, RAG 활용 유무)