정말 오랫만에 머신러닝 문제에 도전해볼 기회가 찾아왔습니다. 마침 이번 챌린지를 통해 채용 가능한 기업 중에 관심이 가는 곳도 있어 겸사겸사 꿀같은 토요일 하루를 통채로 사용해 도전해 보았네요
안타깝게도 머신러닝 관련 스킬이 부족해 좋은 성적은 못 거두었을 것 같지만 간단히 느낀점을 정리해보자면
⭐️ 문제와 조건을 잘 읽어 보자!
이번 챌린지에서 가장 골치아팠던 부분은 어떻게 답안을 제출해도 0.0의 점수를 기록했던 것 입니다. 결과적으론 예제 코드만으로는 부족했고 sample submission 파일을 열어 제대로 확인을 해봤어야 했습니다..
⭐️ EDA는 시간을 들여서 제대로!
데이터 불균형 문제는 머신러닝 필드에선 흔하지만.. 아직은 예제 데이터만으로도 허덕이는 실력이라… 처음으로 고민을 해본 것 같네요. 당연히 모델 학습부터 어떻게 할까 고민을 하다보니 막상 데이터 분석은 뒷전이라 라벨이 불균형하다 못해 아얘 데이터가 없는 라벨도 있다는 사실을 뒤늦게 깨달았습니다..
개인적인 해결책으론 weighted sampling과 label smoothing loss로 시도해보는 것 이었는데, 결과는 나쁘진 않은 것 같네요!
⭐️ 의외의 점수
마지막 시간까지 고민을 해가며 어떻게 해서든 리더보드에서 30등 안에 들어보자(1페이지에 30명이라..)는 목표로 최후의 순간까지 튜닝을 하고 있었는데, 결국 공개 리더보드는 40등 밖에 있어 아쉬워 하고 있었습니다.
그러나 마지막 순간, 시간이 끝나버리면서 아쉬운 마음에 최종 리더보드를 확인해보는데!! 20등보다 안쪽으로 들어오면서 당당히 첫페이지에 입성하는 쾌거를 이루었습니다!!
아마도 학습용 데이터에는 없었던 라벨 데이터가 최종 테스트 케이스에 포함되어 있었는데, label smoothing loss가 큰 역할을 해준 것 같네요!
⭐️ 토요일은 날라갔지만 뿌듯!
'후기' 카테고리의 다른 글
[후기] 사이버펑크 2077, 약스포(?) (0) | 2020.12.29 |
---|