안녕하세요. 이번에는 학부 생활을 하며, 2학년 때 간단하게 프로젝트의 설계 단계 부분까지 진행했던 글을 올려보려 합니다.

팀 프로젝트로 진행을 했었고, 다 같이 열심히 참여했던 기억이 납니다 

데이터 분석 관련해서 처음으로 진행하는거라 모르는 것도 참 많았는데, 서로 의견을 많이 나누며 고민을 많이 했던 것 같아요.

파일로 업데이트를 할까 하다가, 그냥 글로 올리는것이 접근성이 좋을 것 같아 올려봅니다. 

간단히 말씀드리면, PLM데이터는 PatientsLikeMe 라는 회사의 데이터 입니다. 이 회사는 (보통) 만성 질병을 가진 환자들의 커뮤니티 사이트를 제공하는 회사에요. 환자들이 자신의 질병 이력들, 처방, 생활, 경과, 식습관, 등 다양한 정보들을 올리고, 또 다른 사람의 정보와 처방법 등을 보며 소통할 수 있는 사이트 입니다. 회사는 이렇게 쌓인 데이터들을 제약회사 등과 공유하며 이익을 얻고, 제약회사는 데이터를 통해 만성 질병 환자를 위한 개선된 약을 개발하는 선순환 구조로 이루어져있다고 할 수 있죠.

저희의 프로젝트는 CRISP-DM 방식을 사용하여, 어떻게 하면 이 회사의 서비스가 더 향상될 수 있을지를 고민해보았습니다. 그러던 중 생각한 아이디어가, 지금까지 누적된 데이터를 바탕으로 질병 예측 서비스를 운영해 만성 질병에 걸린 환자들은 또 다른 질병을 대비하고, 질병에 걸리지 않은 환자들도(기존에 이용 고객이 아니던 사람) 이 서비스를 이용해 앞으로 걸릴 가능성이 있는 질병을 확인하고 조심할 수 있게 하자는 것이었습니다. 이렇게 하면, 새로운 소비자층이 생기게 되니 1석 2조 겠죠. 

그렇게 질병 예측 서비스를 만들고자 하였는데, 가장 큰 문제점은 데이터를 어떻게 얻을 것인가? 였습니다. 프로젝트가 PLM 사의 서비스를 개선하는 것인 만큼, 다른 곳의 데이터 보다도 PLM 사의 데이터가 필요했으니까요. 그래서 데이터 수집을 위해 저희가 가장 먼저 해본 행동은, PLM 사 측에 데이터를 어떤 식으로 구매할 수 있는지에 대해 문의한 것이었습니다. PLM 사에서는 데이터를 구매하는 방법에 대해 안내해줬고, 학교에서 하는 프로젝트다보니 학교 측에도 함께 문의를 넣었었는데요, 데이터의 구매는 조금 어려울 것 같다는 내용을 받았습니다. (아무래도 시간적인 부분때문에 더 그랬던 것 같아요)

사실 중요한 것은 만성 질병 예측 모델을 만드는 것이니 꼭 PLM 데이터가 아니어도 될 것이라는 판단에, 인터넷상(Kaggle 등) 에서 구할 수 있는 만성 질병 관련 데이터셋을 찾아 다운 받았습니다. 선별의 기준은 저희가 원하는 Attribute 가 모두 포함되어 있는지, 데이터의 갯수가 충분한지 등이었습니다. 참! 그리고 만성 질병 예측 모델 은 너무 광범위하다는 판단에, 만성 질병 중에서도 환자1순위라 알려져있는 심장병 예측 모델로 세부적인 범위를 잡게 되었습니다. 

이후 저희는 해당 데이터를 전처리하고, 의사결정나무 모델을 채택해 모델링을 하였습니다. (제 기억으로는 R을 이용했었고, 추가적으로 삼성 SDS의 Brightics 플랫폼도 경험해보자! 는 의견이 나와서 그것도 써보았었습니다)  데이터를 전처리 할 때와 모델링을 할 때 모두 많은 고민을 했었습니다. 가령 Target 데이터 값이 너무 치우쳐져서 유의미한 모델이 안나오는데 어떻게 할 것인지, Test Accuracy 와 Target Accuracy 의 그래프가 정상적인 모습이 아니라던지, 등.. (관련해서는 이후 문서를 봐주세요)

아무튼! 모델링이 끝난 후, 모델에 대한 평가를 진행했었고 그렇게 저희 프로젝트는 마무리를 했었습니다. 

이건 요약본이라 부를 수도 없는 정도이니, 이후 올린 1. Proposal, 2. Intermediate, 3. Final 문서를 봐주세요! 

감사합니다.

 


해당 과정은 수업때 교수님께서 Entropy를 엑셀로 직접 계산해 풀 것, 그리고 모델은 의사결정나무로 할 것이라는 제한을 두셔서 Accuracy가 높게 나오진 못한 것 같습니다.

다음번에는 같은 주제에 대해 이러한 제한을 두지 않고 더 많은 방법으로, 다양한 모델을 비교해가며 Accuracy를 높이는것만을 위해서도 프로젝트를 진행해보도록 해보겠습니다.

 

+ 내용추가)

 

아래 링크는 본문의 내용과 같은 주제로 진행한 프로젝트 결과인데요, (=만성질환 =>당뇨병)

* 주제만 같을뿐 사용한 툴, 데이터의 전처리방식, 사용된 모델 등 프로젝트의 내용은 전혀 다릅니다!

제약이 많았던 2학년때의 프로젝트 이후, 제약 없이 진행한 3학년때의 프로젝트 결과입니다!

✨A.I.D.D, 최우수상 수상! 2021, AI 당뇨병 발병 예측 데이터톤 참여, 시상식 후기 <전국구 132팀중 최종 2등>✨

 

✨A.I.D.D, 최우수상 수상! 2021, AI 당뇨병 발병 예측 데이터톤 참여, 시상식 후기 <전국구 132팀중 최

안녕하세요! 시험기간이기도 하고, 이래저래 진행되는 프로젝트나 일정이 많아 오랜만에 인사드리게 되었네요. 오늘의 소식은 전국구 데이터톤! Artificial Intelligence Diabetes Datathon, AIDD -인공지능

checherry.tistory.com

 

+ Recent posts