저널 링크 : https://www.nature.com/articles/s41587-021-00907-6#Abs1 (읽으려면 구매 혹은 대여 필요)

Learning on knowledge graph dynamics provides an early warning of impactful research

James W. Wei Joseph M. Jacobson / Nature Biotechnology (2021)


주제 :

생명공학 연구 저널들의 시계열 데이터를 그래프를 기반으로 머신러닝하여 미래에 영향력이 연구를 찾는 .(네트워크 구조/시간적 역학을 통합-- 그래프 역학에 대한 학습)

내용 :

데이터셋 :  40년간(1980 - 2019) 학습 데이터를 토대로 분석논문, 저자, 소속, 인용, 등을 포함한 29개의 feature사용(모두 반드시 사용X. 사용해 성능이 향상되는 경우에만 기계학습 파이프라인에서 사용). 780만개 이상의 노드, 2 100만개 관계  38억개 계산된 매트릭.

분석 방법 : 데이터수집/병합 -> 동적/이질적 그래프로 구조화 -> 다양한 정량적 매트릭 세트 그래프에서 계신 저장 -> 반복해 기계학습 파이프라인 매트릭 구조에서 차등패턴 학습 -> 결과확인(생명공학 연구의 가장 유망한 5% 분류기반 접근방식을 통해 채택(회귀기반 방법과 함께사용가능), 영향력 있는 연구에 대한 조기 경고 생성 모델).

+ 시간에 따른 논문 그래프의 저차원 표현을 결정하기위해 비지도학습 사용.

결과 :

과학 논문의 자금 조달 포트폴리오 구축을 지원하는 도구 개발. DELPHI(Dynamic Early-warning by Learning to Predict High Impact)

해당 저널의 목차 :

제목 – 저자 – 요약 - 실제 문제 현황 - 간략한 개선 방안 – 현행 연구의 비판점 – 새로 고안한 진화된 기법 소개(데이터세트구성분석기법분석 목적 결과기대효과 간략히) – 결과 소개(실제 모델 적용시의 결과소개 기존 모델과의 비교) – 논의 소개 (분석 기법의 추가적으로 논의해볼수있는 부분추가적인 활용 방안모델 개선 방안기대효과끝맺음말) – 참조 – 행동양식 (세부적인 분석 방법에 대한 설명

 


 

연구방법 관련

환자 대조군 연구 : subjects  질병 유무에 따라 분류해 배경인자나 위험요인에 대해 노출된 정도를 상호 비교

코호트 연구 : subjects  노출여부에 따라 분류하여 일정 기간 집단의 질병 발생 빈도를추적조사해 위험요인에 대한 노출과 특정 질병발생의 연관성을 규명하는

-      Follow-up period : 연구대상자를 follow up 하는 기간

-      Study period : 연구자가 연구를 수행하기 시작하는 시점

~>  시점의 선후관계에 따라 Prospective study retrospective study 나눔.

-      Prospective (전향적 연구) : Study period follow-up period 전에 위치.

-      Retrospective (후향적 연구) : study period follow-up period 이후에 위치.

 

Graph 관련

-      Homogeneous / Heterogeneous Graph
Homogeneous graph : 그래프의 모든 노드가 같은 성질을 갖고 있는 그래프예를 들어인물 관계도가 있다면 모든 노드는 사람을 의미하는 homogeneity 갖는다.
Heterogeneous graph : 위와 반대로 그래프의 노드가 여러 종류의 성질을 가지는 그래프예를 들어 영화-유저 그래프는 어떤 노드는 영화이고어떤 노드는 유저를 의미하는 heterogeneity 갖는다.

-      Dynamic Graph
Dynamic graph :
그래프의 구조는 같지만  node feature edge feature 정보가 시시각각 변화하며 들어오는 경우.  그래프의 구조는 동일한 시계열 데이터를 해석해야하는 경우를 말한다. Spatiotemporal analysis(시공간 분석) 해야한다.

 나는 산업경영공학과를 전공하고 있으며, 소프트웨어에 관심이 있는 학생이다. 특히 인공지능 및 데이터 분야에 관심이 많아 관련한 대학원에 진학할 계획을 세우고 있다. 대학원 진학 후에는, 의료 인공지능 기술을 다루는 회사에 취업하려 한다. 이런저런 고민 끝에, 의료인공지능/뉴로 데이터 분야를 연구하시는 교수님 아래서 학부연구생을 하게 되었다. 이에 해당 분야에 관심을 갖게 된 계기와, 교수님의 연구 분야, 학부연구생 관련 등의 주제에 대해 글을 써보려 한다.

 

# 관심을 갖게된 계기

산업경영공학에서도 데이터에 대해 다루지만, 크게 관심이 있던 주제는 아니었다. 관심을 갖게 된 계기는 2학년 2학기때 전공과목에서 했던 팀 프로젝트 였다. 개인 과제보다도 팀 프로젝트를 좋아하게 된 계기이기도 하다. 프로젝트의 주제는 기업의 서비스를 개선하라는 것이었는데, 우리 팀은 의료 데이터를 활용해 의사결정나무로 심장병 질환을 예측하는 모델링을 했었다. 잘 모르는 주제에 대해 공부하고, 팀원과 고민하며 프로젝트를 개선하는 과정에서 데이터를 다루고 분석하는게 재미있었고, SW쪽 직무가 잘 맞을 것 같다는 생각을 했다. 겨울방학쯤 좀 더 SW를 다루는 기술에 대해 알아보고 싶어 구글API를 이용해 인공지능 스피커를 직접 연동해보고, 원하는 데이터를 넣고 분석하여 사용자가 특정 질문을 하면 분석해 대답해주는 활동에 참여했었는데, 역시 재미있었다. 삶을 유용하게 해주고, 사람들을 도와주는 기술들을 직접 구현해보는 것은 신기하면서도 마음을 들뜨게 했다. 그때부터 데이터분석분야로 진로를 잡고 역량을 쌓을 수 있는 활동을 찾다가 국가에서 IT에 관심있는 대학생들을 위해 마련한 ICT 프로젝트를 발견했다. 그 중 웹서비스 기반의 댓글분석시스템, LSTM을 이용한 주가예측 프로그램 개발 프로젝트를 선택해 지금까지 참여하고 있다. 프로젝트를 위해 PyQt, 웹 프론트엔드, 서버, SQLite, Tensorflow의 자연어처리, 감성분석, 회귀분석 등의 내용을 학습했고, 그 외 이미 공부했던 크롤링, 파이썬 등의 기술을 이용해 프로젝트를 진행하는 중이다. 이 과정에서 Tensorflow Certificate 도 따게 되었고, 데이터 분석뿐 아니라 인공지능에까지 관심이 생기게 되었다.

 

# 교수님의 연구분야

앞으로 내게 많은 경험을 하게 해주실 교수님의 주 연구 분야는 뇌에서 발생하는 신호, 영상 데이터를 측정하고 획득해, 뉴로 데이터를 분석 및 처리 하고 가시화하는 소프트웨어를 개발하는 것이다. 상세하게는 의생명 데이터 분석, 인공지능, 전산 모델링 및 시뮬레이션, 네트워크 신경과학, 지능형 의료(헬스케어) 등으로 말할 수 있겠다. 다양한 연구 분야 중 나는 질환에 대한 초기 진단 분석 기술 개발 및 예측 시스템과, 신호 및 영상 데이터를 수집 및 처리해 시각화 소프트웨어를 개발하는 것에 관심이 있다. 아직은 상세한 연구분야를 정하지는 못했지만, 면접때 말씀해주신 다양한 연구 분야 및 주제를 고려하며 첫 연구 주제를 선정할 예정이다. 아직은 범위를 뇌로 특정하기 보다는, 전반적인 질환에 대해 다뤄보고 싶다. 

 

# 앞으로의 진로

앞서 잠시 언급했듯 나는 석사를 생각하고 있다. 그리고 석사를 마치고, 의료 인공지능 분야를 다루는 회사에 취업하는 것을 목표로 하고 있다. 내가 지금 가고싶다고 생각하는 곳은 '루닛'이라는 회사인데, 영상 및 신호 처리를 통한 조기 질환 예측 기술, 인공지능을 다루는 기술 등이 필요하다고 생각한다. 그래서 학부연구생 및 대학원 생활에서도 논문을 위한 연구보다는 실질적으로 데이터 분석을 해보고 프로그램을 개발해보는 것에 집중하려 한다. 내 스스로 연구에 대한 아이디어를 내고 실행하고, 결과를 분석하는 모든 과정이 내게 큰 도움을 줄 것이라 생각한다. 앞으로 교수님 아래서 학부 연구생으로, 그리고 대학원 생으로 공부하며 국제 학회에도 참석해보고 연구 과제도 해보며 역량을 쌓아가고 싶다. 아직은 많이 부족한 나이고, 연구를 해도 많이 미숙하겠지만.. 그 과정이 무언가를 배우는 경험이 될 수 있도록 노력할 것이다.

 

# 의료 인공지능 분야 (루닛?)

3학년 초, 인공지능 분야에 대해 찾아보다 좋은 기회로 의료 인공지능 분야 기업을 창업하신 대표님의 당연을 듣게되었다. (이 기업이 그 '루닛'이다.) 기업에서 하는 일은 의사가 진료를 볼때, 인공지능을 통해 보조하는 프로그램을 만드는 것이었다. 가령 암이 걸린 폐와 정상적인 폐의 MRI 데이터를 분석해, 새로운 데이터에서 암으로 의심되는 부분을 알려준다거나, 데이터 분석을 통해 치료가 시급한 순으로 환자 데이터를 나열해 보여준다거나, 세포를 분석하여 암세포와 일반세포를 구분한다던가 하는 것이었다. 실제로 의사를 돕고, 환자를 돕는 의료 인공지능의 긍정적인 영향을 들으니, 나도 의료 인공지능 분야로 진로를 잡고 사람들을 돕는 프로그램에 일부라도 기여하고 싶다는 생각이 들었다. 내가 기여한 프로그램으로 사람들을 돕고, 더 나은 세상이 될 수 있도록 사회에 기여할 수 있는 사람이 되고싶다는 생각에 더 노력해야 겠다고 생각했다. 

 

# 열심히하자!

나는 스스로 운이 좋지는 않다고 생각하지만, 이번만큼은 정말 운이 좋았다고 생각한다. 내가 원하는 시기에, 내가 원하는 분야를 연구하는, 내가 원하는 성격과 지도 스타일을 갖춘 좋은 교수님을 만나게 되다니. 학부연구생을 하고 싶어도 우리학과 교수님의 연구분야는 내가 원하는 부분과 살짝 벗어나있어 고민이 많았는데, 다른 학과에서 딱 알맞은 교수님을 컨택하게 되어 너무 너무 좋다. 이 기회를 유용히!! 사용해야겠다. 앞으로 열심히 해야지!!

 

+ Recent posts