저널 링크 : https://www.nature.com/articles/s41587-021-00907-6#Abs1 (읽으려면 구매 혹은 대여 필요)
Learning on knowledge graph dynamics provides an early warning of impactful research
James W. Wei & Joseph M. Jacobson / Nature Biotechnology (2021)
주제 :
생명공학 연구 저널들의 시계열 데이터를 그래프를 기반으로 머신러닝하여 미래에 영향력이 클 연구를 찾는 것.(네트워크 구조/시간적 역학을 통합-- 그래프 역학에 대한 학습)
내용 :
데이터셋 : 약 40년간(1980 - 2019)의 학습 데이터를 토대로 분석. 논문, 저자, 소속, 인용, 등을 포함한 29개의 feature사용(모두 반드시 사용X. 사용해 성능이 향상되는 경우에만 기계학습 파이프라인에서 사용). 780만개 이상의 노드, 2억 100만개 관계 미 38억개 계산된 매트릭.
분석 방법 : 데이터수집/병합 -> 동적/이질적 그래프로 구조화 -> 다양한 정량적 매트릭 세트 그래프에서 계신 및 저장 -> 반복해 기계학습 파이프라인 매트릭 간 구조에서 차등패턴 학습 -> 결과확인(생명공학 연구의 가장 유망한 5%를 분류기반 접근방식을 통해 채택(회귀기반 방법과 함께사용가능), 영향력 있는 연구에 대한 조기 경고 생성 모델).
+ 시간에 따른 각 논문 별 그래프의 저차원 표현을 결정하기위해 비지도학습 사용.
결과 :
과학 논문의 자금 조달 포트폴리오 구축을 지원하는 도구 개발. DELPHI(Dynamic Early-warning by Learning to Predict High Impact)
해당 저널의 목차 :
제목 – 저자 – 요약 - 실제 문제 현황 - 간략한 개선 방안 – 현행 연구의 비판점 – 새로 고안한 진화된 기법 소개(데이터세트, 구성, 분석기법, 분석 목적 및 결과, 기대효과 간략히) – 결과 소개(실제 모델 적용시의 결과소개 및 기존 모델과의 비교) – 논의 소개 (분석 기법의 추가적으로 논의해볼수있는 부분, 추가적인 활용 방안, 모델 개선 방안, 기대효과, 끝맺음말) – 참조 – 행동양식 (세부적인 분석 방법에 대한 설명)
연구방법 관련
환자 대조군 연구 : subjects 를 질병 유무에 따라 분류해 배경인자나 위험요인에 대해 노출된 정도를 상호 비교
코호트 연구 : subjects 를 노출여부에 따라 분류하여 일정 기간 두 집단의 질병 발생 빈도를추적조사해 위험요인에 대한 노출과 특정 질병발생의 연관성을 규명하는 것
- Follow-up period : 연구대상자를 follow up 하는 기간
- Study period : 연구자가 연구를 수행하기 시작하는 시점
~> 이 두 시점의 선후관계에 따라 Prospective study와 retrospective study로 나눔.
- Prospective (전향적 연구) : Study period가 follow-up period 전에 위치.
- Retrospective (후향적 연구) : study period가 follow-up period 이후에 위치.
Graph 관련
- Homogeneous / Heterogeneous Graph
Homogeneous graph : 그래프의 모든 노드가 같은 성질을 갖고 있는 그래프. 예를 들어, 인물 관계도가 있다면 모든 노드는 사람을 의미하는 homogeneity를 갖는다.
Heterogeneous graph : 위와 반대로 그래프의 노드가 여러 종류의 성질을 가지는 그래프. 예를 들어 영화-유저 그래프는 어떤 노드는 영화이고, 어떤 노드는 유저를 의미하는 heterogeneity를 갖는다.
- Dynamic Graph
Dynamic graph : 그래프의 구조는 같지만 각 node의 feature와 edge feature의 정보가 시시각각 변화하며 들어오는 경우. 이 때 그래프의 구조는 동일한 시계열 데이터를 해석해야하는 경우를 말한다. Spatiotemporal analysis(시공간 분석)를 해야한다.