실내자전거가 와서 열심히 운동을 했다.

앞서 계획했던 대로, 9.11일에 4.5km부터 시작하여 점차 늘려서 6km로 매일매일 꾸준히 탔다.

다만 9.18일에 백신을 맞았는데, 접종 후 1주간은 운동을 삼가라고 해서 23일까지 운동을 쉬었다. (추석이라 본가에 잠시 내려와있기도 하고..)

6km로 타면 시간은 대략 22분정도 나오는 것 같다.

이정도는 체력적으로 괜찮아서 앞으로는 다시 0.5km씩 늘려가며 10km에서 유지할 생각이다.

0924 다시 시작-6km

0925 6.5km ... 

체중은 아직 변함 없지만 눈바디로는 볼살, 뱃살이 조금 빠져보인다.

앞으로도 파이팅!

 

 

 

 

'여가생활 > 헬스·테니스·러닝' 카테고리의 다른 글

운동시작!  (0) 2021.09.13

캡스톤디자인 수업이 시작된 후, 저희 팀의 주제는 2 가지로 추려졌는데요.

각 주제에 대해 자료조사 해온 것을 토대로 주제를 드디어 확정하였습니다.

저희 팀의 주제는 "뇌파 신호 데이터(EEG) 감성분석을 통한 감성 맞춤형 음악 작곡 시스템 개발" 입니다!

관련 주제가 재미있기도 하고, 데이터셋도 구할 수 있고, 다양한 시도를 해볼 수 있을 것 같아 선정하게 되었습니다. 

이에, 해당 주제에 대해 간략히 자료조사 해왔던 내용을 업로드 합니다.

팀원들이 소프트웨어융합학과이기도 하고, 다들 연구 경험이 있으며 열심히 하시는 분들같아 이번 연구 잘 마무리할 수 있을 것 같습니다. 가능하면 논문까지 작성해서, 학회에 등재해 상을 받을 수 있었으면 좋겠네요.

+ 팀명은 IDEA-M 로 정했습니다. ㅎㅎ (Insight of EEG data analysis-Music의 약자입니다) 

 

 

---- 아래는 참고자료 정리본 ---

 

본인작성

(논문1) 뇌파의 실용적 활용을 통한 감성분석 기반 음악추천 시스템

 

Dataset : 

음악코퍼스-2400여곡의 k-pop음원으로 구성된 KETIafa200, 

직접 뇌파 수집(우리도 예산으로 15~20만원대 뇌파 밴드 구입하여 평가할때 사용해도 괜찮을듯)

 

모델링과정:

EEG 신호의 특질 정보 추출. 1개의 신호를 5개 에너지 대역 간의 분포를 추출해 특질 정보로 활용->델타파,쎄타파,알파파,베타파,감마파로 분리.

 

EEG신호로 빠른 퓨리에 변환을 수행, 5개 밴드별 에너지 분포를 추출해 RBF(Radical Basis Function) 커널 함수를 적용한 SVM 이진분류기로 선호/비선호 학습(감정분석)

(이 부분은 본 프로젝트의 목적에 맞게 모델을 바꾸고 다중분류로 진행하여, 세부적인 감정을 파악하도록 바꾸면 될 것)

 

8초 단위의 subsample로 분리해, 학습기로 분류한뒤, ’선호/비선호’ 중 전체곡(1곡내)에서 많이 결정되는 분류로 해당 음악에 대한 사용자 선호도 결정.

높은성능신호:T7,T8,O1,AF3,F3 / 낮은성능신호:FC6,FC5,P8

 

의의:

뇌파분석을 통한 사용자의 감성을 자동적으로 분류하는 방식으로, 멀티태스킹 환경에 익숙한 사용자들의 음악청취를 위한 소모적인 상호작용을 없애는 새로운 방식의 인터페이스 환경 실험

 

(논문2) 딥러닝을 이용한 BGM 음원 작곡 서비스 설계 및 구현

Dataset : 

ABC notation 악보를 데이터로 사용. (악보를 A~G까지 문자 표기법을 사용하여 나타낸 것.)

아래의 링크에서 코드확인(3명) 및 데이터셋 다운 가능(추후 관련 데이터셋 및 코드를 더 찾아보겠음)

https://www.kaggle.com/raj5287/abc-notation-of-tunes/code

번호,제목,작곡가,음표,길이,음계등이포함되어있고각알파벳별로의미하는것이정해져있음.

 

모델링과정:

ABCnotation(곡)을 분위기 별로 분류,

TEXT 형태의 데이터로 저장이 되면, 전처리 과정에 들어감. (곡에 있는 모든 음은 사전 형태로 매핑됨)

이를 입력 데이터로 사용하기 위해 벡터화함 (원핫인코딩)

LSTM으로 학습 진행, 입력 데이터의 갯수 6개씩. (너무작으면오류,너무길면예측제대로안됨)

6개로 이루어진 하나의 데이터와, 이 데이터의 다음에 오는 하나의 데이터를 타겟으로하여 학습이 진행됨.

한 스텝씩 밀리면서 모든 데이터셋에 대한 학습과정 반복.

ModelSaving에서,생성된 모델을 사용자가 초기에 설정한 임의의 곡 분위기별로 저장.

 

의의:

본 논문은 ABC Notation을 분위기별로 분류하여 딥러닝으로 학습하고 여기서 만들어진 모델을 통해 기존에 없던 새로운 음악을 사용자가 이용할 수 있다. 이 사용자들은 음악적 지식 없이 작곡할 수 있 고 인공지능으로 작곡을 했기 때문에 기존의 작곡가 가 만드는 곡보다 시간·경제적인 소요를 줄일 수 있 다.

 

그외 :

pybrain을 이용해 작곡: https://github.com/robbiebarrat/Bach_AI

 

추가 데이터셋: http://www.eecs.qmul.ac.uk/mmv/datasets/amigos/ (해당 링크에서 다운로드가능)

Amigos(a dataset for affect, personality and mood research on individuals and group)

-->Deap, Amigos, kaggle 데이터셋 등 사용하면 될 듯.

 

감정에 따른 음악 매칭에 대해:

‘본 논문에서는 어떤 감정일때 어떤 장르/분위기의 음악을 들으면 스트레스가 완화된다고 가정한다’

등의 문구 삽입이 필요함. 해당 가정은 추후 팀원끼리 추가적인 논의를 거쳐 확정함.



팀원1

  1. Data 사이트에서 추가 데이터셋 서칭 및 가용한 자료인지 확인

 

  • 추가로 발견한 뇌파 관련 데이터셋
  1. 관련 논문 서칭, 방법론 확인

 

 

 

  • 총 4단계 구성으로 연구를 진행하면 좋을 것 같다는 생각을 함.

 

  • 챌린지한 부분이 될 수 있다고 생각하는 부분은 2와 3번. 1번의 경우, 위처럼 EEG 데이터를 통한 감정 분류를 위한 다양한 논문이 이미 나와 있기 때문에 논문을 재현하는 방식으로 공부와 연구를 진행하면 크게 어렵진 않을 것 같음. 다만, 2와 3번의 경우, 의학과 화성학에 대한 전문적인 지식이 없기 때문에 공부와 연구를 진행하면 다소 시간이 많이 걸릴 것으로 예상됨.

 

팀원2

뇌파 관련 데이터셋 조사
(주요 데이터셋만 적어놓았습니다.)

  • Psychophysics (700 Mb)단일 에포크 가져오기전체 주제 가져오기
    : 64 채널을 사용하여 기록된 122명의 피험자(비주얼 매칭 작업을 수행하는 알코올 및 컨트롤). 이 데이터의 한계는 데이터 에포크(자극 제시 후 0~1초)만 사용할 수 있다는 것입니다. Matlab 스크립트를 사용

  • DEAP 데이터 세트
    : 인간의 감정 상태 분석을 위한 다중 모드 데이터 세트. 32명의 참가자의 뇌파(EEG)와 말초 생리학적 신호는 각각 1분 길이의 뮤직 비디오 발췌문 40개를 시청할 때 기록. 참가자들은 각성, 관심도, 좋아함/싫어함, 지배력 및 친숙도의 측면에서 각 비디오를 평가.

  • 간질 데이터
    : 난치성 국소 간질 21명의 환자에 대한 EEG 기록을 포함. 수술 전 간질을 모니터링하는 동안 기록.
    "ictal" :  간질 발작이 있는 파일과 발작 전 최소 50분 데이터가 포함
    "interictal" :  발작 활동이 없는 약 24시간의 EEG 기록을 포함



DEAP Dataset을 활용한 뇌파 데이터 분석 방법에 관한 연구논문 분석 

DEAP

이 논문에서는 오픈 감정뇌파데이터인 DEAP Dataset을 활용. DEAP Dataset는 총 23개의 데이터, 32 채널로 구성. 남, 여 각각 16명. 총 32명의 사용자에게서 40편의 비디오를 시청한 뒤 감정상태를 기록. 레코딩 된 신호는 총 32개의 채널과 512Hz로 샘플링

전처리 과정 :

  • 디지털 필터인 IIR(Infinite Impulse Response) Filter를 사용하여 잡음 제거
  • Artifact인 안구잡파(EOG : Electrooculograms, 눈 깜빡임) 제거 : LMS(the Least Mean Sqaures) 알고리즘을 사용

(LMS → 비정상적인 생체신호를 제거하는 데에 유용)

감정 분류 : Valence-Arousal 평면을 사용하여 4개의 감정으로 구분. 분류 알고리즘으로는 Support Vector Machine을 사용.

LAHV(두려움), HAHV(행복), LALV(슬픔), HALV(고요)

 

뇌파의 분류

복잡하게 진동하는 형태. 저마다의 전위값이 다르다.

뇌파 관찰 시 → 주파수의 범위와 전압 값에 따라 인위적으로

  • Delta파 : 0.1 - 3Hz; 20-200uV
  • Theta파 : 4-7Hz; 20-100uV
  • Alpha파 : 8-12Hz; 20-60uV
  • Beta파 : 13-30Hz; 2-20uV
  • Gamma파 : 30-50Hz

 

전처리가 끝나 잡음이 제거된 신호는 FFT 분석을 시행하여 주파수대 별로 Power Spectrum 분석을 하여 특징 추출을 하였다. 



퓨리에 변환

위의 논문에서는 FFT(Fast Fourier Transform), 빠른 퓨리에 변환 사용.
빠른 Fourier 변환(FFT)은 오디오 및 음향 측정 과학 분야에서 중요한 측정 방법 . 신호를 개별 스펙트럼 구성 요소로 변환하여 신호에 대한 주파수 정보를 제공. FFT는 기계 또는 시스템의 결함 분석, 품질 관리 및 상태 모니터링에 사용.
(출처 : https://www.nti-audio.com/ko/지-원/know-how/빠른-fourier-변환-fft)

변환한 주파수 범위에 따라 Theta(4-7Hz), Alpha(8-12Hz), Beta(13-30Hz), Gamma(30-40Hz)로 분석. FFT분석은 Matlba을 사용. FFT를 통한 각각의 주파수 대역별 값은 배열로 저장 분석 (Fourier 변환이 중요한 개념으로 사용되는 듯)



MNE-Python (http://martinos.org)

기능적 신경 영상 데이터(functional neuroimaging data) → EEG, MEG, sEEG, ECoG, and fNIRS 데이터들을 처리, 분석 및 시각화를 위한 오픈소스 Python 모듈. 

해당 모듈을 이용하여 EEG 데이터와 MEG데이터를 분석할 수 있다.
(MEG 데이터의 경우, EEG는 전기적 신호인 반면, MEG는 자기적 신호로 수집한 뇌파 데이터를 의미한다. 해당 데이터셋이 EEG데이터보다 Noise가 더 적으므로, 만약 두 데이터를 통해서 분석할 수 있는 대상이 비슷하다면, MEG 데이터를 이용하는 것도 좋은 방법일 듯 싶다.)




주문한 실내자전거가 왔다! 

그동안 코로나를 핑계로 밖엘 잘 나가지 않고, 집에만 있어서 과거에 비해 살이 엄청나게 쪘는데

이제는 실내에서라도 매일 자전거를 타면서 운동을 해야겠다.

지금 내 상황에서 할만한 운동은 다음과 같다.

 

운동List

실내: 실내자전거, 홈트레이닝(요가매트) /추후 헬스장

실외: 줄넘기, 배드민턴, 런닝

 

일단은 기본적으로 실내자전거를 매일 4.5km->5km->5.5km...->10km씩 점점 늘려가면서 탈 예정이고,

1주에 2~3번씩은 유투브의 홈트레이닝 영상(약30분)을 보며 운동할 예정이다.

예전에도 유투브의 마일라사이러스?홈트레이닝 영상인가를 보면서 살을 꽤 많이뺐던 기억이 있다.

살을 빼려면 식단조절도 반드시 겸해야하는데, 이게 조금 문제다.

아무래도 인터넷에 구워먹을 수 있는 냉동 닭가슴살 같은걸 많이 사두고, 간간히 집 근처 샐러드집에서 사먹어야할것같다.

사실 배달음식만 자제해도 훅 빠질 것 같다..

관리를 위해, 1~2주간격으로 당분간 운동량과 식단을 블로그에 올리려한다.

일단 지금까지의 운동!

9.11 실내자전거 4.5km

9.12 실내자전거 5km

9.13 실내자전거 5.5km

.

.

추후 0.5km씩 올려가며 6km 가 되었을때 1주일 유치

이후 10km까지 올리기!+ 홈트레이닝 영상 보기..

그러다 어느정도 유산소 운동덕에 살이 빠졌을 때, 그리고 코로나가 완화되었을때 헬스장에 가서 기구를 사용해야겠다.

 

파이팅

 

'여가생활 > 헬스·테니스·러닝' 카테고리의 다른 글

9.11~23 운동일지  (0) 2021.09.23

댓글분석 웹페이지 개발 프로젝트와는 달리, 주가예측 프로그램 개발 프로젝트의 경우 모델링에 대한 고민이 꾸준히 필요하기 때문에, 모델에 대한 변동이 발생할때마다 추가적인 게시글을 업로드 할 예정입니다.
 
1.  현재 문제점
LSTM 모델을 사용하기 때문에, 전날의 데이터가 영향을 크게 끼쳐서 실제 종가의 증감과 거의 무관하게 전날과 비슷한 값이 모델의 예측 결과값이 됨. (즉,  loss가 가장 작아지는 값이 전날의 값이라고 계산하는 것) 따라서 모델의 정확도는 높지만(loss=0.01미만,R^2=0.98이상), 실제 데이터로 예측 시 증가하다 감소하는 구간,  감소하다 증가하는 구간을 판별하지 못하는 크게 유의미하지 않은 모델이 된 것으로 판단됨. 이에 대해 고민이 필요함.


2.  해결 방안 및 추가 기능
1)기존의 input값(시가, 고가, 저가, MSCI, KOSPI,  KOSDAQ 등)들을 모두 Stationary하게 변환(‘오늘 값-전날 값’  으로, 변동 값을 볼 수 있도록) -> 평균, 분산, 공분산이 비교적 일정한 데이터로 전처리
2)기존에 학습시키던 예측 값을 ‘종가’값이 아닌 +(전날보다 증가), -(전날보다 감소)로 Binary 한 항목 값으로 변환해 학습시켜서, 더 유의미한 모델이 될 수 있도록 함. 이후 모델 평가시에도 +로 예측하여 +인 것, -로 예측하여 -인 것의 Accuracy 확인(지금의 loss보다 더 의미 있는 지표가 될 것)  결과는 +or-로 반환(추후 오를 확률/내릴 확률 계산하여 반환)
3)input종목에 대한 SNS언급량(네이버금융_종목토론방)을 가져와 긍정 부정을 판별하고, 결과에 대해 가중치를 두어 추후 모델의 output값과 더해 최종 예측 결과의 정확도를 높임.
4)기본 데이터의 기본 모델에 대한 정확도, 상관 계수 추세로 구분된 각 군집 데이터를 각 군집에 최적화된 모델에 넣은 정확도의 평균, 종가 추세로 구분된 각 군집의 데이터를 각 군집에 최적화된 모델에 넣은 정확도의 평균을 구해 비교 후 의사결정
추후)  노이즈 제거 관련 논의하기
 

3.  역할 분담(~9.26(일))
1)한 종목에 대해 SNS언급량 긁어와서 데이터를 쌓은 후,  긍정/부정 판별(네이버금융-종목토론방-글 댓글-최근1000개)
2) input값을 stationary하게,  output값을 binary하게 변환해서 학습시킨 후,  Accuracy/loss확인 및 개선시키기
3) 모델 개선에 도움이 될 만한 추가 외부변수를 생각하고, 해당 변수의 10년치 데이터 가져오기(약5개정도,재량적으로)

9.6일,

일전에 면접을 본 이후로는 처음으로 교수님과 미팅을 했다.

방학동안 연구 주제를 세부적으로 구상해가려고 했었는데, 교수님께서도 따로 생각해두신 연구 주제가 있으시다고 하셔서 간략하게만 조사해갔다. 대강 말하자면, 이번에 하고싶던 분야가

"종양미세환경에서의 면역항암 치료예측 인공지능 바이오마커(조직 분석 시스템) 연구 : 데이터 기반의 이미징 바이오마커를 통해 의사의 진단 및 치료과정의 정확성과 효율성 향상"

이었다. 교수님께서는 데이터 수집이 다소 어려워보일뿐 충분히 할수있는 분야라고 하시며 교수님께서 생각해두신 주제와 고민해보라고 하셨다. 교수님께서 생각해두신 주제는,

"뉴로 사이언스 분야 논문들을 분석해 향후 영향력이 클 논문을 판별/예측 하는것"

이었다. 그래프역학/네트워크 분석 등을 사용하는 연구인데, 이미 '생명공학'분야의 논문을 대상으로 같은 주제를 분석한 연구가 있어, 그 연구를 벤치마킹하자는 것이었다. 주제를 내가 원하는 주제인 '뉴로 사이언스'분야로 변경하고, 모델 알고리즘을 뜯어보며 이해한 후 모델을 개선시키고, 기존 모델과 내 모델의 기존 데이터를 넣었을때의 정확도와, 뉴로 사이언스 분야의 논문들을 넣었을때의 정확도를 비교하려하였다. 해당 연구에서는 데이터셋 수집 및 저장 툴, 코드가 저장되어 있는 깃허브 등을 모두 제공하기에 가능한 것이었다.

그런데, 막상 깃허브의 폴더 및 파일들을 확인하니.... 중요한 코드들이 다 빠져있었다. 해당 연구를 진행하며 만든 사이트의 프론트엔드에 쓰이는 파일들만 개방되어있고, 모델의 코드를 포함해 중요한 내용이 없었다. 또, 시범을 돌려볼 수 있도록 제공한다는 예시 데이터셋과 예시 모델, 파라미터들도 전송 기간이 만료되었다며 받을 수 없었다. 무슨 일인지 만들어둔 사이트는 정상적인 작동이 되고 있지 않았다. 아마 연구 논문을 게재한 후 일정 기간이 지나 내린것 같았다.

 

9.10일,

기존 논문 벤치마킹의 문제점을 포함한 기존 연구에서 쓰인 분석 기법, 데이터 수집 및 저장 툴 등등을 더 세부적으로 조사해서 교수님께 보여드리니 교수님께선 핵심 코드가 없다면 굳이 우리가 이걸 할 필요가 없을것 같다며, 좀 더 생각해보신다고 하셨다. 아마 이 주제는 폐기하고 다른 주제를 생각해봐야할 것 같다. 캡스톤 디자인 주제도 마침 생각해둬야하니, 내일 오래간만에 도서관에 가려한다. 도서관에서 책도 읽고, 인터넷으로 관련 저널 및 논문 서칭도 하고, 마침 알고있는 인공지능 관련 연구 업무를 하시는 멘토님께 조언도 구해봐야겠다. 다음주 월요일까지 캡스톤 디자인 주제 후보 2개, 다음주 목요일까지 개인 연구 주제 후보 2개정도 생각해 둘 생각이다.

연구 주제 선정과 함께 교수님께서 내게 주문하신 당분관의 활동은 다음과 같다.

1. 도메인 지식 습득

2. 최근버전 리뷰 페이퍼 작성 

3. 맡은 주제 연구 진행--->  주제 고민으로 변경

4. 각종 뇌영상 데이터 이해 후 전처리 과정을 위한 각종 SW 학습

최신 버전 리뷰 페이퍼를 작성하다보면 자연히 도메인 지식은 습득될 수 밖에 없고, 주로 분석에 사용되는 각종 SW의 명칭 정도는 익힐 수 있을테니 리뷰 페이퍼 작성먼저 할 생각이다. 주제 고민과 함께 기존에 발행된 리뷰 페이퍼부터 예시로 읽고, 주제 선정 및 리뷰페이퍼 작성 완료 후 뇌영상 데이터 이해 및 각종 SW 학습을 하며 연구를 진행해야겠다.

이번주의 나와 저번주의 나는 달라야한다. 파이팅.

 

 

---> 논문이 출판되기전까지 학부연구 카테고리는 당분간 게시를 중단합니다!! <---

 

I. Data 수집 관련

* collected In Neo4j 3.5 database

그래프 데이터베이스 관리 시스템. 그래프 저장 처리기능을 갖춤. 활용을 위해서는 HTTP 엔드포인트를 사용하거나 바이너리 볼트 프로토콜을 사용. Cypher Query Language사용. Cypher언어 공부필요

* The data analyzed in study :  https://www.lens.org/, https://docs.api.lens.org

여기서 API 통해 데이터 수집 가능. 검색된 메타 데이터를 사용해 구성함. Lens API PubMed, Crossref, Microsoft Academic, Core, Pubmed Central 에서 제공.

42개의 biomedicine 저널의 3백만개의dataè 1980~2020 범위 -> 160만개의 data 사용.

* The data generated during study : scalingscience.ai 

저널 작성자가 실제로 원하는 토픽에 대한 결과를 있게끔 만들어둔 웹페이지.

현재 어떤 토픽을 입력해도 Database Timeout 이라며 분석이 되지 않음.

 

II. Code확인 관련

conducted using node2vec, custom code

*Link : https://github.com/jameswweis/delphi    

approach on a sample set of data via an Jupyter Notebook provided in a Docker container

전반적이면서 간단한 분석 예시 notebook 폴더에서 확인가능. 폴더는 scalingscience.ai 웹페이지를 만들기위한 프론트엔트 파일들이며, 실제 모델에 사용된 분석 코드가 없음. 시범용으로 올려뒀다는 Dataset, 모델과 파라미터값들은 전송 기한이 만료되어 받을 없음.

시각화 application : Node.js npm 사용해 Google Firebase 배포되도록 구성되어 제공. 필요한 종속성은 해당 버전의 번호와 함께 package.json 나열되며, 분석할 메트릭과 설명은 config.json에서 찾을 있음

----->연구를 진행한다면 분석 모델의 실제 코드에 대한 참고를 없어 모델 코드를 완전히 새롭게 만들어야함. 기존의 논문에 적용된 모델과 데이터를 받을 없기때문에 성능 비교또한 불가능.. (한다면 논문에 기재된 정확도를 기준으로 해야하겠지만 같은 데이터셋으로 비교할 없기때문에 의미가 없어보임 그러나 사용할 데이터 수집 저장 전반적인 연구의 '흐름' 대해서는 도움을 받을 있음.

 

III. Analyze 관련

Dataset)

Data Lens API에서 가져오기 때문에 이미 명확하다고 있으나, 추가적으로 명확하게끔 하는 기법 도입. 가령 node 저자라면, Microsoft Academic ID ORCID id 등으로 hash. 이러한 해시맵을 사용해 중복 ID 없는지 모든 저자의 노드를 식별하고 병합함. , 모든 edge 대해 인용된 논문이 인용한 논문 전에 발행된게 맞는지 재확인함. 모든 저널의 노드에 대해 중복이나 복제가 존재하지 않는지 확인함.

Graph)

Heterogeneous knowledge graph network. 그래프에서 논문은 노드로, 인용은 노드 사이의 directed edges 표현됨. 저널과 연도는 노드로 표시되며, 발행 장소와 발행 연도는 edges 표현. 저자도 노드로 표현. 추가적인 entity-level 메타데이터들은 corresponding node 저장됨.

Metric)

Biotechnology knowledge graph를 사용해 기계학습 파이프라인의 기능으로 사용하는 출판, 저자 매트릭의 시계열을 계산함. 메트릭은 1)논문 수준 메트릭, 2)저자 수준 메트릭, , 3)저널 수준 메트릭, 4)네트워크 수준 메트릭의 4가지 기본 범주로 나뉨. 각 메트릭에 대해 그래프의 구조를 사용하여 원하는 값을 계산하는 알고리즘 구현. (일반적으로 사용되는 메트릭과, 강조 표시된 작업에서 사용된 기능에서 수집된 메트릭을 통해 구현함)

1)    논문 수준. : 각 논문에 대해 1980~2020 사이 출판된 데이터세트의 논문에서 인용한 논문 수를 계산. 이 계산을 이용해 각 논문의 다른 인용 기반 속성을 계산함. (총 논문 수, 총 인용 수, 연간 인용 수 등)

2)    저자 수준 : 각 저자에 대해 이전예 계산한 논문 수준 메트릭을 집계해 관심 있는 추가 저자 수준 메트릭 도출. 저자의 h-index, 첫번째 논문의 출판 이후 연도, 총 논문 수, 인용 횟수 등이 포함됨.

3)    저널 수준 : 그 후 논문수준, 저자 수준 측정항목을 모두 사용해 각 저널에 대한 집계된 측정 항목 계산. 저널의 논문 수, 최대 인용 횟수와 같은 측정항목 포함. 각 저자에 대해 각 저널 수준 매트릭에 대해 해당 저자가 출판한 모든 저널의 최대값, 평균값, 최소값이 저자에게 다시 집계됨.

4)    네트워크 수준 : 위의 인용 및 문헌 기반 메트릭은 그래프의 구조와 관계의 다양성을 포착하기에 충분하지 않을 수 있음. 따라서 비지도 방식을 이용해, 해당 논문이 존재하는 각 연도에 대해 방향성 설정 및 80단계 랜덤 워크, node2vec알고리즘을 사용하는 로컬 인용 네트워크 구조를 기반으로 하는 각 논문에 대한 연속적인 특징 표현을 학습시킴.

위의 세부적인 내용은 아래의 테이블에서 확인 가능함.

 

 

Machine Learning)

위에서 나열된 metric을 입력data로 하는 기계학습 파이프라인 개발.

1-    네트워크 데이터베이스에서 데이터를 추출해 논문 수준으로 집계

2-    각 논문에 대해 출판 연도부터 출판 연도 5년후까지 최소 1번 이상 인용된 모든 논문에 대해 위에서 설명한 모든 메트릭을 계산함.

3-    저자 정보가 누락된 모든 논문을 제거해 약 150만개(원래 160만개였음)의 출판물을 남김

4-    영향력 있는논문 정의 : 출판 후 5년 후에 해당 연도의 전체 점수 중 상위 5%에 시간 환산된 pageRank 점수가 있는 경우

5-    추적할 특정 연도를 입력하면, 특정 연도로부터 5년 이후 까지의 모든 데이터를 불러와 훈련(75%) 및 테스트 데이터(25%)셋으로 분리. 이 때, 합성 소수 오버 샘플링을 적용해 균형 잡힌 훈련셋을 생성함.

6-    측정된 값을 직접적으로 비교할 수 있도록 계산된 메트릭에 대한 사전 처리를 수행함.

7-    Train data가 주어지면 가능한 모델 매개변수의 그리드에서, 훈련 데이터에 대한 교차검증을 수행해 최적화할 때 기계 학습 모델을 훈련함. 본 연구에서는 랜덤 포레스트 분류기를 사용함.(감소된 과적합 위험, 예측 분산의 잠재석 감소 및 비선형 관계를 캡쳐하는 능력 때문.)

8-    네트워크 수준 기능이 모델에 상당한 차원을 추가하기 때문에, 이러한 기능을 포함해 모델의 성능이 향상되거나 저하되는지의 여부를 검사하고 가장 성능이 좋은 모델을 선택

9-    보류 테스트 데이터에 대해 이전에 계산된 실제 영향 레이블과 영향 예측을 비교해 모델의 성능을 평가함.

 

->최종 모델 : 780만개 이상의 노드, 2 100만개 관계  38억개 계산된 매트릭

-> 과학 논문의 자금 조달 포트폴리오 구축을 지원하는 도구 개발. DELPHI(Dynamic Early-warning by Learning to Predict High Impact)

 

p.s. 분석방법요약

데이터수집/병합 -> 동적/이질적 그래프로 구조화 -> 다양한 정량적 매트릭 세트 그래프에서 계신 저장 -> 반복해 기계학습 파이프라인 매트릭 구조에서 차등패턴 학습 -> 결과확인(생명공학 연구의 가장 유망한 5% 분류기반 접근방식을 통해 채택(회귀기반 방법과 함께사용가능), 영향력 있는 연구에 대한 조기 경고 생성 모델), + 시간에 따른 논문 그래프의 저차원 표현을 결정하기위해 비지도학습 사용.

 

저널 링크 : https://www.nature.com/articles/s41587-021-00907-6#Abs1 (읽으려면 구매 혹은 대여 필요)

Learning on knowledge graph dynamics provides an early warning of impactful research

James W. Wei Joseph M. Jacobson / Nature Biotechnology (2021)


주제 :

생명공학 연구 저널들의 시계열 데이터를 그래프를 기반으로 머신러닝하여 미래에 영향력이 연구를 찾는 .(네트워크 구조/시간적 역학을 통합-- 그래프 역학에 대한 학습)

내용 :

데이터셋 :  40년간(1980 - 2019) 학습 데이터를 토대로 분석논문, 저자, 소속, 인용, 등을 포함한 29개의 feature사용(모두 반드시 사용X. 사용해 성능이 향상되는 경우에만 기계학습 파이프라인에서 사용). 780만개 이상의 노드, 2 100만개 관계  38억개 계산된 매트릭.

분석 방법 : 데이터수집/병합 -> 동적/이질적 그래프로 구조화 -> 다양한 정량적 매트릭 세트 그래프에서 계신 저장 -> 반복해 기계학습 파이프라인 매트릭 구조에서 차등패턴 학습 -> 결과확인(생명공학 연구의 가장 유망한 5% 분류기반 접근방식을 통해 채택(회귀기반 방법과 함께사용가능), 영향력 있는 연구에 대한 조기 경고 생성 모델).

+ 시간에 따른 논문 그래프의 저차원 표현을 결정하기위해 비지도학습 사용.

결과 :

과학 논문의 자금 조달 포트폴리오 구축을 지원하는 도구 개발. DELPHI(Dynamic Early-warning by Learning to Predict High Impact)

해당 저널의 목차 :

제목 – 저자 – 요약 - 실제 문제 현황 - 간략한 개선 방안 – 현행 연구의 비판점 – 새로 고안한 진화된 기법 소개(데이터세트구성분석기법분석 목적 결과기대효과 간략히) – 결과 소개(실제 모델 적용시의 결과소개 기존 모델과의 비교) – 논의 소개 (분석 기법의 추가적으로 논의해볼수있는 부분추가적인 활용 방안모델 개선 방안기대효과끝맺음말) – 참조 – 행동양식 (세부적인 분석 방법에 대한 설명

 


 

연구방법 관련

환자 대조군 연구 : subjects  질병 유무에 따라 분류해 배경인자나 위험요인에 대해 노출된 정도를 상호 비교

코호트 연구 : subjects  노출여부에 따라 분류하여 일정 기간 집단의 질병 발생 빈도를추적조사해 위험요인에 대한 노출과 특정 질병발생의 연관성을 규명하는

-      Follow-up period : 연구대상자를 follow up 하는 기간

-      Study period : 연구자가 연구를 수행하기 시작하는 시점

~>  시점의 선후관계에 따라 Prospective study retrospective study 나눔.

-      Prospective (전향적 연구) : Study period follow-up period 전에 위치.

-      Retrospective (후향적 연구) : study period follow-up period 이후에 위치.

 

Graph 관련

-      Homogeneous / Heterogeneous Graph
Homogeneous graph : 그래프의 모든 노드가 같은 성질을 갖고 있는 그래프예를 들어인물 관계도가 있다면 모든 노드는 사람을 의미하는 homogeneity 갖는다.
Heterogeneous graph : 위와 반대로 그래프의 노드가 여러 종류의 성질을 가지는 그래프예를 들어 영화-유저 그래프는 어떤 노드는 영화이고어떤 노드는 유저를 의미하는 heterogeneity 갖는다.

-      Dynamic Graph
Dynamic graph :
그래프의 구조는 같지만  node feature edge feature 정보가 시시각각 변화하며 들어오는 경우.  그래프의 구조는 동일한 시계열 데이터를 해석해야하는 경우를 말한다. Spatiotemporal analysis(시공간 분석) 해야한다.

<금>

~12:30 데분캡수업

1:20~2:00 이동

2~4 연구정리

   > googledocs 문서(연구세부방법론)추가정리해 넣어두기

   > 연구설계서 초안 작성후 프린트하기

4~6 랩 미팅

6~ 오빠만나기/댓글분석/주제찾기(데분캡2/연구2)/tis

<토>

~오후9 오빠만나기/댓글분석/주제찾기(데분캡2/연구2)/tis

오후9~10 회의준비

10~11 댓글분석 회의

11~3 수업정리(객프 lab1, 2/ 데센프강의듣기/ 전과목과제및해야할일 정리해서 놓친부분확인)

<일>

9~ 기상

10~3 수업공부/주제찾기(데분캡2/연구2)/

3~7 주가예측 추가

8~9 주가예측 회의

9~12 

- 수업 공부 

- 연구 

- 한이음프로젝트

12~2 쉬기, 이후 숙면

<월>

9 기상

10~ 데센프 수업 . . .  

...

8~데분캡회의

...

3학년 2학기가 시작되었다! 이번학기의 목표는,

1순위 : 학점

1.5순위 : 학부연구생열심히

3순위 : 운동

4순위 : 프로젝트 개선 이다..

5순위 : '공부' 카테고리 활성화 (백준알고리즘/Dacon-kaggle )

 

사실 위의 1~5 순위 모두가 나에게 너무너무 중요한 요소지만, 이번학기는 무엇보다도 학점에 좀 신경을 쓰려한다. 

내 영혼의 단짝을 침대에서 책상으로 바꿔야지... 책상에 앉아있는 시간을 대폭 늘리려 노력해야겠다.

 

이번 학기 수강 과목들의 해야할 과제를 정리해보면 다음과 같다.

* 특히 주제를 생각해봐야할것..

       - 학부연구생 : long-term Project 연구주제

       - 데분캡 : 졸논 준비겸 팀과제 <- 전 작품들 주제 확인해보자

* 그 외 과제들..

       - 인공지능론 : 인공지능 구현과제 +a

       - 산경알고리즘 : 알고리즘 선정 후 구현과제

       - 객체지향 : Lab평가, Proj1, Proj2 

       - 기계, 데센프 : 주기적인 개별과제

당장의 내가 해야하는것은 학부연구생 및 데분캡의 주제를 생각해보는 것이다.

학부연구생은 교수님께서 미리 생각해두신 주제가 있는 것 같다. (최신의 생명공학 분야 논문들 중 미래에 영향력이 있을 논문을 미리 판별(예측)하는 기법을 연구한 논문을 읽어보라고 하셨다. 이 논문과 관련해서 어떤 주제를 생각하고 계신건지 궁금하다! 일단 이것과 별개로 내 의견을 물어보신다고 하니 주제를 3~4개정도 생각해가기로 했다.) 내일 실시간 강의 다 듣고 교수님을 뵈러 가는데 걱정이 앞선다. 단독 대면은 역시 떨려... 

데분캡 팀 프로젝트의 주제는 팀원들과 함께 정해야하는데, 관심 분야를 써둔 스프레드시트를 보고 나와 관심분야가 비슷한 분들께 연락을 해서 팀(3인)을 이뤄뒀다. 마침 한 분이 나와 같은 지도교수님 밑에서 연구생을 하더라. 교수님이 오신지 얼마 안돼서, 내가알기로 학부연구생이 1~2명 있다고 했던것같은데 어떻게 우연히 같은 수업에 같은 팀이 되었네.. 다른 팀원 분도 또 다른 교수님 밑에서 연구를 하더라. 비대면이라 다른 학우들을 만날 일이 없고 연락하는 친구도 없어서 다른 학우들은 어떻게 사는지 몰랐는데, 새삼 다들 안보이는 곳에서 열심히 노력하고 있구나 싶었다. 나도 열심히 해야지. 

 

오늘은 밖에 비가온다. 요즘 왜인지 마음이 싱숭생숭 울적한데 어둑어둑한 방에서 빗소리와 함께 잔잔한 노랫소리를 들으니 조금 힘이 나는 것 같다. 마음이 울적한건 아마 운동을 안해서(+이번주는 생산적인 활동을 안해서) 그런 것 같다. 고등학생땐 체력 기르는것도 중요하다고 야자 쉬는시간마다 학교 테라스에 나가서 친구들이랑 줄넘기하고, 운동장에서 달리기하고.. 점심 저녁먹고 남는시간에 강당가서 배드민턴치고.. 야자 끝나고 집에오면 1-2시간 홈트레이닝할때도 많았고 주말에도 근처 호수공원 달리고 롱보드탔었는데. 그리고 대학 1학년때는 춤 동아리에서 춤추고, 알바하고 간간히 놀러다니고 해서 어느정도 운동량이 있었는데.. 그 후로 2년정도는 아예 운동을 안했으니... 몸을 안쓰니 간간히 우울해지는것같다. 앞서 언급한 1, 1.5위 우선 순위 만큼이나 운동이 중요하다고 생각해서 집에서도 할 수 있는 운동! 실내자전거랑 홈트레이닝용 요가매트를 샀다. 내일 배송오면 매일매일 30분씩 자전거 타야지.

밤에 창문 밖을 내다보면 불빛을 켜고 도로위를 달리는 자동차들이 보이는데 그 자동차들을 계속 보게되더라. 요즘 밖엘 안나가서 그런가 창문 밖을 자주 내다보게 되는 것 같다. 새로운 내 방 너무너무 좋지만 가끔은 밖에서 혼자서라도 산책해야겠다.

 

9.7(화) Daliy

오전1시30-4시 숙면

4시-6시 남은논문읽기

6시-9시 최종주제정하기(2개)

9시-10시 샤워

10시30-12시 수업1

12시-1시 나갈준비

1시-2시45 수업2

3시-4시 전정대로 출발, 도착

4-5시 미팅

5시-6시 밥 사들고 귀가

오후7시~ 택배정리/자전거조립/방청소/숙면

 

9.8(수) Daily <2주차 시작>

오전 10시-12시 수업1

12-3 휴식

3-6 수업2, 3

오후 7~ 친구랑 저녁/실내운동/밤산책/..

 

'일상·미래 > 일상생각·계획' 카테고리의 다른 글

9.27-10.2 DailyPlan  (0) 2021.09.27
9.10-9.12 DailyPlan  (0) 2021.09.10
8.29-30 DailyPlan  (0) 2021.08.30
드디어자취방구했다..! +다전공?  (0) 2021.08.14
방학이 1달도 안남았다! +8.3-4 Plan  (0) 2021.08.03

8월 활동보고!! 여름방학의 막바지, 8월달은 학우들을 위해 이것저것 프로그램을 준비해봤답니다! 

가장 먼저, 여름방학은 아직 끝나지 않았다! 방학동안 역량쌓기 막판 스퍼트로, 남은 여름방학 기간중에 하기 좋은 교내 프로그램/교외 프로그램/ 대외 활동/ 공모전을 소개하고, 개강 이후 역량쌓기 좋은 활동들도 소개하였습니다.

저번 역량쌓기 프로그램 안내는 산업경영공학과 학우 맞춤형 프로그램들이 많았는데(3D프린터 교육, 금융 관련, 데이터분석 관련 등..) 이번에는 찾아보니 맞춤형 프로그램보단 모두 관심있어할만한 활동들이 더 많았어요. (살짝 아쉽..)

저는 자료조사를 맡아 활동들을 조사하였습니다! 좋은 외부활동도 많지만, 경희대학교 소융/컴공/산공/SW사업단/공학혁신교육센터/알라딘/ 등등에서 주관하는 좋은 내부 행사들이 많아 학우들이 잘 알고 신청해서 역량을 쌓을 수 있었으면 좋겠습니다. 

다음으로 산업경영공학과 학생회 일원들과 함께하는 QnA Time 행사를 진행하였습니다. 저희는 평소에도 소통함을 열어 질문들을 받고 있고, 공과대학 학생회 차원에서도 별도로 소통함을 만들어 질문을 받고 있는데요. 소통함에 잘 올라오지 않는 개인적인 (학업에 관한) 궁금증이나 고민들을 나누는 취지로 행사를 진행하였습니다. 저도 이날 행사에 참여하여 학우들의 이런저런 궁금증, 고민들을 들어주고 답변 해주었답니다. (제가 잘 알고있는) 타학과 복전에 관한 것, Tensorflow 관련 등의 질문이 가장 기억에 남는데요. 다른 학생회 분들이 잘 모르는 부분을 제가 답변해 줄 수 있어 기뻤습니다. 

저희 학교는 현장실습 학점인정 제도가 있습니다! 현장실습에 관심있는 학우들을 위해 관련하여 상세한 내용을 안내해드렸습니다. 

저희는 매 학기 수강신청 이후, 수강하고 싶으나 수강신청에 실패한 학우들을 위해 전공과목 추가인원 수요조사를 진행합니다. 수요조사 결과를 각 과목의 교수님께 전달드리고, 교수님의 해결 방안을 다시 학우들에게 전달하는 방식입니다. 보통은 수요만큼 교수님이 수강 인원을 늘려주시는 편입니다.  

저희 학과의 졸업 요건 중 하나가 '창의적 종합 설계' 과목의 수강인데요, 수강하는 학우들과 팀을 이뤄 원하는 주제에 대해 탐구하는 프로젝트 과목입니다. 사실상 이 과목으로 졸업논문을 대체하는만큼 중요한 과목이라 할 수 있습니다.

지금까지는 같은 주제를 원하는 학우들을 찾고 팀을 이루는 과정에 불편함이 있었다고 하는데요,  그런 학우들을 위해 학생회 차원에서 창종설 팀 구인 플랫폼을 만들어 더 수월히 구인을 할 수 있도록 도와드렸습니다. 플랫폼을 어떤 것으로 할지 고민을 많이 했었는데, 학우들의 개인정보 보호를 위해 쉽게 만들었다 파기할 수 있는 플랫폼으로 진행하였습니다.

2020학년도 후기에 학위를 수여하시는 선배님들을 위해 축하 현수막을 제작하였습니다. 선배님들 졸업 축하드립니다. 대면이었어야 하는데.. 너무 아쉽네요. 코로나가 얼른 끝나서 대면으로 축하드릴 수 있었으면 좋겠습니다. ㅠㅠ

2021년 초에 산공과 새내기 가이드북을 만들어 안내해드렸었는데, 이번에 2학기를 맞아 중요 내용만 쏙쏙 뽑아 한번 더 안내해드렸습니다! 내용을 잊어버렸던 학우들이 유용하게 다시 읽으셨으면 좋겠네요.

저희 학과 커리큘럼 중 '연구연수활동' 과목이 있는데요, 이 과목은 담당 교수님 아래서 원하는 주제에 대해 연구연수를 진행하는 활동입니다. 학부연구생이랑 비슷한 느낌이라고 생각하시면 될 것 같아요.

수업을 맡아 진행하시는 교수님의 연구분야에 따라, 그리고 시기에 따라 연구 주제가 매번 바뀌는데요. 각 교수님들께 이번 학기의 주제와 기타 사항들을 여쭤보고, 학우들에게 안내해드렸습니다. 수업을 듣길 원하는 학우들에게 도움이 많이 되었을 것 같습니다.


마지막으로 자치회비 및 학생회비 내역을 공지해드리고 8월 활동이 끝났습니다.

이제 개강이네요! 2학기에도 학우들을 위해 노력하는 학생회의 일원이 되겠습니다 :>

+ Recent posts