] [UOSEST] improve core assay_feature added
본문 바로가기

카테고리 없음

[UOSEST] improve core assay_feature added

사용한 DataFrame

6assay[ SMILES + physchem properties(11) + Environmental fate(4) ]

1.molecular fringerfrint

2. Physchem properties

-MolWight, LogP, MP, BP, LogVP, LogWS, LogHL, LogKOA, LogD55, LogD74, LogOH, RT

3. Environmental fate

- LogBCF, ReadyBiodeg,LogKM, LogKOC

 

6개 assay에 대해서 active(1) inactive(0) 예측 모델을 만든다. 

모든 assay에 대하여 아래와 같은 모델과 검증 방법을 사용한다.

fingerfrint만 사용했을때 vs featrue를 추가했을때

fingerfrint만 사용할때는 이 모델로 학습한다.

 

featrue를 추가했을땐 이 모델로 학습한다.

 

검증방법

confustion matrix를 읽는 방법은

                                                                        실제정답

 

  0(inactive) 1(active)
0(inactive) conf_mat[0][0] : TP conf_mat[1][0] : FP
1(active) conf_mat[0][1] : FN conf_mat[1][1] : TN

acc = TP+TN / TP + FN + FP + TN

TPR(sensitivity,recall) = 맞춘양성(0)/실제양성(0) =  TP /TP + FN 

FPR = 틀린음성/실제음성 = FP / FP + TN

https://en.wikipedia.org/wiki/Sensitivity_and_specificity#Specificity

 

TOX21_AhR_LUC_Agonist

assay distribution

  fingerfrint만 사용했을때

confusion matrix
performance

 

  15개의 feature들을 전부 추가했을때

confustion matrix
model performance

 

오히려 성능이 떨어졌다. --> tpr에 꽤 영향을 미쳤다

평가 방식 자체에 문제가 있다.
duplicate chemical들을 살펴보자.

 

 

TOX21_ERa_BLA_Agonist_ratio

fingerfrint만 사용했을때

feature를 추가했을때

FP는 증가하고 FN은 감소했다.

 

 

 

TOX21_ERa_LUC_BG1_Agonist

fingerfrint만 사용했을때

 

 

feature를 추가했을때

 

 

input : 2048dim

random forest 결과는?

굉장히 성능이 낮다 FPR이 너무 높다

input : 10dim(pca로 축소)

트리를 76->200개로 늘려도

성능 낮다.

input : 2063dim(feature 추가)

약간 좋아졌다

트리를 76 -> 500개로 늘려도

트리의 개수가 문제가 아니다

 

input : 2048dim(fingerfrint only)

smote를 적용시킨 후에 분류성능이 굉장히 올랐다.(그러나 실제성능이 아니다)

input : 2063dim(feature added)

 

성능비슷

input : 512dim(fingerfrint only), allsmote

input 527dim(feature added), all smote

성능 조금 향상

svm

분류기 성능 굉장히 좋지 않다

 

SVM : input (15 features) all smote

 

RF : input(15features) all smote

RF : input(15features) no smote

input : 527  ,RF,   undersampling 

TOX21_PPARg_BLA_Agonist_ratio

 

fingerfrint만 사용했을때

feature를 추가했을때