Cross validation으로 샘플을 나눠서 lasso regression을 수행한 결과.

x축: 페널티값으로 값이 클수록 페널티가 강해지고 더 많은 변수들의 계수가 0으로 축소된다.

y축: 모델의 예측 오차를 나타낸다. 값이 작을수록 모델의 성능이 좋다.

오차막대: k-fold를 진행하면서 해당 람다 값에서 오차에 대한 표준 편차. 막대가 작을수록 높은 신뢰도를 의미한다.

상단 숫자: 각 람다값에서 선택된 변수들의 수

왼쪽 점선: 최소 binomial deviance를 달성하는 람다값의 위치
오른쪽 점선: 람다값이 증가해도 모델 성능에 큰 변화가 없는 가장 단순한 모델을 선택한 람다 값.

DAVID 분석 예시

GOTERM_BP_1 ~ 5의 이해

GOTERM_BP_

1에서 5로 내려갈수록 1에 포함되는 process이지만 더 자세한 process라고 할 수 있다.

* Ref.2의 '9. Why are there different levels for GO Annotation?' 참고

* BP_ALL: 1~5 결과 총합으로 P-value는 유지되지만 P-value를 adjust하는 pathway set수가 달라지기 때문에 adj-P value는 변동이 있음.

 

GOTERM_BP_FAT

GO FAT filters out very broad GO terms based on a measured specificity of each term (not level-specificity) and this way reduces the dependency between the terms.

 

GOTERM_BP_Direct

New GO category (GO Direct) provides GO mappings directly annotated by the source database (no parent terms included)

 

DAVID 결과 테이블 [BP] Biological Process

The Fold Enrichment is defined as the ratio of the two proportions. For example, if 40/400 (i.e. 10%) of your input genes involved in "kinase activity" and the background information is 300/30000 genes (i.e.  1%) associating with "kinase activity", roughly 10% / 1% = 10 fold enrichment.

 

[Reference]

[1] https://david.ncifcrf.gov/content.jsp?file=release.html

[2] https://david.ncifcrf.gov/content.jsp?file=FAQs.html

[3] https://david.ncifcrf.gov/helps/functional_annotation.html#summary

[4] https://www.slideshare.net/framancuso/david-5451863

+ Recent posts