術語解釋:Cox回歸:又稱比例風險回歸模型(proportionalhazardsmodel,簡稱Cox模型),是由英國統(tǒng)計學家。該模型以生存結局和生存時間為應變量,可同時分析多種因素對于生存期長短的影響。Cox模型能分析帶有截尾生存時間的資料,且不要求估計資料的生存分布類型,因此在醫(yī)學界被***使用。Logistic回歸:又稱邏輯回歸模型,屬于廣義線性模型。邏輯回歸是一種用于解決二分類問題的分析方法,用于估計某種事物的可能性。相較于傳統(tǒng)線性模型,邏輯回歸模型以概率形式輸出結果,可控性高且結果可解釋性強。數據要求:樣本臨床信息或生物學特征(基因突變、基因表達等)樣本的隨訪數據(總生存期,生存狀態(tài))或樣本的分組情況下游分析:1.補充相關因素的已有相關研究2.解釋相關因素對研究課題的意義。 構建新的臨床預測模型。云南數據庫建設數據科學服務
t-SNE(t分布隨機鄰域嵌入)是一種用于探索高維數據的非線性降維算法。它將多維數據映射到適合于人類觀察的兩個或多個維度。t-SNE非線性降維算法通過基于具有多個特征的數據點的相似性識別觀察到的簇來在數據中找到模式。另外t-SNE的輸出可以作為其他分類算法的輸入特征。因為t-SNE算法定義了數據的局部和全局結構之間的軟邊界。t-SNE幾乎可用于所有高維數據集,廣泛應用于圖像處理,自然語言處理和語音處理。在生物信息中可廣泛應用于基因表達數據、基因甲基化數據、基因突變數據等,能夠直觀地對不同數據集進行比較。基本原理從方法上來講,t-SNE本質上是基于流行學習(manifoldlearning)的降維算法,不同于傳統(tǒng)的PCA和MMD等方法,t-SNE在高維用normalizedGaussiankernel對數據點對進行相似性建模。相應的,在低維用t分布對數據點對進行相似性(直觀上的距離)建模,然后用KL距離來拉近高維和低維空間中的距離分布。 湖北數據庫建設數據科學共同合作在分子生物、細胞生物、實驗動物、病理、臨床樣本方面已與長三角100余家企業(yè)形成良好合作關系。
棒棒糖圖是直觀顯示蛋白質結構上的突變點**簡單且有效的方式。許多致*基因具有比任何其他基因座更頻繁突變的優(yōu)先位點。這些位點被認為是突變熱點,棒棒糖圖可以用于顯示突變熱點以及其他突變位點。并可以對比不同**/亞型的突變位點。
基本原理
將蛋白質結構根據氨基酸順序繪制為長條形,以不同色塊標注不同結構域,在基因突變導致氨基酸改變的位置標注棒棒糖,并在棒棒糖圓球標注位點的突變頻數以及突變位點。
數據要求
基因突變或者蛋白質突變數據
下游分析
1、突變位點靶向藥物分析
2、驅動基因突變分析
GSEA基本原理從方法上來講,GSEA主要分為基因集進行排序、計算富集分數(EnrichmentScore,ES)、估計富集分數的***性水平并進行多重假設檢驗三個步驟。**步對輸入的所有基因集L進行排序,通常來說初始輸入的基因數據為表達矩陣,排序的過程相當于特定兩組中(case-control、upper-lower等等)基因差異表達分析的過程。根據所有基因在兩組樣本的差異度量不同(共有六種差異度量,默認是signal2noise,GSEA官網有提供公式,也可以選擇較為普遍的foldchange),對基因進行排序,并且Z-score標準化。第二步是GSEA的**步驟,通過分析預先定義基因集S在**步獲得的基因序列上的分布計算富集指數EnrichmentScore,并繪制分布趨勢圖Enrichmentplot。每個基因在基因集S的EnrichmentScore取決于這個基因是否屬于基因集S及其差異度量(如foldchange)。差異度量越大基因的EnrichmentScore權重越大,如果基因在基因集S中則EnrichmentScore取正,反則取負。將基因集L在基因集S里的所有基因的EnrichmentScore一個個加起來,就是Enrichmentplot上的EnrichmentScore趨勢,直到EnrichmentScore達到**值,就是基因集S**終的EnrichmentScore。第三步是為了檢驗第二部獲得結果的統(tǒng)計學意義。 云生物提供數據科學服務。
術語解讀:中位數Q2:二分之一分位數上四分位數Q1:序列由小到大排序后第(n+1)/4所在位置的數值下四分位數Q3:序列由小到大排序后第3(n+1)/4所在位置的數值**值:非異常范圍內的**值,四分位距IQR=Q3-Q1,上限=Q3+最小值:非異常范圍內的最小值,下限=數據要求:某一基因在各**及對應的正常組織的表達數據。應用示例1:(于2014年2月發(fā)表于Nature.,影響因子)文章研究了12種主要**類型的突變景觀和意義,它首先使用小提琴圖展示了12種**的突變頻率分布情況,然后查找確定具有***意義的突變基因。應用示例2:(于2017年1月發(fā)表在NatCommun.,影響因子)文章研究了Pancancer建模預測體細胞突變對轉錄程序背景的特異性影響。研究人員基于開發(fā)的模型預測重要轉錄因子,然后使用預測出的突變轉錄因子的活性情況繪制泛*圖譜。 按照斯普林格學術規(guī)范化處理準則提供文稿同行**投稿前意見評估。湖北數據科學服務
實驗室致病類病原微生物數據分析平臺。云南數據庫建設數據科學服務
Inmmune gene
免疫學研究是目前科研領域爭相研究的熱點,**免疫細胞浸潤是其中一種。**免疫細胞浸潤是指免疫細胞從血液中移向**組織發(fā)揮作用。我們從**組織中分離出浸潤免疫細胞含量,計算基因與浸潤免疫細胞含量的相關性,篩選出影響免疫浸潤的候選基因。
基本原理:
從基因矩陣數據中提取免疫細胞含量,生成免疫細胞含量矩陣;
計算目標基因與浸潤免疫細胞含量的相關性,篩選與浸潤免疫細胞含量高度相關的基因。
術語解讀:
相關性系數(pearson,spearman, kendall)反應兩個變量之間變化趨勢的方向以及程度。相關系數范圍為-1到+1。0表示兩個變量不相關,正值表示正相關,負值表示負相關,值越大表示相關性越強。
數據要求:
**數據表達矩陣 云南數據庫建設數據科學服務