跳到主要內容

HTP data analysis (2017/11/23)

今日老師上課內容雖以microarray為主,但有許多內容仍可以和以細菌16s rRNA amplicons的高通量定序的資料處理可以互通有無。


在環工領域的生物處理中,以活性污泥法為主的廢水處理一直是研究的熱門主題,長期操作再一範圍內之穩定條件中的反應槽是研究環境微生物在特定環境因子調控下變動的良好範本。相比於生科同學們可能是較專一於某特定基因或是蛋白質上,環境微生物的研究邏輯是將整個反應槽/特定時空環境中的微生物族群視為一個整體,追求的是整體某表現型、某特一功能的調控以及改進,比如廢水中氮污染的移除、地下水與土壤中戴奧辛的移除等。在這樣的框架中,進一步的分析在這表現型中有著重要影響力的微生物(core microbial population),這樣的微生物可能是直接影響到該表現功能的細菌,也有可能是間接影響。


比如廢水除氮中主要是經由硝化作用、脫硝作用以及厭氧氨氧化作用來除氮,因此廢水處理中常見的硝化菌包括Ammonium oxidizing bacteriaNitrite oxidizing bacteriaanammox bacteria以及一些異營的denitrifier等就是會直接影響到除氮功能的族群;而某些異營菌與anammox bacteria有著nutrientsB12以及一些胺基酸交換的關係(Lawson et al., 2017),這些微生物也間接影響著整體除氮功能的表現。


回到上課老師提到的interactionnetworkspathways,將此概念套用至我個人的研究主題上,就可以很清晰地描繪出整個研究架構的階層,即是:從活性污泥中個別微生物間可能存在的互動關係(比如前述中AMX bacteria以及Chlorobi-affiliated bacterianutrients交換關係 → 以關鍵微生物為主的區域網絡 (比如隨著硝酸還原的氧化磷酸化,反應中有機物以及硝酸的來源和命運fate) → 某特定功能表現的pathways (氮的移除)

在這樣的框架中,資料分析的處理以及邏輯扮演著非常重要的角色。雖然今日上課內容是以microarray的資料為主,但如同NGS一樣,最終都可以量化表現,因此此份作業內容我將不會一一重複上課操作的過程,主要會著重在上課教的東西我想怎樣的運用在我的研究中。



本週課程以MeV來做microarray數據的分析,data process & analysis的過程為 :


1.      檔案匯入 : 檔案格式很重要 !

File -> Load data -> expression file loader -> select file loader -> other format file -> 選擇要匯入檔案所在資料夾


2.   Normalization : Adjust data -> normalization -> total tensity


3.      Clustering : Hieratical clustering



分群這種資料分析的方式在環境微生物的研究中很常使用,依據各樣本菌種組成結構不同來分群,這些樣本可以是單純時間序列;可以是不同環境因子調控的實驗組,這部分在研究樣本間beta diversity時是很常用的方式另外,也可以是依據親緣關係做分群,比如:


Distribution of sequence read abundance of core bacterial populations (sample occupancy > 85%) at the order level (Chen, Ng, Wu, Chen, & Wang, 2017)
比如上圖即是將各樣本中細菌reads relative abundancebubble表示,在Y軸的分布上以親緣關係作為依據

4.      divide genes/row by RMS

1->5 以及 0.1-0.5這樣不同規模的變動轉換成一致的表達













做完divide genes/row by RMS :















5.      Visualization -> gene distance matrix

這種用heatmap來表示樣本間相似度的關係的方法在研究環境因子的變動造成的影響時很常出現此種表示方法,因為可以很清楚的看出各種不同實驗組整體菌群結構上的差異性另外也很常以各菌種在不同樣本中的relative abundance數據來做distance matrix,來看在各sample中微生物的變動















這堂課學到了除了軟體的使用外更是學到了許多data process and analysis的邏輯,在不斷思考老師授課過程中講授的例子來與自己的研究領域做對照的過程,對將來要處理自己的序列資料時做基礎,不會對著滿滿的sequence不知道做完taxonomy後要幹嘛

Reference

Chen, W. Y., Ng, T. H., Wu, J. H., Chen, J. W., & Wang, H. C. (2017). Microbiome Dynamics in a Shrimp Grow-out Pond with Possible Outbreak of Acute Hepatopancreatic Necrosis Disease. Sci Rep, 7(1), 9395. doi:10.1038/s41598-017-09923-6

Lawson, C. E., Wu, S., Bhattacharjee, A. S., Hamilton, J. J., McMahon, K. D., Goel, R., & Noguera, D. R. (2017). Metabolic network analysis reveals microbial community interactions in anammox granules. Nat Commun, 8, 15416. doi:10.1038/ncomms15416

留言

這個網誌中的熱門文章

序列比對 - BLAST

BLAST 全名 Basic Local Alignment Search Tool ,是一種用來對比對序列一級結構,在蛋白質 database 或 DNAdatabase 中進行相似性的比較。 10/12 日的課堂介紹了 NCBI 提供的 BLAST 工具中的 BLASTn 、 BLASTp 、 BLASTx 以及 primer-BLAST 。 〝 The program compares nucleotide or protein sequences to sequence databases and calculates the statistical significance of matches. BLAST can be used to infer functional and evolutionary relationships between sequences as well as help identify members of gene families. 〞 Standard Nucleotide BLAST (Blastn)                                                                                              Blastn 用於比對核甘酸序列 (nucleotide vs nucleotide) ,內有三種功能 l    Megablast : intra-species comparison, sequence identification l    Discontiguous megablast : cross-species comparison, searching with coding sequences l    blastn: searching with shorter queries, cross-species comparison 我以 cloning 所得的 16s rDNA 片段,經過定序得出之序列作練習。 Blastn 的頁面可以分為三個區塊: Enter Query Sequence 、 Choose Search Set 以及 Pr

Protein structure database (2017/11/30)

1130 Protein structure database  課程重點 1.           Protein tool ExPASy 2.           Protein structure database 3.           Structure visualization tool PyMol 4.           Homology modeling 要做的練習 1.           BLAST : proteomic blast 2.           計算 PI 以及 MW : proteomics – function analysis 3.           Protein sequence alignment : proteomics – ClustalW (NS1 file) 4.           Protein similarity search : proteomics FASRR/SSERACH/ 5.           Prediction of secondary structure : proteomics-protein strictire-PROF 6.           Modeling of homologous structure : proteomics-protein strcture-SW BLAST (BLAST target 1) 計算 PI 以及 MW : proteomics – function analysis Function analysis – Compute pI/MW  • theoretical pI and Mw computation  Protein sequence alignment : proteomics – ClustalW (NS1 file) Protein data bank

從序列、基因到蛋白質 — 生物資訊資料庫的介面與基本使用,以amoA基因為例

在環境工程的領域中 , 含氮物質是廢水處理最主要的目標汙染物之一 . 透過生物處理程序 , 有機氮裂解為氨氮 , 而後被微生物氧化為亞硝以及硝酸 . 此過程稱之為硝化作用 . 硝化作用傳統上是經由兩類不同類型的微生物所執行的二階段反應 . 首先 , 銨被 Ammonia oxidizing bacteria / archaea (AOB / AOA) 氧化成亞硝 , 接著亞硝進一步被 Nitrite oxidizing bacteria 氧化成硝酸 .  在 AOB 中 , AMO ( ammonia monooxygenase ) 催化氨的好氧氧化生成 Hydroxylamine. 在本篇網誌中將使用課程所介紹的 NCBI 以及 ProK 來了解 AMO 這個蛋白質從核酸序列、基因到蛋白質的一些資訊。 首先 , 從 NCBI 首頁左欄 all resourse 可以看到所有資料庫的簡述 l    Nucleotide Database : 集合了來自各種不同資料庫的核酸序列 A collection of nucleotide sequences from several sources l    GenBank : The NIH genetic sequence database, an annotated collection of all publicly available DNA sequences. l    Gene : A searchable database of genes, focusing on genomes that have been completely sequenced and that have an active research community to contribute gene-specific data. Information includes nomenclature, chromosomal localization, gene products and their attributes (e.g., protein interactions), associated markers, phenotypes, interacti