跳到主要內容

從序列、基因到蛋白質 — 生物資訊資料庫的介面與基本使用,以amoA基因為例



在環境工程的領域中 , 含氮物質是廢水處理最主要的目標汙染物之一. 透過生物處理程序 , 有機氮裂解為氨氮 , 而後被微生物氧化為亞硝以及硝酸. 此過程稱之為硝化作用. 硝化作用傳統上是經由兩類不同類型的微生物所執行的二階段反應. 首先 , 銨被Ammonia oxidizing bacteria / archaea (AOB / AOA) 氧化成亞硝 , 接著亞硝進一步被Nitrite oxidizing bacteria 氧化成硝酸

AOB , AMO ( ammonia monooxygenase )催化氨的好氧氧化生成Hydroxylamine. 在本篇網誌中將使用課程所介紹的NCBI以及ProK來了解AMO這個蛋白質從核酸序列、基因到蛋白質的一些資訊。

首先 , NCBI首頁左欄all resourse可以看到所有資料庫的簡述

l   Nucleotide Database : 集合了來自各種不同資料庫的核酸序列
A collection of nucleotide sequences from several sources

l   GenBank :
The NIH genetic sequence database, an annotated collection of all publicly available DNA sequences.

l   Gene :
A searchable database of genes, focusing on genomes that have been completely sequenced and that have an active research community to contribute gene-specific data. Information includes nomenclature, chromosomal localization, gene products and their attributes (e.g., protein interactions), associated markers, phenotypes, interactions, and links to citations, sequences, variation details, maps, expression reports, homologs, protein domain content, and external databases.

NCBI  Nucleotide                                                    
nt資料庫搜尋amo , 得到的結果共75560. 經由左側的filter欄位將搜尋對象限於 “bacteria”後得到74106.

結果包含了clone的部分序列 , 完整的amo 基因序列等. 由於在廢水處理場中主要優勢的AOBNitrosomonas , 因此我想要多關注Nitrosomonasamo.
在收尋欄位添加Nitrosomonas此屬名 , 詳細的搜尋條件變成了 :

(amo[All Fields] AND ("Nitrosomonas"[Organism] OR Nitrosomonas[All Fields])) AND bacteria[filter]

收尋結果有許多都是clone的基因 , 因此可以看到許多clone基因後都有標註partial CDS. 點入Nitrosomonas eutropha partial amoA gene for ammonia monooxygenase subunit A, strain Nm57頁面. GenBank這個格式下 , 首先看到的是Header的部分

Header描述了此基因的基本訊息包括了像是此基因是來自Nitrosomonas eutropha C91 , 還有其Taxonomy. 此序列最早發表於2001年的FEMS Microbiol
的文獻,文章標題為Comparative phylogeny of the ammonia monooxygenase subunit A and 16S rRNA genes of ammonia-oxidizing bacteria, 作者為Aakra,A., Utaker,J.B. and Nes,I.F. 另外還有2002的另問一篇文獻也發表了此序列. PubMed的序號可以連結至該篇文獻. 
其中我覺得比較特別的部分是”version”欄位 , 此基因的versionAJ298713.1 , 也就是accession number後加個.1, 表示此序列目前只有一個版本.
 
第二是Feature的部分. 內容包括了SOURCE, gene, CDS三部分. SOURCE給了此序列來至何種生物的資訊, 並提供該生物的taxonomy序號可連結至taxonomy資料庫. CDS部分則給了此序列編碼區的資訊, 像是此序列為gene amoA ,

功能是ammonia oxidation, 產物是ammonia monooxygenase subunit A. 並提供了protein的連結以及胺基酸序列. ORIGIN部分則提供了此序列的序列.

NCBI  Gene                                                          
Gene下搜尋amoA Nitrosomonas並無結果 , 單純搜尋amoA結果也沒有NitrosomonasamoA.
Nucleotide 中的序列如何才會被登錄到 Gene?

UniProtKB                                                   
NCBIamoAGenBank頁面可直接連結到其蛋白的UniProtKB頁面.

GO (Gene Ontology)  project : the framework for the model of biology. The GO defines concepts/classes used to describe gene function, and relationships between these concepts. It classifies functions along three aspects:

①.   molecular function : molecular activities of gene products
②.   cellular component : where gene products are active
③.   biological process : pathways and larger processes made up of the activities of multiple gene products.

GO molecular function部分可以看到此蛋白具有monooxygenase activity
“ Catalysis of the incorporation of one atom from molecular oxygen into a compound and the reduction of the other atom of oxygen to water. “

Subcellular component欄位可以看到此蛋白為一transmembrane protein. 並有其跨膜的positions.
Subcellular component : This section provides information on the location and the topology of the mature protein in the cell.



總結來說 , 此次授課內容讓我了解到如何使用NCBI來查詢我感興趣的基因/蛋白質的相關資訊 , 令我印象深刻的是各資料庫間的連結做得很完善 , 基本上都可以透過連結的方式去查另一個資料庫. 

留言

這個網誌中的熱門文章

序列比對 - BLAST

BLAST 全名 Basic Local Alignment Search Tool ,是一種用來對比對序列一級結構,在蛋白質 database 或 DNAdatabase 中進行相似性的比較。 10/12 日的課堂介紹了 NCBI 提供的 BLAST 工具中的 BLASTn 、 BLASTp 、 BLASTx 以及 primer-BLAST 。 〝 The program compares nucleotide or protein sequences to sequence databases and calculates the statistical significance of matches. BLAST can be used to infer functional and evolutionary relationships between sequences as well as help identify members of gene families. 〞 Standard Nucleotide BLAST (Blastn)                                                                                              Blastn 用於比對核甘酸序列 (nucleotide vs nucleotide) ,內有三種功能 l    Megablast : intra-species comparison, sequence identification l    Discontiguous megablast : cross-species comparison, searching with coding sequences l    blastn: searching with shorter queries, cross-species comparison 我以 cloning 所得的 16s rDNA 片段,經過定序得出之序列作練習。 Blastn 的頁面可以分為三個區塊: Enter Query Sequence 、 Choose Search Set 以及 Pr

Protein structure database (2017/11/30)

1130 Protein structure database  課程重點 1.           Protein tool ExPASy 2.           Protein structure database 3.           Structure visualization tool PyMol 4.           Homology modeling 要做的練習 1.           BLAST : proteomic blast 2.           計算 PI 以及 MW : proteomics – function analysis 3.           Protein sequence alignment : proteomics – ClustalW (NS1 file) 4.           Protein similarity search : proteomics FASRR/SSERACH/ 5.           Prediction of secondary structure : proteomics-protein strictire-PROF 6.           Modeling of homologous structure : proteomics-protein strcture-SW BLAST (BLAST target 1) 計算 PI 以及 MW : proteomics – function analysis Function analysis – Compute pI/MW  • theoretical pI and Mw computation  Protein sequence alignment : proteomics – ClustalW (NS1 file) Protein data bank