
廣州市天河區(qū)黃埔大道中124號2705室
電話:020-29031124
手機:18102256923
Email:servers@gzscbio.com
Fax:020-85625352
QQ:2913120624
基因表達數(shù)據(jù)主要來自于兩個方面:(1)基因芯片,這是最主要的表達數(shù)據(jù)來源,利用基因芯片技術(shù)可以大規(guī)模并行獲取基因轉(zhuǎn)錄結(jié)果mRNA的數(shù)據(jù);(2)表達系列分析SAGE和差異顯示、蛋白質(zhì)芯片等是快速檢測蛋白質(zhì)及其含量的另一類技術(shù)。
通過分析基因表達數(shù)據(jù),發(fā)現(xiàn)與疾病直接相關(guān)的基因,以及發(fā)現(xiàn)這些基因的活動規(guī)律。
聚類分析是模式識別中一種非常有吸引力的方法,特別適用于模式分類數(shù)不知道的情況。基因表達數(shù)據(jù)聚類分析一般包括以下幾個步驟:(1)確定基因表達的數(shù)據(jù);(2)計算相似性矩陣,各個矩陣元素代表兩個基因的表達是否相似;(3)選擇算法進行聚類分析;(4)顯示分析結(jié)果。對數(shù)據(jù)進行聚類分析之前,必須將包含在基因表達矩陣中的數(shù)據(jù)進行相似程度分析,并且對分析結(jié)果進行量化。通常情況下,相似往往被賦于一個較大的量化的值,而不相似則由一個較小的量化的值來表示。在實際計算中,往往以距離代替相似的概念,相似性度量被轉(zhuǎn)化為兩個基因表達模式之間的距離。距離越小,表達模式越相近,反之,則表達模式差異大。

圖1 表達模式的關(guān)系
幾種常用的聚類方法:
1、簡單聚類
假設(shè)有n個基因,表達數(shù)據(jù)向量分別為X1, X2,…, XN;令任意一個基因的表達向量為第一個聚類的中心,依次處理其它基因。
在處理第i個基因時,首先計算該基因的表達數(shù)據(jù)向量與現(xiàn)有各類中心的距離;假設(shè)與第j類的距離Dij最小,并且Dij<T,則將基因i分配到第j類;否則生成一個新類,該類的中心為第i個基因的表達向量。
2、層次式聚類

3、K平均聚類
任意選取K個基因表達向量作為初始聚類中心
Z1, Z2,…, Zk
反復(fù)迭代計算;如果||X-Zj(l)||< ||X-Zi(l)||(i=1,2,…,K,i?j),則將X所代表的基因歸于第j類。按照上述辦法處理所有的基因;經(jīng)過上述處理,聚類可能發(fā)生變化,因此需要重新計算K個新聚類中心:

對于所有的聚類中心,如果Zj(l+1)=Zj(l)(j=1,2,…,K),則迭代結(jié)束,得到最后的聚類結(jié)果;否則繼續(xù)進行迭代計算。
4、自組織映射神經(jīng)網(wǎng)絡(luò)

圖3 SOM結(jié)構(gòu)圖

圖4 SOM聚類結(jié)果
5、模糊聚類分析方法
主要過程:
(1)建立模糊相似矩陣
(2)生成模糊等價矩陣
(3)構(gòu)建動態(tài)聚類圖
6、聚類分析結(jié)果的樹圖表示

圖5 聚類分析結(jié)果樹圖
基因調(diào)控網(wǎng)絡(luò)分析,一個基因網(wǎng)絡(luò)由一組生物分子(如基因、蛋白質(zhì))以及它們之間的相互作用構(gòu)成,這些生物分子共同完成一些特定的細胞功能任務(wù)。在實際分析過程中,往往以圖這種數(shù)據(jù)結(jié)構(gòu)表示基因網(wǎng)絡(luò),圖中的節(jié)點代表基因或者蛋白質(zhì),而節(jié)點之間的連線代表基因、蛋白質(zhì)之間的相互作用。基因網(wǎng)絡(luò)描述了特定細胞或組織中的功能路徑,如代謝、基因調(diào)控,信號傳導(dǎo)等。
基因表達實際上是細胞、組織、器官受遺傳和環(huán)境影響的結(jié)果。一個基因的轉(zhuǎn)錄和表達由細胞的生化狀態(tài)所決定,在一個基因的轉(zhuǎn)錄過程中,一組轉(zhuǎn)錄因子作用于該基因的啟動子區(qū)域,控制該基因轉(zhuǎn)錄,而這些轉(zhuǎn)錄因子本身又是其它基因的產(chǎn)物。當一個基因通過轉(zhuǎn)錄、翻譯形成功能基因產(chǎn)物后,它將改變細胞的生化狀態(tài),從而直接或間接地影響其它基因的表達,甚至影響自身的表達。多個基因的表達不斷變化,使得細胞的生化狀態(tài)不斷地變化。
一個基因的表達受其它基因的影響,而這個基因又會影響其它基因的表達,這種相互影響、相互制約關(guān)系構(gòu)成了復(fù)雜的基因表達調(diào)控網(wǎng)絡(luò)。基因表達數(shù)據(jù)之中隱含基因之間的相互作用關(guān)系,因而可以通過分析基因表達數(shù)據(jù),構(gòu)建基因調(diào)控網(wǎng)絡(luò)。
幾種基因調(diào)控網(wǎng)絡(luò)模型:
1、布爾網(wǎng)絡(luò)模型

圖6 布爾網(wǎng)絡(luò)模型

表1 節(jié)點C真值表

圖7 作用規(guī)則與系統(tǒng)運行軌跡

圖8 布爾網(wǎng)絡(luò)模型狀態(tài)轉(zhuǎn)換
2、線性組合模型
線性組合模型是一種連續(xù)網(wǎng)絡(luò)模型,在這種模型中,一個基因的表達值是若干個其它基因表達值的加權(quán)和。基本表示形式為:

3、加權(quán)矩陣模型
加權(quán)矩陣模型與線性組合模型相似,在該模型中,一個基因的表達值是其它基因表達值的函數(shù)。

