首页 第二讲_cDNA芯片与基因表达分析

第二讲_cDNA芯片与基因表达分析

第二讲_cDNA芯片与基因表达分析nullnull第二讲 cDNA芯片与基因表达分析第一部分 cDNA芯片回顾第一部分 cDNA芯片回顾第二讲 cDNA芯片与基因表达分析nullcDNA微阵列芯片cDNA芯片的特点cDNA芯片的特点原理： cDNA是与mRNA互补的DNA分子，长约0.2~5kb 通过碱基互补配对原则进行探针与待测mRNA之间的分子杂交产生信号，反映待检mRNA水平，在一定程度上体现基因的表达水平寡核苷酸芯片的特点寡核苷酸芯片的特点原理：通过碱基互补配对原则进行杂交，检测对应片段是否存在、存在量的多少优点：可以通过原位合成...

nullnull第二讲 cDNA芯片与基因表达分析第一部分 cDNA芯片回顾第一部分 cDNA芯片回顾第二讲 cDNA芯片与基因表达分析nullcDNA微阵列芯片cDNA芯片的特点cDNA芯片的特点原理： cDNA是与mRNA互补的DNA分子，长约0.2~5kb 通过碱基互补配对原则进行探针与待测mRNA之间的分子杂交产生信号，反映待检mRNA水平，在一定程度上体现基因的表达水平寡核苷酸芯片的特点寡核苷酸芯片的特点原理：通过碱基互补配对原则进行杂交，检测对应片段是否存在、存在量的多少优点：可以通过原位合成法制备；探针长度小，减少二级结构形成；减少非特异杂交，能有效区分有同源序列的基因；无需扩增，防止扩增失败影响实验；杂交温度均一，提高杂交效率缺点：当寡核苷酸序列较短时，单一的序列不足以代表整个基因，需要用多段序列 cDNA芯片的优缺点cDNA芯片的优缺点cDNA芯片的优点序列长度长，可直接检测待检mRNA 结合敏感性强信号强度大 cDNA芯片的缺点探针退火温度差异大存在非特异性交叉杂交cDNA芯片应用领域cDNA芯片应用领域基因表达分析等位基因探查基因多态性分析表达谱数据库表达谱数据库基因表达仓库 Gene Expression Omnibus，GEO 斯坦福微阵列数据库 The Stanford Microarray Database，SMD 其他常用基因表达数据库 ArrayExpress、CGED 第二部分 cDNA表达芯片数据预处理第二部分 cDNA表达芯片数据预处理第二讲 cDNA芯片与基因表达分析null基因芯片数据提取对数转换对数转换对芯片数据做对数化转换后，数据可近似正态分布数据过滤数据过滤数据过滤的目的是去除表达水平是负值或很小的数据、或者明显的噪声数据过闪耀现象物理因素导致的信号污染杂交效能低点样问题其它数据补缺数据补缺(一)数据缺失类型非随机缺失基因表达丰度过高或过低随机缺失与基因表达丰度无关，数据补缺主要针对随机缺失情况数据补缺方法数据补缺方法简单补缺法 missing values = 0 expression missing values = 1 expression (arbitrary signal) missing values = row (gene) average (median) missing values = column (array) average (median) nullK近邻法选择与具有缺失值基因的k个邻居基因用邻居基因的加权平均估计缺失值参数: 邻居个数距离函数null回归法数据标准化数据标准化数据标准化的原因存在不同来源的系统误差染料物理特性差异(热和光敏感性，半衰期等) 染料连接效能点样针差异数据收集过程中扫描设施误差不同芯片差异实验条件差异null施加标准化处理的基因芯片上大部分基因(假设芯片上大部分基因在不同条件下表达量相同) 不同条件间稳定表达的基因(如管家基因) 控制序列(spiked control ) 合成DNA序列或外源的DNA序列，在不同条件下表达水平相同。 cDNA芯片数据标准化处理 cDNA芯片数据标准化处理1、片内标化(Within-slide normalization) (1) 全局标化(Global normalization)假设： R=k*G 方法: C=log2k：中值或均值null (2) 荧光强度依赖的标化(Intensity dependent normalization)为什么方法: scatter-plot smoother lowess拟合 c(A) 为M vs A的拟合函数标化后的数据null (3) 点样针依赖的标化(Within-print-tip-group normalization) 为什么一张芯片的不同区域运用不同的点样针点样，从而引入点样针带来的系统误差。 methodnull(4) 尺度调整(Scale adjustment) 为什么调整不同栅格(grids)间的数据离散度方法：计算不同栅格的尺度因子 null2、片间标化(Multiple-slide normalization) 线性标化法(Linear scaling methods) 与芯片内标化的尺度调整(Scale adjustment) 方法类似非线性标化法(non-linear methods) 分位数标化法(Quantile normalization) 两张芯片的表达数据的分位数标化至相同，即分布于对角线上。 null3、染色互换实验(dye-swap experiment ) 的标化实验组对照组芯片1 cy5(R) cy3(G’) 芯片2 cy3(G) cy5(R’) 前提假设：c︽c’ 方法: nullnullM = log2R - log2G A = (log2R + log2G)/2 nullnullnull 前面提及的标准化方法仅效正了数据分布的中心，在不同的栅格间log-Ratios 的方差也不同。null第三部分 cDNA表达芯片数据分析第三部分 cDNA表达芯片数据分析第二讲 cDNA芯片与基因表达分析差异表达分析差异表达分析一、倍数法实验条件下的表达值对照条件下的表达值通常以2倍差异为阈值，判断基因是否差异表达二、t检验法二、t检验法运用t检验法可以判断基因在两不同条件下的表达差异是否具有显著性三、方差分析三、方差分析方差分析可用于基因在两种或多种条件间的表达量的比较它将基因在样本之间的总变异分解为组间变异和组内变异两部分。通过方差分析的假设检验判断组间变异是否存在，如果存在则表明基因在不同条件下的表达有差异。四、SAM （Significance Analysis of Microarrays)四、SAM （Significance Analysis of Microarrays)(一) 多重假设检验问题 Ⅰ型错误（假阳性）即在假设检验作推断结论时，拒绝了实际上正确的检验假设，即将无差异表达的基因判断为差异表达。 Ⅱ型错误（假阴性）即不拒绝实际上不正确的，即将有差异表达的基因判断为无差异表达。在进行差异基因挑选时，整个差异基因筛选过程需要做成千上万次假设检验，导致假阳性率的累积增大。对于这种多重假设检验带来的放大的假阳性率，需要进行纠正。常用的纠正策略有Bonferroni效正，控制FDR（False Discovery Rate）值等。null(二) 分析步骤计算统计量扰动实验条件，计算扰动后的基因表达的相对差异统计量计算扰动后的平均相对差异统计量 null 确定差异表达基因阈值：以最小的正值和最大的负值作为统计阈值，运用该阈值，统计在值中超过该阈值的假阳性基因个数，估计假阳性发现率FDR值。通过调整FDR值的大小得到差异表达基因。五、信息熵五、信息熵运用信息熵进行差异基因挑选时，不需要用到样本的类别信息，所以运用信息熵找到的差异基因是指在所有条件下表达波动比较大的基因。数据的聚类分析数据的聚类分析一、聚类目的基于物体的相似性将物体分成不同的组二、基因表达谱数据的聚类二、基因表达谱数据的聚类对基因进行聚类识别功能相关的基因识别基因共表达模式对样本进行聚类质量控制检查样本是否按已知类别分组发现亚型样本基因基因表达谱三、距离尺度函数三、距离尺度函数几何距离线性相关系数非线性相关系数互信息其它四、聚类算法四、聚类算法(一)层次聚类层次聚类算法将研究对象按照它们的相似性关系用树形图进行呈现进行层次聚类时不需要预先设定类别个数，树状的聚类结构可以展示嵌套式的类别关系。 null在对含非单独对象的类进行合并或分裂时，常用的类间度量方法null2000年Alizadeh等运用基因芯片数据，基于层次聚类算法证实了DLBCL肿瘤病人在mRNA层面确实存在两种亚型(二)k均值聚类(二)k均值聚类基本思想(三)自组织映射聚类(三)自组织映射聚类基本思想：在不断的学习过程中，输出层的神经元根据输入样本的特点进行权重调整，最后拓朴结构发生了改变 (四)双向聚类(四)双向聚类双向聚类就是识别基因表达谱矩阵中同质的子矩阵，运用特定的基因子类识别样本子类。基因芯片数据的分类分析基因芯片数据的分类分析一、线性判别分类器二、k近邻分类法二、k近邻分类法基本思想三、PAM分类法（Prediction Analysis for Microarray）三、PAM分类法（Prediction Analysis for Microarray）基本思想每类样本的质心向所有样本的质心进行收缩，即收缩每个基因的类均值，收缩的数量由值决定。当收缩过程发生时，某些基因在不同类中将会有相同的类均值，这些基因就不具有类间的区别效能。基因1基因2分析步骤分析步骤计算统计量对公式经过变换得到收缩各类的均值 null判断新样本类别当四、决策树四、决策树(一)基本思想决策树又称为多级分类器，利用决策树分类可以把一个复杂的多类别分类问题转化为若干个简单的分类问题来解决决策树的结构：一个树性的结构，内部节点上选用一个属性进行分割，每个分叉都是分割的一个部分，叶子节点表示一个分布 null(二)分析步骤：提取分类规则，进行分类预测在构造决策树的过程中最重要的一点是在每一个分裂节点确定用那个属性来分类(或分裂）这就涉及到关于使用什么准则来衡量使用A属性比使用B属性更合理 null(三)衡量准则信息增益——Information gain 基尼指数——Gini indexnull(四)决策树的修剪消除决策树的过适应问题消除训练集中的异常和噪声所涉及的方法很多，比如先剪枝算法（print）与后剪枝（sprint 算法）等等五、分类效能评价五、分类效能评价(一)构建训练集和检验集 n倍交叉验证（n-fold cross validation） Bagging（bootstrap aggregation）无放回随机抽样留一法交叉验证（leave-one-out cross validation，LOOCV） (二)分类效能灵敏度(sensitivity，recall) 特异性(specificity) 阳性预测率（positive predictive value，precision）阴性预测率（negative predictive value）均衡正确率（balanced accuracy）正确率（correct or accuracy）表达谱分析结果注释表达谱分析结果注释单基因注释基于文献检索的注释方法Reference Validation (PubMed/PubMatrix)null基于基因查证null疾病数据库null利用本体论构建基因功能注释体系 Gene Ontology (GO)收录人类9000个基因约12万条注释信息分为Molecular Function（MF）、Biological Process（BP）和Cellular Component（CC）三大类注释体系采用有向无环图结构，具有层次性null超几何分布 Fisher精确检验nullDAVID注释工具null利用通路信息进行基因注释 KEGG：代谢、信号、疾病nullnull其他通路数据库null辅助工具商业化cDNA表达芯片商业化cDNA表达芯片人14K基因表达谱cDNA芯片所点基因有13824个,包含 11203个Unigene，其中已知基因 8568个，EST2635个主要包括有关细胞分化、细胞信号转导、细胞结构、细胞成分、基因和蛋白表达、代谢、假基因等已知功能或者与疾病相关的人类基因null疾病与基因表达的关系研究，建立表达谱与疾病的关系模型；肿瘤机理研究，寻找新的抗癌药物作用位点，肿瘤的早期诊断，肿瘤的预防；发育、分化、调亡过程的机制，相关的信号转导途径研究；从EST中寻找新基因；基因的功能研究；药物的靶位点研究，毒理研究。 null大鼠10K基因表达谱cDNA芯片覆盖9753种基因，其中Unigene7116条，同源基因1758条，7116个Unigene中已知基因 2058条，EST 5057条多个质控样品的多次重复，保证结果的可靠性,可获得相应的基因克隆，用于进一步的功能研究应用领域基因表达谱的识别；信号转导通路的研究；组织或疾病特征性分子表达的识别和鉴定；疾病亚型的基因表达水平区分、药物效应和药物作用靶点识别研究。 null人细胞凋亡相关基因cDNA芯片人细胞凋亡基因表达谱cDNA芯片（V1.0）含细胞凋亡相关基因458个。这些基因根据它们的结构与功能等被分成：死亡受体及其配体和其它相关蛋白 Caspases、Bcl-2 家族 Calpains Death Kinases Granzymes DNA fragmentation proteins 其它细胞调亡相关的蛋白、老化与衰老相关蛋白应用领域细胞调亡的分子机制细胞调亡与肿瘤的关系衰老的机制与寿命的延长相关的药物研制与开发其他与细胞调亡有关的研究 null人细胞周期相关基因cDNA芯片人细胞周期基因表达谱cDNA芯片含细胞周期相关蛋白和细胞分裂相关基因283个其中包括：Cyclin、CDK、CDK 抑制因子、有丝分裂与减数分裂相关蛋白基因、细胞分裂与胞浆移动相关蛋白基因等。应用领域细胞周期内不同时期的基因表达变化细胞周期与肿瘤发生和抑制的关系细胞周期与发育和分化的关系细胞分裂的机制和过程开发和研究以细胞周期和细胞分裂为作用位点的药物 null人转录因子相关基因cDNA芯片人转录因子基因表达谱cDNA芯片（V1.0）含转录因子类基因1362个，其中包括：基本转录因子转录促进因子和抑制因子转录终止蛋白其他转录相关蛋白基因等等应用领域各种生物过程中相关转录因子的寻找转录过程的研究基因表达的调控与该过程有关的疾病与该过程有关的药物其他与转录因子相关的研究 null人毒理代谢相关基因cDNA芯片人毒理、代谢功能cDNA芯片含代谢相关基因1351个，其中包括：与细胞能量代谢相关的酶类基因；与细胞内外物质转运相关的基因；参与能量代谢调控的各种激素和生长因子及其受体基因，同时包括了用于芯片质量控制和数据校正的阴性对照和空白对照。应用领域可用于各种代谢性疾病的临床及基础研究以及代谢性疾病治疗药物的筛选与评估；可以分析药物先导化合物或中药有效成分对细胞中特定代谢相关的基因的表达谱变化；可以预测可能的毒性和毒理机制及相关的药物开发。 null大鼠受体、离子通道基因表达谱cDNA芯片大鼠受体和离子通道芯片含相关基因418个。每张芯片上各基因均有4个重复，16个质控点，受体相关基因包括：生长因子受体、干扰素受体、各类激素受体、细胞因子受体、神经激素受体、蛋白激酶、蛋白磷酸化酶、G 蛋白、orphan蛋白、核受体、死亡结构域受体等，离子通道相关基因包括配体、电压介导的各种离子通道、水通道、协助扩散蛋白、氨基酸和核苷酸转运蛋白、离子泵、其他小分子的转运蛋白等。应用领域细胞内信号传递途径；神经系统相关的研究；药物的开发、筛选及药理作用的研究；疾病发生及治疗；特定生物过程或疾病中各类细胞受体的表达情况；受体和离子通道芯片其他相关领域的研究。芯片表达数据的其它分析芯片表达数据的其它分析主成分分析主成分分析是一种通过降维技术把多个变量化为少数几个主成分(即综合变量)的统计分析方法。这些主成分能够反映原始变量的绝大部分信息，它们通常表示为原始变量的某种线性组合在基因表达分析中，主成分分析可以用于特征基因的提取时间序列和时间延迟调控时间序列又称动态数列或时间数列，就是把各个不同时间的指标数值，按时间先后顺序排列起来所形成的统计数列基因表达存在时空差异性，时间序列分析可以研究基因表达在时间上的联系性时间序列和时间延迟调控生存分析生存分析研究既有事件的发生时间又有事件结局资料的统计学方法，强调所研究问题的结果变量是某一事件发生的时间存在生存资料的表达数据可以研究特征基因集与预后之间的相关性发育分析发育分析对于每一套发育时间表达谱采用主成分分析方法构建发育时间线（DT）以基因为对象，时间点为特征，选取与与发育时间最相关的主成分将结果进行标准化形成基因随时间的有序排列，将变化基因比率转化为上、下调基因随时间线的概率分布，用以反映疾病与发育之间的量化关系Meta分析Meta分析使用所有可用的资料增加估计的准确性可以对表达谱数据的样本进行整合，也可以对表达谱数据获得的统计结果进行整合经典数据集经典数据集Nature 1999 白血病mRNA表达谱分类数据 Nature 2005 miRNA表达谱分类癌症数据 Nature 2008 78组织的表达谱数据nullNCI 60癌症表达谱数据（mRNA/miRNA)nullcMap(小分子刺激表达变化）nullSNP与基因表达null外显子表达nulleQTLnull系统遗传学null网络遗传学常用的表达谱分析软件常用的表达谱分析软件ArrayTools SAM Cluster和TreeView R语言和BioConductor: affy、marray、limma Matlab: Bioinformatics Toolbox

                    本文档为【第二讲_cDNA芯片与基因表达分析】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

第二讲_cDNA芯片与基因表达分析

你可能还喜欢