抗体库的构建方法及装置

抗体库的构建方法及装置(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN111445962A(43)申请公布日2020.07.24(21)申请号202010229877.3(22)申请日2020.03.27(71)申请人上海祥耀生物科技有限责任公司地址200241上海市闵行区园美路58号1幢312室申请人浙江祥耀生物医药有限公司(72)发明人赵文祥　刘明耀　魏海涛　褚敏　晁瑞华　李亚男　(74)专利代理机构上海领誉知识产权代理有限公司31383代理人车超平(51)Int.Cl.G16C20/64(2019.0...

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN111445962A(43)申请公布日2020.07.24(21)申请号202010229877.3(22)申请日2020.03.27(71)申请人上海祥耀生物科技有限责任公司地址200241上海市闵行区园美路58号1幢312室申请人浙江祥耀生物医药有限公司(72)发明人赵文祥　刘明耀　魏海涛　褚敏　晁瑞华　李亚男　(74)专利代理机构上海领誉知识产权代理有限公司31383代理人车超平(51)Int.Cl.G16C20/64(2019.01)G06N3/04(2006.01)G06N3/08(2006.01)权利要求书3页说明书13页附图6页(54)发明名称抗体库的构建方法及装置(57)摘要本发明公开了一种抗体库的构建方法及装置，方法包括对初级抗体库中的待预测抗体序列进行预处理，以得到字符级抗体序列集合；利用训练好的神经网络模型对所述字符级抗体序列集合进行处理，以得到待预测抗体序列的预测结果；基于已知具有高活性的抗体序列对所述训练好的神经网络模型进行调整，以优化所述训练好的神经网络模型；利用优化后的所述训练后的神经网络模型从所述待预测抗体序列的预测结果中筛选出高活性抗体序列，以建立次级抗体库。本技术方案可以极大提高抗体库的活性与目标靶点抗体的阳性率，可用于后续高亲和力抗体的快速筛选。CN111445962ACN111445962A权　利　要　求　书1/3页1.一种抗体库的构建方法，其特征在于，包括：对初级抗体库中的待预测抗体序列进行预处理，以得到字符级抗体序列集合；利用训练好的神经网络模型对所述字符级抗体序列集合进行处理，以得到待预测抗体序列的预测结果；基于已知具有高活性的抗体序列对所述训练好的神经网络模型进行调整，以优化所述训练好的神经网络模型；利用优化后的所述训练好的神经网络模型从所述待预测抗体序列的预测结果中筛选出高活性抗体序列，以建立次级抗体库。2.如权利要求1所述的抗体库的构建方法，其特征在于，所述训练好的神经网络模型通过如下方法训练完成：将训练抗体序列中的氨基酸序列中的每个氨基酸映射为对应的实数，以得到氨基酸序列向量；基于抗体类别对所述训练抗体序列进行分组，以得到对应不同分组的各个氨基酸序列向量，形成字符级抗体序列集合；从所述字符级抗体序列集合中随机选取不同分组的氨基酸序列向量作为迭代数据；将选取的各个氨基酸序列向量中的每个氨基酸映射的实数通过Embedding操作映射为固定长度的1维向量，以得到抗体序列矩阵；将所述抗体序列矩阵输入神经网络模型以训练神经网络模型参数，直至损失值迭代趋于稳定时停止训练，得到所述训练好的神经网络模型。3.如权利要求2所述的抗体库的构建方法，其特征在于，所述神经网络模型包括：2阶段卷积层、双向长短期记忆网络以及全链接层；所述将所述抗体序列矩阵输入神经网络模型以训练神经网络模型参数，直至损失值迭代趋于稳定时停止训练，得到所述训练好的神经网络模型包括：将所述抗体序列矩阵中的各个氨基酸序列向量输入所述2阶段卷积层，以得到氨基酸序列中的高维特征；利用池化操作从所述高维特征中选取最大值，从而得到的氨基酸序列的特征映像；将氨基酸序列的特征映像输入所述双向长短期记忆网络中，以输出所述特征映像的固定长度向量；将所述特征映像的固定长度向量输入所述全链接层进行分类；根据分类结果计算损失值，直至所述损失值迭代趋于稳定时停止训练，以得到所述训练好的神经网络模型。4.如权利要求2所述的抗体库的构建方法，其特征在于，训练神经网络模型参数的方法是Adam梯度下降算法。5.如权利要求1所述的抗体库的构建方法，其特征在于，所述对初级抗体库中的待预测抗体序列进行预处理，以得到字符级抗体序列集合包括：分别将所述待预测抗体序列中的每个氨基酸映射为对应的实数，以得到氨基酸序列向量；基于抗体类别对所述待预测抗体序列进行分组，以得到对应不同分组的各个氨基酸序列向量，形成字符级抗体序列集合。2CN111445962A权　利　要　求　书2/3页6.如权利要求3所述的抗体库的构建方法，其特征在于，所述基于已知具有高活性的抗体序列对所述训练好的神经网络模型进行调整，以优化所述训练好的神经模型包括：将已知具有高活性的抗体序列作为训练集再次输入所述训练好的神经网络模型；结合迁移学习方法，冻结部分卷积层，训练未被冻结的卷积层和全连接层，以对所述训练好的神经网络模型进行调整，以优化所述训练好的神经模型。7.一种抗体库的构建装置，其特征在于，包括：预处理模块，用于对初级抗体库中的待预测抗体序列进行预处理，以得到字符级抗体序列集合；神经网络模型处理模块，用于利用训练好的神经网络模型对所述字符级抗体序列集合进行处理，以得到待预测抗体序列的预测结果；优化处理模块，用于基于已知具有高活性的抗体序列对所述训练好的神经网络模型进行调整，以优化所述训练好的神经模型；次级抗体库建立模块，用于利用优化后的所述训练后的神经网络模型从所述待预测抗体序列的预测结果中筛选出高活性抗体序列，以建立次级抗体库。8.如权利要求7所述的抗体库的构建装置，其特征在于，所述神经网络模型处理模块包括模型训练子模块，用于对所述神经网络模型进行训练；其中，所述模型训练子模块包括：训练编码处理单元，用于将训练抗体序列中的氨基酸序列中的每个氨基酸映射为对应的实数，以得到氨基酸序列向量；训练分组处理单元，用于基于抗体类别对所述训练抗体序列进行分组，以得到对应不同分组的各个氨基酸序列向量，形成字符级抗体序列集合；迭代数据选取单元，用于从所述字符级抗体序列集合中随机选取不同分组的氨基酸序列向量作为迭代数据；映射处理单元，用于将选取的各个氨基酸序列向量中的每个氨基酸映射的实数通过Embedding操作映射为固定长度的1维向量，以得到抗体序列矩阵；模型训练单元，用于将所述抗体序列矩阵输入神经网络模型以训练神经网络模型参数，直至损失值迭代趋于稳定时停止训练，得到所述训练好的神经网络模型。9.如权利要求8所述的抗体库的构建装置，其特征在于，所述神经网络模型包括：2阶段卷积层、双向长短期记忆网络以及全链接层；所述模型训练单元包括：卷积层处理子单元，用于将所述抗体序列矩阵中的各个氨基酸序列向量输入所述2阶段卷积层，以得到氨基酸序列中的高维特征；池化处理子单元，用于利用池化操作从所述高维特征中选取最大值，从而得到的氨基酸序列的特征映像；双向LSTM处理子单元，用于将氨基酸序列的特征映像输入所述双向长短期记忆网络中，以输出所述特征映像的固定长度向量；分类处理子单元，用于将所述特征映像的固定长度向量输入所述全链接层进行分类；损失值计算子单元，用于根据分类结果计算损失值，直至所述损失值迭代趋于稳定时停止训练，以得到所述训练好的神经网络模型。10.如权利要求8所述的抗体库的构建装置，其特征在于，所述模型训练单元采用Adam3CN111445962A权　利　要　求　书3/3页梯度下降算法训练神经网络模型参数。11.如权利要求7所述的抗体库的构建装置，其特征在于，所述预处理模块包括：编码处理单元，用于分别将所述待预测抗体序列中的每个氨基酸映射为对应的实数，以得到氨基酸序列向量；分组处理单元，用于基于抗体类别对所述待预测抗体序列进行分组，以得到对应不同分组的各个氨基酸序列向量，形成字符级抗体序列集合。12.如权利要求9所述的抗体库的构建装置，其特征在于，所述优化处理模块包括：训练序列输入单元，用于将已知具有高活性的抗体序列作为训练集再次输入所述训练好的神经网络模型；迁移学习处理单元，用于结合迁移学习方法，冻结部分卷积层，训练未被冻结的卷积层和全连接层，以对所述训练好的神经网络模型进行调整，以优化所述训练好的神经模型。13.一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-6任一所述的抗体库的构建方法。4CN111445962A说　明　书1/13页抗体库的构建方法及装置技术领域[0001]本发明涉及人工智能领域，特别涉及一种抗体库的构建方法及装置。背景技术[0002]噬菌体抗体库技术是结合聚合酶链式反应(PCR)、抗体功能片段原核表达以及噬菌体展示等方法为一体的抗体发现技术，其原理就是将抗体分子的全套可变区基因克隆构建成功能性片段如：Fab、scFv，并与单链噬菌体外壳蛋白形成融合蛋白，展示于噬菌体颗粒表面。噬菌体抗体库技术模拟了抗体免疫系统的选择作用，展示在噬菌体表面的Fab或scFv分子能够在体外与靶抗原相互结合，然后反复洗涤去除非特异性结合抗体，再洗脱并收集与抗原结合的噬菌体，通过几轮筛选后获得与靶抗原结合的噬菌体，并通过抗体基因工程技术获取抗体序列信息。传统的噬菌体抗体库构建及淘选技术发展较为成熟，主要包括免疫抗体库、天然抗体库、半合成抗体库和全合成抗体库。[0003]人工智能是计算机学科的一个分支领域，兴起于上世纪五十年代中期，然而当时研究人工智能的起点较低，目标只是实现简单的模仿人类行为的机器人。随着计算机科学的不断发展，近三十年来人工智能也获得了迅速的发展，在很多学科领域都获得了广泛应用，并取得了丰硕的成果，人工智能已逐步成为一个独立的分支，无论在理论和实践上都已自成一个系统。[0004]人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，主要包括计算机实现智能的原理、制造类似于人脑智能的计算机，使计算机能实现更高层次的应用。人工智能将涉及到计算机科学、心理学、哲学和语言学等学科。现阶段的人工智能处于高速发展时期，人工智能产业链则涵盖了基础层、技术层、应用层、业务层等多个方面，目前人工智能在语音识别、自然语言处理、计算机视觉、机器人等人工智能技术领域取得不俗成就。随着人工智能的深入发展，医药研发也迎来了人工智能的时代。[0005]在过去的几年里，循环神经网络(RecurrentNeural Network，RNN)的实力已经得到了很好的证明，在许多序列问题中，例如文本处理、语音识别以及机器翻译等，循环神经网络都取得了显著的成绩。循环神经网络也正被越来越多的应用到其它领域。一个重复的隐藏单元在时间展开时可以被认为是具有相同权重的非常深的前馈网络。随着RNN的时间维度的增大，由于梯度消失和维度爆炸问题，RNN的训练变得不稳定。为了解决这个问题，后来许多人提出了改进意见。Goodfellow等人(2016)详细分析了循环和递归神经网络和架构的细节，以及相关的门控和记忆网络。Karpathy等人(2015)使用字符级语言模型来分析和可视化预测、表征训练动态、RNN及其变体(例如LSTM)的错误类型等。长短期记忆网络(Long Short-Term Memory，简称LSTM)是一种特殊的循环神经网络，最早是由Hochreiter等于1997年提出，解决了RNN的梯度消失或梯度爆炸的问题，能够学习到长期的依赖关系。Shabanian等人(2017)提出了变分双向LSTM(Variational Bi-LSTM)，它是双向LSTM体系结构的变体。Variational Bi-LSTM使用变分自编码器(VAE)在LSTM之间创建一个信息交换通5CN111445962A说　明　书2/13页道，以学习更好的表征。[0006]目前人工智能已经深度进入蛋白质领域，通过机器学习、深度学习、表征学习和自然语言处理等技术，利用计算机从数据中获取信息，以实现蛋白质功能、结构预测。例如谷歌最新人工智能软件阿尔法折叠(Alpha Fold)，在一项极其困难的任务中击败了所有对手，成功根据基因序列预测了生命基本分子——蛋白质的三维结构，以及由生物信息学科学家Mathias Wilhelm和生物化学家BernhardKüster领导的慕尼黑工业大学团队，现已成功运用蛋白质组学数据训练神经网络。[0007]传统噬菌体抗体库筛选方法对于低活性的抗体库来说，淘选过程复杂、得到的阳性克隆的成功率低、抗体数量少、活性低，因而急需对抗体库进行升级改造。发明内容 [0008]本发明解决的问题是现有的噬菌体抗体库筛选方法，不仅筛选过程复杂、且得到的阳性克隆的成功率低、抗体数量少、活性低的技术问题。[0009]为解决上述问题，一方面，本发明实施例提供一种抗体库的构建方法，包括：对初级抗体库中的待预测抗体序列进行预处理，以得到字符级抗体序列集合；利用训练好的神经网络模型对所述字符级抗体序列集合进行处理，以得到待预测抗体序列的预测结果；基于已知具有高活性的抗体序列对所述训练好的神经网络模型进行调整，以优化所述训练好的神经网络模型；利用优化后的所述训练后的神经网络模型从所述待预测抗体序列的预测结果中筛选出高活性抗体序列，以建立次级抗体库。[0010]可选的，所述训练好的神经网络模型通过如下方法训练完成：将训练抗体序列中的氨基酸序列中的每个氨基酸映射为对应的实数，以得到氨基酸序列向量；基于抗体类别对所述训练抗体序列进行分组，以得到对应不同分组的各个氨基酸序列向量，形成字符级抗体序列集合；从所述字符级抗体序列集合中随机选取不同分组的氨基酸序列向量作为迭代数据；将选取的各个氨基酸序列向量中的每个氨基酸映射的实数通过Embedding操作映射为固定长度的1维向量，以得到抗体序列矩阵；将所述抗体序列矩阵输入神经网络模型以训练神经网络模型参数，直至损失值迭代趋于稳定时停止训练，得到所述训练好的神经网络模型。[0011]可选的，所述神经网络模型包括：2阶段卷积层、双向长短期记忆网络以及全链接层；所述将所述抗体序列矩阵输入神经网络模型以训练神经网络模型参数，直至损失值迭代趋于稳定时停止训练，得到所述训练好的神经网络模型包括：将所述抗体序列矩阵中的各个氨基酸序列向量输入所述2阶段卷积层，以得到氨基酸序列中的高维特征；利用池化操作从所述高维特征中选取最大值，从而得到的氨基酸序列的特征映像；将氨基酸序列的特征映像输入所述双向长短期记忆网络中，以输出所述特征映像的固定长度向量；将所述特征映像的固定长度向量输入所述全链接层进行分类；根据分类结果计算损失值，直至所述损失值迭代趋于稳定时停止训练，以得到所述训练好的神经网络模型。[0012]可选的，训练神经网络模型参数的方法是Adam梯度下降算法。[0013]可选的，所述对初级抗体库中的待预测抗体序列进行预处理，以得到字符级抗体序列集合包括：分别将所述待预测抗体序列中的每个氨基酸映射为对应的实数，以得到氨基酸序列向量；基于抗体类别对所述待预测抗体序列进行分组，以得到对应不同分组的各6CN111445962A说　明　书3/13页个氨基酸序列向量，形成字符级抗体序列集合。[0014]可选的，所述基于已知具有高活性的抗体序列对所述训练好的神经网络模型进行调整，以优化所述训练好的神经模型包括：将已知具有高活性的抗体序列作为训练集再次输入所述训练好的神经网络模型；结合迁移学习方法，冻结部分卷积层，训练未被冻结的卷积层和全连接层，以对所述训练好的神经网络模型进行调整，以优化所述训练好的神经模型。[0015]另一方面，本发明实施例还提供了一种抗体库的构建装置，包括：预处理模块，用于对初级抗体库中的待预测抗体序列进行预处理，以得到字符级抗体序列集合；神经网络模型处理模块，用于利用训练好的神经网络模型对所述字符级抗体序列集合进行处理，以得到待预测抗体序列的预测结果；优化处理模块，用于基于已知具有高活性的抗体序列对所述训练好的神经网络模型进行调整，以优化所述训练好的神经模型；次级抗体库建立模块，用于利用优化后的所述训练后的神经网络模型从所述待预测抗体序列的预测结果中筛选出高活性抗体序列，以建立次级抗体库。[0016]与现有技术相比，本发明技术方案具有以下优点：[0017]根据本发明实施例提供的抗体库构建方法，利用已知活性的抗体序列对神经网络模型进行训练得到训练好的神经网络模型，从而利用训练好的神经网络模型对初级抗体库中的待预测抗体序列进行筛选；进一步，还利用已知具有高活性的抗体序列对所述训练好的神经网络模型进行调整，以优化所述训练好的神经网络模型，从而根据优化后的神经网络模型选出高活性抗体序列，以形成次级抗体库，这样可以极大提高抗体库的活性与目标靶点抗体的阳性率，可用于后续高亲和力抗体的快速筛选。附图说明[0018]图1是本发明实施例提供的抗体库的构建方法的一个实施例的流程示意图；[0019]图2是本发明实施例提供的抗体库的构建方法中对初级抗体库进行预处理的一个实施例的流程示意图；[0020]图3是本发明实施例提供的抗体库的构建方法中优化神经网络模型的一个实施例的流程示意图；[0021]图4是本发明实施例提供的抗体库的构建方法中训练神经网络模型的一个实施例的流程示意图；[0022]图5是本发明实施例提供的神经网络模型的架构图；[0023]图6是本发明实施例提供的抗体库的构建方法中神经网络模型的一个实施例的流程示意图；[0024]图7是本发明实施例提供的抗体库的构建装置的一个实施例的结构示意图；[0025]图8是本发明实施例提供的抗体库的构建装置中神经网络模型处理模块的一个实施例的结构示意图；[0026]图9是本发明实施例提供的抗体库的构建装置中模型训练单元的一个实施例的结构示意图。[0027]图10是本发明实施例提供的抗体库的构建装置中预处理模块的一个实施例的结构示意图；7CN111445962A说　明　书4/13页[0028]图11是本发明实施例提供的抗体库的构建装置中优化处理模块的一个实施例的结构示意图。具体实施方式[0029]发明人发现现有的噬菌体抗体库筛选方法，不仅筛选过程复杂、且得到的阳性克隆的成功率低、抗体数量少、活性低。[0030]针对上述问题，发明人经过研究，提供了一种抗体库的构建方法及装置，利用已知活性的抗体序列对神经网络模型进行训练得到训练好的神经网络模型，从而利用训练好的神经网络模型对初级抗体库中的待预测抗体序列进行筛选；进一步，还利用已知具有高活性的抗体序列对所述训练好的神经网络模型进行调整，以优化所述训练好的神经网络模型，从而根据优化后的神经网络模型选出高活性抗体序列，以形成次级抗体库，这种建立可以极大提高抗体库的活性与目标靶点抗体的阳性率，可用于后续高亲和力抗体的快速筛选。[0031]为使本发明的上述目的、特征和优点能够更为明显易懂，下面结合附图对本发明的具体实施方式做详细的说明。[0032]图1是本发明实施例提供的抗体库的构建方法的一个实施例流程示意图。[0033]参考图1，所述抗体库的构建方法包括：[0034]步骤101、对初级抗体库中的待预测抗体序列进行预处理，以得到字符级抗体序列集合。[0035]步骤102、利用训练好的神经网络模型对所述字符级抗体序列集合进行处理，以得到待预测抗体序列的预测结果。[0036]步骤103、基于已知具有高活性的抗体序列对所述训练好的神经网络模型进行调整，以优化所述训练好的神经网络模型。[0037]步骤104、利用优化后的所述训练好的神经网络模型从所述待预测抗体序列的预测结果中筛选出高活性抗体序列，以建立次级抗体库。[0038]具体地，在步骤101中，所述待预测抗体序列是指没有带标签(标识是否为高活性)的抗体序列。[0039]图2是本发明实施例提供的抗体库的构建方法中对初级抗体库进行预处理的一个实施例的流程示意图。[0040]在一个具体实施方式中，参考图2，所述步骤101包括：[0041]步骤1011、分别将所述待预测抗体序列中的每个氨基酸映射为对应的实数，以得到氨基酸序列向量。[0042]步骤1012、基于抗体类别对所述待预测抗体序列进行分组，以得到对应不同分组的各个氨基酸序列向量，形成字符级抗体序列集合。[0043]本领域技术人员理解，抗体是由氨基酸按照不同的结构组成的一种蛋白质，通常有20种常见的氨基酸。为了使待预测抗体序列中的氨基酸序列能够被计算机识别，因此需要对每个氨基酸进行编码，使每个氨基酸映射成为一个具体的实数。[0044]具体地，待预测抗体序列由一系列氨基酸序列对应的英文字母组成的字符串，例如EVQLVESGGGLVRPGGSLRLSCAASGF。根据如下表1所示的氨基酸编码对照表将氨基酸序列中8CN111445962A说　明　书5/13页的每个英文字母映射为一个具体的实数(例如G对应6、A对应1)，从而得到氨基酸序列向量集合。[0045]表1氨基酸编码对照表[0046][0047]9CN111445962A说　明　书6/13页[0048]然后，基于抗体类别对所述待预测抗体序列进行分组，以得到对应不同分组的各个氨基酸序列向量，形成字符级抗体序列集合。[0049]如步骤102所述，利用训练好的神经网络模型对所述字符级抗体序列集合进行处理，以得到待预测抗体序列的预测结果。其中，对神经网络模型的训练过程将在下面的实施例中详细描述。[0050]如步骤103所述，基于已知具有高活性的抗体序列对所述训练好的神经网络模型进行调整，以优化所述训练好的神经模型。[0051]图3是本发明实施例提供的抗体库的构建方法中优化神经网络模型的一个实施例的流程示意图。[0052]参考图3，具体地，本步骤包括：[0053]步骤1031、将已知具有高活性的抗体序列作为训练集再次输入所述训练好的神经网络模型。[0054]步骤1032、结合迁移学习方法，冻结部分卷积层，训练未被冻结的卷积层和全连接层，以对所述训练好的神经网络模型进行调整，以优化所述训练好的神经模型。[0055]本领域技术人员理解，迁移学习(Transfer learning)是把已训练好的模型参数迁移到新的模型来帮助新模型训练。考虑到大部分数据或任务都是存在相关性的，所以通过迁移学习可以将已经学到的模型参数通过某种方式来分享给新模型，从而加快并优化模型的学习效率。[0056]如步骤104所述，利用优化后的所述训练后的神经网络模型从所述待预测抗体序列的预测结果中筛选出高活性抗体序列，以建立次级抗体库。[0057]本实施例中，通过建立神经网络模型，并通过靶点已知活性的抗体序列对神经网络模型进行训练，深度学习已知活性抗体序列的特征，然后利用迁移学习方法从已学习的抗体活性分类任务中转移知识来改进学习新抗体的活性分类任务，对初级抗体库进行虚拟筛选从而形成次级抗体库，从而提高了抗体库的活性与目标靶点抗体的阳性率，可用于后续高亲和力抗体的快速筛选。[0058]图4是本发明实施例提供的抗体库的构建方法中训练神经网络模型的一个实施例的流程示意图。[0059]参考图4，训练神经网络模型包括如下步骤：[0060]步骤201、将训练抗体序列中的氨基酸序列中的每个氨基酸映射为对应的实数，以得到氨基酸序列向量；[0061]步骤202、基于抗体类别对所述训练抗体序列进行分组，以得到对应不同分组的各个氨基酸序列向量，形成字符级抗体序列集合。[0062]步骤203、从所述字符级抗体序列集合中随机选取不同分组的氨基酸序列向量作为迭代数据；[0063]步骤204、将选取的各个氨基酸序列向量中的每个氨基酸映射的实数通过Embedding操作映射为固定长度的1维向量，以得到抗体序列矩阵；[0064]步骤205、将所述抗体序列矩阵输入神经网络模型以训练神经网络模型参数，直至损失值迭代趋于稳定时停止训练，得到所述训练好的神经网络模型。[0065]具体地，所述步骤201的实施方式与上文图1所述实施例中步骤101的实施方式相10CN111445962A说　明　书7/13页类似，在此不再赘述。由于本实施例是对神经网络模型进行训练，因此样本是训练抗体序列，例如，数据集D包含m个样本，D＝{a1,a2,...,am}。其中ai为氨基酸。将氨基酸序列中的每个氨基酸映射为对应的实数，以得到氨基酸序列向量。[0066]如步骤202所述，基于抗体类别对所述训练抗体序列进行分组，以得到对应不同分组的各个氨基酸序列向量，形成字符级抗体序列集合。[0067]抗体依据重链抗原性的不同分为五类：IgG、IgA、IgM、IgD、IgE。[0068](1)IgG：血清中含量最高，因此是最重要的抗感染分子，包括抗菌、抗病毒、抗毒素等。IgG还能激活补体，结合并增强巨噬细胞的吞噬功能(调理作用和ADCC效应)，穿过胎盘，保护胎儿及新生婴儿免受感染。[0069](2)IgA：分单体和双体两种。前者存在血清中，后者存在于黏膜表面及分泌液中，是黏膜局部抗感染的重要因素。[0070](3)IgM：是分子量最大，体内受感染后最早产生的抗体，具有很强的激活补体和调理作用，因此是重要的抗感染因子，且常用于诊断早期感染。[0071](4)IgD：主要存在于成熟B细胞表面，是B细胞识别抗原的受体。[0072](5)IgE：血清中含量最少的抗体，某些过敏性体质的人血清中可检测到，参与介导I型超敏反应和抗寄生虫感染。[0073]在本实施例中选取的抗体类别为IgG类别。根据所述训练抗体序列中各个训练抗体的活性属性(即是否具有高活性)进行分组，将具有高活性的训练抗体序列归于一个分组，而将不具有高活性的训练抗体序列归为另一分组，从而得到对应不同分组的各个氨基酸序列向量，形成字符级抗体序列集合。[0074]如步骤203所述，从所述字符级抗体序列集合中随机选取不同分组的氨基酸序列向量作为迭代数据。[0075]如步骤204所述，将选取的各个氨基酸序列向量中的每个氨基酸映射的实数通过Embedding操作映射为固定长度的1维向量，以得到抗体序列矩阵。[0076]本领域技术人员理解，Embedding操作会将氨基酸序列向量中的每一个实数映像成为一个固定长度的向量。为了方便描述，假设固定长度(fixed length)＝8，这样在经过嵌入阶段之后，上一阶段得到的氨基酸序列向量就变成了一个8×8的抗体序列矩阵。[0077]如步骤205所述，将所述抗体序列矩阵输入神经网络模型以训练神经网络模型参数，直至损失值迭代趋于稳定时停止训练，得到所述训练好的神经网络模型。[0078]本实施例中，训练神经网络模型参数的方法是Adam梯度下降算法。本领域技术人员理解，Adam梯度下降算法是一种可以替代传统随机梯度下降过程的一阶优化算法，它能基于训练数据迭代地更新神经网络权重。基于训练好的神经网络模型后，需要保存训练完成的神经网络模型参数，以供后续预测阶段使用这些神经网络模型参数。[0079]图5是本发明实施例提供的神经网络模型的架构图。[0080]在本实施例中，参考图5，所述神经网络模型包括2阶段卷积层、双向长短期记忆网络以及全链接层。[0081]图6是本发明实施例提供的抗体库的构建方法中神经网络模型的一个实施例的流程示意图。[0082]参考图6，基于该神经网络模型，所述步骤205包括：11CN111445962A说　明　书8/13页[0083]步骤2051、将所述抗体序列矩阵中的各个氨基酸序列向量输入所述2阶段卷积层，以得到氨基酸序列中的高维特征。[0084]步骤2052、利用池化操作从所述高维特征中选取最大值，从而得到的氨基酸序列的特征映像。[0085]步骤2053、将氨基酸序列的特征映像输入所述双向长短期记忆网络中，以输出所述特征映像的固定长度向量。[0086]步骤2054、将所述特征映像的固定长度向量输入所述全链接层进行分类。[0087]步骤2055、根据分类结果计算损失值，直至所述损失值迭代趋于稳定时停止训练，以得到所述训练好的神经网络模型。[0088]具体地，在所述步骤2051中，通过2阶段卷积层(Convolutional Neural Networks,简称CNN)对所述抗体序列矩阵中的各个氨基酸序列向量进行卷积操作，利用多个卷积核对所述抗体序列矩阵进行卷积操作，得到的卷积特征可以理解为获得到氨基酸序列中的高维特征。[0089]例如，W∈in×k，k是Embedding操作所设置的固定长度(fixedlength)，[0090][0091]其中，xj是第j个特征映像，L代表的层数，Wj是第j个卷积核，利用卷积核提取抗体序列中潜在的高维特征，激活函数选取Relu函数。[0092]在所述步骤2052中，通过池化层(Poolinglayers)执行池化操作对卷积出来的高维特征取最大值，从而得到卷积阶段的特征映像。[0093]在所述步骤2053中，所述双向长短期记忆网络(Bi-directional Long Short-Term Memory，简称Bi-LSTM)是循环神经网络(RecurrentNeuralNetwork,简称RNN)的一种性能更好的模型，是由前向LSTM与后向LSTM组合而成，适合用于时序数据的建模，它将由卷积阶段产生的特征映像以时间步长的形式输入到Bi-LSTM中，输出一个固定长度的向量。[0094]双向长短期记忆网络基本思想是提出一个训练序列，通过LSTM网络前向和后向进行传播，从左到右顺序学习输入序列的历史信息，从右到左学习未来影响现在的信息，这个网络结构将输入序列中每一个点的完整的过去和未来的上下文信息提供给输出层。[0095]在所述步骤2054中，将Bi-LSTM的输出结果(即固定长度的向量)作为所述全链接层(fully connectedlayers，简称FC)的输入，采用softmax逻辑回归(softmaxregression)进行分类。采用的启动函数为sigmoid函数，它能将一个值映射到[0,1]区间，从而完成分类预测。[0096]在所述步骤2055中，根据分类结果计算损失值，直至所述损失值迭代趋于稳定时停止训练，以得到所述训练好的神经网络模型。[0097]其中，所述损失值的计算公式如下：[0098][0099]其中，为待预测抗体序列通过神经网络模型的输出结果，y为待预测抗体序列的实际标记结果。[0100]进一步，对训练好的所述神经网络模型进行验证。[0101]步骤1：将已知具有高活性抗体序列与已知不具备活性抗体序列混合作为验证集12CN111445962A说　明　书9/13页按照上述图1所述实施例中步骤101的实施方式进行预处理，以转化为字符级向量的格式。[0102]步骤2：将步骤1得到的字符级向量作为输入数据输入到训练好的所述神经网络模型，得到每一个输入数据的预测分类结果。若最终分类结果将大部分具备高活性抗体序列筛选出，说明应用Bi-LSTM对活性抗体序列进行筛选的精度较高。[0103]在图1所述的实施例中初级抗体库的构建包括如下过程：[0104]1)分离外周血单个核细胞(Peripheral blood mononuclear cell，简称PBMC)，提取总核糖核酸(RibonucleicAcid，简称RNA)。[0105]分离PBMC:在15mL离心管中加入5mL淋巴细胞分离液。用1mLTip沿15mL离心管壁将5mL抗凝血缓慢加入，800g室温离心25min；离心后样品分为三层，上层为血浆，下层主要为红细胞和粒细胞，中层为淋巴细胞分离液，在上、中层界面处有一以单个核细胞为主的白色云雾层狭窄带。用1mLTip吸取云雾层，转移到15mL离心管中，加入12mL DPBS，重悬，同时500g室温离心10min；弃上清，500g离心2min，尽量吸尽上清；加入1mLRNAiso，上下缓慢吹打几次，至完全溶解，室温放置5-10分钟，-80℃保存备用或直接使用。[0106]2)总RNA提取与cDNA(互补DNA)合成[0107]从-80℃中取出保存的PBMC样品。向上述的匀浆裂解液中加入200μL三氯甲烷，盖紧离心管盖，混合至溶液乳化成乳白色；室温静置5分钟；12000×g，4℃离心5分钟。从离心机中小心取出离心管，吸取上清液转移至另一新的离心管中；向上清中加入500μL异丙醇，上下颠倒离心管充分混匀后，室温下静置10分钟；12,000×g 4℃离心10分钟。小心弃去上清，加入1mL 75％乙醇，轻轻上下颠倒洗涤离心管管壁，7,500×g，4℃离心5分钟后小心弃去上清；打开离心管盖，室温干燥沉淀几分钟。沉淀干燥后，加入35μL RNase-free水溶解沉淀。按照TKARA的PrimeScriptTMRTMaster Mix试剂盒的操作说明，将RNA反转成cDNA。[0108]3)VK、VH基因的获取与VK酶切消化[0109]分别使用VH,VL特异性引物，从cDNA中PCR扩增VH/VK片段，对其PCR产物进行回收。使用NotI/NheI将回收的VK片段以及pXY载体进行双酶切，37℃酶切4小时。使用天根通用型DNA纯化回收试剂盒直接回收VK酶切片段；对pXY载体需要进行胶回收，将胶上6000bp左右的大片段切下来，使用天根通用型DNA纯化回收试剂盒进行胶回收。[0110]4)VK抗体库构建[0111]将酶切好的VK片段以及pXY载体在16℃过夜连接。连接完成后使用VSWP膜进行连接产物去离子；将去完离子的连接产物转化TG1感受态后涂布于4块15cm的羧苄青霉素抗性平板上于37℃恒温培养箱中过夜培养；次日使用含有15％甘油的2YT液体培养基将平板上的菌体刮下，吸取刮下的菌液至新的50mL离心管中，按试剂盒说明书抽pXY-VK质粒。[0112]5)VH片段以及pXY-VK载体酶切[0113]使用SfiI将回收的VH片段以及pXY-VK载体进行50℃过夜酶切，酶切完成后再使用XhoI对VH片段以及pXY-VK载体37℃酶切6小时。使用天根通用型DNA纯化回收试剂盒直接回收VH酶切片段；对pXY-VK载体需要进行胶回收，将胶上6000bp左右的大片段切下来，使用天根通用型DNA纯化回收试剂盒进行胶回收。[0114]6)完整VK、VH抗体库构建[0115]将酶切好的VH片段以及pXY-VK载体在16℃过夜连接。连接完成后使用VSWP膜进行连接产物去离子；将去完离子的连接产物转化TG1感受态后涂布于4块15cm的羧苄青霉素抗13CN111445962A说　明　书10/13页性平板上于37℃恒温培养箱中过夜培养；次日使用含有15％甘油的2YT液体培养基将平板上的菌体刮下，吸取刮下的菌液至新的50mL离心管中，储存于-80℃冰箱。[0116]NGS测序获取初级抗体库序列[0117]抗体库质粒抽提:取10mL上述构建好的初级抗体库的抗体库菌液，4℃，6000g离心10min，弃去上清液；向离心管中加入8mL(或ODV/50)体积的RES，用涡旋振荡器充分涡旋重悬沉淀；向菌体悬液中加入8mL(或ODV/50)体积的LYS，计时5分钟，上下颠倒离心管5次以混匀细胞和裂解液。室温放置至时间结束，液体全部变蓝。[0118]取出NucleoBond Xtra Column，沿内滤管漏斗状外沿缓慢滴加12mL EQU，利用重力作用浸润整个Column以平衡柱子和内滤管；向离心瓶中加入8mL(或ODV/50)体积的NEU，立即颠倒混匀，室温放置一段时间至液体蓝色消失以中和LYS；上下颠倒离心管使絮状沉淀均匀分散，倒入内管，室温放置至液体全部流出；沿内滤管漏斗状外沿缓慢加5mL EQU，利用重力作用浸润整个Column将内滤管上残留的裂解液冲洗下来；取出内滤管，用8mLWASH洗涤柱子至液体全部流出；将柱子放置于50mL离心管上，向柱子中加入5mL 50℃预热的ELU以洗脱柱子上的质粒。[0119]向洗脱液中加入3.5mL的异丙醇，充分涡旋混匀。4℃，15000g离心30分钟。小心倒掉上清，离心管倒置于吸水纸上以吸去残液；向离心管中加入2mL 70％的常温乙醇以洗涤DNA沉淀。室温，15000g离心5分钟，小心吸去上清，室温下开盖晾10分钟，干燥DNA沉淀；用300μL无菌水溶解质粒沉淀，涡旋混匀后室温放置至溶解完全。[0120]用Nano-300测定质粒浓度，取10ug质粒，使用NcoI/NotI对质粒进行双酶切，并进行胶回收，回收750bp左右片段；将回收的片段进行NGS测序。[0121]最终NGS测序共测出109872条抗体有效序列，并对所有抗体序列的V/D/J基因型。[0122]筛选得到的次级抗体库中Top-30抗体基因合与抗体的表达[0123]选取虚拟筛选的TOP-30的抗体序列，通过基因合成，构建此30株抗体的scFV表达质粒和菌株。将Top30的抗体菌株接种至96深孔板中，每孔加入200ul的2YT+Carb+2％glucose培养基,37℃，200rpm培养箱中培养至OD600＝0.5；4000rpm室温离心10分钟，倒置平板小心去除上清，在纸上将残夜去除干净；再向深孔板中加入200ul的2YT+Carb+IPTG(终浓度1uM)培养基，30℃,200rpm培养过夜；4000rpm室温离心10分钟，吸取上清备用。[0124]Top-30抗体的ELISA验证[0125]使用PBS配置1ug/ml的CD19抗原液，每孔100ul包被酶标板，4℃包被过夜；弃去抗原包被液，使用PBST洗板3次；在向l每孔中加入200uL 2％milk(1X PBS配置)室温封闭1.5小时；弃去封闭液，使用PBST洗板3次；每孔加入制备好的表达上清，室温结合1小时；弃去上清，使用PBST洗板5次；每孔加入100ul anti-c-myc-HRP(使用2％milk1:2500稀释)二抗，室温结合1小时；弃去二抗，使用PBST洗板5次；每孔中加入100ul TMB，显色12分钟；每孔加入100ul 2M HCl终止液终止显色；使用酶标仪读取450nm的吸光度值。Top-30的抗体序列有25条阳性序列(OD450>0.1)。[0126]Top-30抗体的FACS验证[0127]96孔V型稀释板每孔加入3*105个细胞；向每孔中加入100uL实施四制备的Top100抗体上清，冰上孵育30分钟；使用Multidrop，向每孔中加入200ul PBS，1500rpm离心1min，洗3遍，最后一遍使用擦手纸拍干水分；使用PBS按照比例稀释二抗，在向每孔中加入50uL二14CN111445962A说　明　书11/13页抗，冰上孵育30分钟；使用Multidrop，向每孔中加入200ul PBS，1500rpm离心1min，洗3遍，最后一遍使用擦手纸拍干水分；使用Multidrop，每孔加入200ul PBS重悬细胞，使用Beckman CytoFLEX检测。Top-30的抗体序列有8条阳性序列(293T细胞系检测MFI>50000)。[0128]图7是本发明实施例提供的抗体库的构建装置的一个实施例的结构示意图。[0129]参考图7，所述抗体库的构建装置3包括：预处理模块31，用于对初级抗体库中的待预测抗体序列进行预处理，以得到字符级抗体序列集合。神经网络模型处理模块32，用于利用训练好的神经网络模型对所述字符级抗体序列集合进行处理，以得到待预测抗体序列的预测结果。优化处理模块33，用于基于已知具有高活性的抗体序列对所述训练好的神经网络模型进行调整，以优化所述训练好的神经模型。次级抗体库建立模块34，用于利用优化后的所述训练后的神经网络模型从所述待预测抗体序列的预测结果中筛选出高活性抗体序列，以建立次级抗体库。[0130]图8是本发明实施例提供的抗体库的构建装置中神经网络模型处理模块的一个实施例的结构示意图[0131]参考图8，所述神经网络模型处理模块32包括模型训练子模块321，用于对所述神经网络模型进行训练。其中，所述模型训练子模块包括：训练编码处理单元3211，用于将训练抗体序列中的氨基酸序列中的每个氨基酸映射为对应的实数，以得到氨基酸序列向量集合；训练分组处理单元3212，用于基于抗体类别对所述训练抗体序列进行分组，以得到对应不同分组的各个氨基酸序列向量，形成字符级抗体序列集合；迭代数据选取单元3213，用于从所述氨基酸序列向量集合中随机选取不同分组的氨基酸序列向量作为迭代数据；映射处理单元3214，用于将选取的各个氨基酸序列向量通过Embedding操作映射为固定长度的1维向量，以得到抗体序列矩阵；模型训练单元3215，用于将所述抗体序列矩阵输入神经网络模型以训练神经网络模型参数，直至损失值迭代趋于稳定时停止训练，得到所述训练好的神经网络模型。[0132]本实施例中，所述神经网络模型包括：2阶段卷积层、双向长短期记忆网络以及全链接层。[0133]图9是本发明实施例提供的抗体库的构建装置中模型训练单元的一个实施例的结构示意图。[0134]参考图9，基于上述神经网络模型，所述模型训练单元包括：卷积层处理子单元32151，用于将所述抗体序列矩阵中的各个氨基酸序列向量输入所述2阶段卷积层，以得到氨基酸序列中的高维特征；池化处理子单元32152，用于利用池化操作从所述高维特征中选取最大值，从而得到的氨基酸序列的特征映像；双向LSTM处理子单元32153，用于将氨基酸序列的特征映像输入所述双向长短期记忆网络中，以输出所述特征映像的固定长度向量；分类处理子单元32154，用于将所述特征映像的固定长度向量输入所述全链接层进行分类；损失值计算子单元32155，用于根据分类结果计算损失值，直至所述损失值迭代趋于稳定时停止训练，以得到所述训练好的神经网络模型。[0135]所述模型训练单元采用Adam梯度下降算法训练神经网络模型参数。[0136]图10是本发明实施例提供的抗体库的构建装置中预处理模块的一个实施例的结构示意图。[0137]参考图10，所述预处理模块31包括：编码处理单元311，用于分别将所述待预测抗15CN111445962A说　明　书12/13页体序列中的每个氨基酸映射为对应的实数，以得到氨基酸序列向量集合；分组处理单元312，用于基于抗体类别对所述待预测抗体序列进行分组，以得到对应不同分组的各个氨基酸序列向量，形成字符级抗体序列集合。[0138]图11是本发明实施例提供的抗体库的构建装置中优化处理模块的一个实施例的结构示意图。[0139]参考图11，所述优化处理模块33包括：训练序列输入单元331，用于将已知具有高活性的抗体序列作为训练集再次输入所述训练好的神经网络模型；迁移学习处理单元332，用于结合迁移学习方法，冻结部分卷积层，训练未被冻结的卷积层和全连接层，以对所述训练好的神经网络模型进行调整，以优化所述训练好的神经模型。[0140]本申请实施例还提供一种非临时性计算机可读存储介质，其上存储有计算机程序，上述计算机程序被处理器执行时可以实现本申请实施例提供的抗体库的构建方法。[0141]上述非临时性计算机可读存储介质可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(Read Only Memory；以下简称：ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory；以下简称：EPROM)或闪存、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。[0142]计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。[0143]计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、电线、光缆、RF等等，或者上述的任意合适的组合。[0144]可以以一种或多种程序设计语言或其组合来编写用于执行本申请操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(Local Area Network；以下简称：LAN)或广域网(Wide Area Network；以下简称：WAN)连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。[0145]本发明虽然已以较佳实施例公开如上，但其并不是用来限定本发明，任何本领域技术人员在不脱离本发明的精神和范围内，都可以利用上述揭示的方法和技术内容对本发明技术方案做出可能的变动和修改，因此，凡是未脱离本发明技术方案的内容，依据本发明16CN111445962A说　明　书13/13页的技术实质对以上实施例所作的任何简单修改、等同变化及修饰，均属于本发明技术方案的保护范围。17CN111445962A说　明　书　附　图1/6页图1图218CN111445962A说　明　书　附　图2/6页图3图419CN111445962A说　明　书　附　图3/6页图520CN111445962A说　明　书　附　图4/6页图6图721CN111445962A说　明　书　附　图5/6页图8图922CN111445962A说　明　书　附　图6/6页图10图1123

                    本文档为【抗体库的构建方法及装置】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：￥18.0 已有0 人下载

立即下载

抗体库的构建方法及装置

你可能还喜欢