当前位置:肺炎球菌感染 > 疾病危害 > 解密阿里云高效病原体基因检测工具 >
解密阿里云高效病原体基因检测工具
病原体基因检测,为各种严重感染的诊断提供了基础。病原体检测流程分成五个步骤:
(1)采集病人的样本,比方说静脉血,痰液,肺泡灌洗液,或者脑脊髓液等。
()对样本进行培养,提取样本中的核酸组织。
()通过高通量基因测序仪,对核酸序列进行测序。高通量测序为了保证精度,会将很长的核苷酸序列,切成小的分片,分别进行测序,在读取基因序列上,一般是50pb到00bp不等。
(4)高通量测序之后,需要查询相关的病原体标准序列,找到匹配的基因序列。
(5)通过将这些小的片段进行分析,得到全部基因片段的组成成分(即检测结果),从而为病人的疾病确诊以及精准治疗提供有力的支持。
图1.病原体基因检测流程
对于生物分析检测来说,通常情况下,一次病原体检测,大约会生成5亿左右的75bp的基因片段。过滤掉一些人的基因组织序列之后,还需要查询1亿左右的基因片段。通常情况下,会使用nBlast[1]工具来进行基因匹配,这部分在整个病原体检测过程中,也是非常耗时的部分,大约需要-个小时。阿里云AnalyticDB向量版提供了一个高效的基因检索工具,大大提升了基因分析的性能,能够在几十分钟内完成整个病原体的查询检测过程。
.基因检索应用.1基因检索功能图1展示了病原体基因检索的界面。当前演示包含了个病毒的碱基序列,我们将病毒切分成bp的小片段(总共个片段),转化成向量之后,存储到AnalyticDB中。在检索框中,用户可以输入一段基因序列,到我们当前的系统中进行检索。为了方便大家使用,我们挑了新冠病毒,艾滋病毒,埃博拉病毒和中东呼吸综合症的基因序列来进行演示,用户可以拷贝相关的序列,来检测查询的性能。
图.核酸查询演示
图用户输入了一段新型冠状病毒的基因序列,可以看到排到前面的序列片段就是我们要找的新冠的病毒的序列。因为当前AnalyticDB提供高效的向量索引,系统会在毫秒级的时间内,返回相关的基因片段。
图.基因检索结果
.端到端的基因分析我们模拟了人体的基因采样,将新型冠病毒基因(塞尔维亚MT[],美国MT[])和中东呼吸症MERS基因(NC_.[10]),三株病毒混合在一起,打散成75bp的序列,当做测试集合。我们希望,通过当前病毒库的检索分析,能够识别出当前测试集合中包含新型冠状病毒和MERS病毒。当前系统通过匹配检测,我们生成图4。
图4.基因匹配结果
可以看到经过检测,病毒库检索系统返回了三个基因组(NC_.,NC_.和NC_.1)。NC_.(65%)是武汉海鲜市场的新型冠状病毒的基因;NC_.(0%)是MERS病毒的基因;而NC_.1(1%)是beta型英国冠状病毒,经过查询这个是MERS病毒的另外一个名字[8],也属于MERS病毒。因此,通过分析,当前混合测试集合中包含了新型冠状病毒和MERS病毒。
.应用架构总体设计阿里云基因检索系统的总体架构如图5所示,AnalyticDB负责整个应用的全部的结构化数据(比方说,基因序列的长度,基因的名称,基因的种类,以及基因的详细介绍,DNA或者RNA等)和基因序列产生的特征向量的存储和查询。在查询的时候,我们使用基因向量抽取模型,将基因转化成向量,在AnalyticDB库中进行粗排检索。在向量匹配的结果集中,我们使用经典的Needleman-Wunsch[4]算法进行精排,返回最相似的基因序列。
图5.基因检索系统框架
.基因训练和查询模型.1基因查询过程基因模型的训练已经在上一篇文章中[5],进行了详细的讲解。通过训练好的DNAK-Mer模型,我们可以得到每个k-mer的向量。给定一段1bp的基因序列(如图6),我们在这段基因序列中抽取出5个8-mers。我们将这5个8-mers转成对应的向量,求和归一化之后,就是这段1bp的基因序列的最终的向量。当然,为了提升精度,我们也可以使用docvec[6]等学习模型来对整段基因片段进行转化。
图6.DNA序列转向量
.基因精度分析我们训练了两个模型,全部病毒模型和1个病原体细菌模型(痤疮丙酸杆菌,金黄色葡萄球菌,表皮葡萄球菌,溶血葡萄球菌,大肠埃希氏菌,鲍曼不动杆菌,结核分枝杆菌,肺炎链球菌,肺炎克雷伯氏菌,流感嗜血杆菌,副流感嗜血杆菌,嗜麦芽窄食单胞菌,铜绿假单胞菌,屎肠球菌,纹带棒状杆菌,人疱疹病毒4型(EB病毒),细环病毒,人腺病毒B组,黄曲霉,白色假丝酵母,耶氏肺孢子菌)。我们将一个基因,每隔个bp,做一下切分。然后将bp的小的分段,转化成向量存在库里面,进行检索。因此病毒数据集包括个病毒,个分段;1个细菌共75个基因,个分段。
实验1(见表1)系统随机的在当前的基因库里面,取出75bp的小的片段。我们知道这75bp的基因片段是在哪个基因的哪个片段中提取的。我们将这75bp的基因段到库里面进行检索,查找返回前N个结果集中,查看是否包含这75bp的基因段对应的基因片段。Top-n的精度(Precision(n)),用公式(1)进行计算。
其中,n表示查询返回的列表的长度。u表示查询的次数,在实验中u取的是次。表示在第i次查询中,序列si是否出现在Top-n的列表中,出现为1,不出现为0。如果n越小,精度越高,说明我们的方法在实际中非常有效。我们可以看到,针对两个模型来说,top0的精度,都在99%以上。精度在0.99以上,对于实际检验基因片段包含物种基因是足够了的。
表1.基因查询精度检测
实验(见表)系统随机的在当前的基因库里面,取出75bp的小的片段。我们将这75bp的基因段进行了%的随机的突变(自然界中的基因突变的概率会更低,比方说人的0亿个碱基,新生儿会有0个基因发生突变。病毒RNA的突变概率会高一些,一般也都小于1%),然后到库里面进行检索,查找返回前N个结果集中,查看是否包含这75bp的基因段对应的基因片段。基因突变之后,虽然查询的精度有所下降,但是top0的精度也都达到了0.99。
表.基因突变查询精度检测
实验(见表)对基因检索的速度进行了比较。我们下载了病毒序列,菌类的基因序列,以及部分植物基因序列[7],总共9.7G。我们分别将相关数据,导入到AnalyticDB数据库中和Blast库中。我们跑了次不同的查询,对实验结果取了平均。Blast需要.秒才能返回结果,我们算法精度在top0的情况下,保证精度在0.95的准确性下,测试端到端的查询(包括查询基因转向量,向量粗排和Needleman-Wunsch算法的精排)只需要0.57s(提升了1.5倍)。
表.检索时间
动动小手指了解更多详情!预览时标签不可点收录于话题#个上一篇下一篇