您选择的条件: 杜浩
  • eDNA监测测序数据分析注释中参考数据库选择、指标阈值选择、目标数据准备的影响——以长江中游鱼类为监测目标

    分类: 生物学 >> 生态学 提交时间: 2024-01-23

    摘要: 在基于宏条形码(meta-barcoding)的eDNA监测技术路径中,eDNA测序数据的分析和注释是决定监测结果判断和评估精确与否甚至准确与否的基础,而参考数据库选择、指标阈值选择、目标数据准备是eDNA测序数据分析和注释中最为关键的3个技术环节。为弄清上述3个技术环节处理方案的影响,本研究以长江中游2组eDNA监测COI基因测序数据为分析对象,针对鱼类的检出做了3组实验来分别检验1)不同参考数据库及物种注释算法对注释结果的影响,2)不同OTU聚类序列相似度和物种注释分类置信度(序列一致性和序列覆盖度)对注释结果的影响,3)目标数据中各物种不同序列丰富度对注释结果的影响。结果显示:1)Blast算法下,3个版本nt库注释出的物种基本一致(72%~78%),2个本地序列参考库注释出的物种也基本一致(91%~96%),这5个序列参考库注释出的物种52%~68%一致;nt库RDP Classifier算法注释出的物种覆盖95%以上Blast算法注释出的物种,并比Blast算法注释出的物种多151%~443%,多出的物种大都是错误注释,本地参考数据库RDP Classifier算法注释出的物种覆盖66%~85%的Blast算法注释出的物种,并存在数条只注释到科属的结果。2)OTU聚类序列相似度阈值,取值0.999比取值0.99获得的OTU多154%~209%,注释到鱼类的OTU多240%~490%;注释分类置信度阈值(Blast算法,序列一致性和序列覆盖度)从0.8到0.99注释获得的物种组成基本(94%以上)一致,物种下的OTU组成也基本(83%以上)一致,注释分类置信度阈值取0.7时注释获得的物种组成、OTU组成和取0.8及以上时注释获得的有较大差异。3)在OTU聚类序列相似度阈值0.999、注释分类置信度阈值0.9时,多序列数据注释所得鱼类物种数、OTU数最多、物种注释正确率最高(达81.49%),分别比单序列数据的多7%、215%和高5%。在具体eDNA测序数据的分析和注释中,可通过建立完善本地参考数据库、优化OTU聚类序列相似度和物种注释分类置信度(序列一致性和序列覆盖度)取值、增加目标数据的丰富度来提高注释结果的准确性,但受制于物种注释算法的局限性,物种注释错误和注释遗漏的问题可能将长期存在,物种注释正确率通常低于85%(基于COI基因的eDNA监测)。