对某基因组文库全部克隆片段进行末端序列测定中未测到的碱基数,即缺口(gap),与已测定的总碱基数相关。随着已测定碱基数的增加,缺口的总碱基数目会按照泊松公式的一个推论(P=e)迅速减小。其中P为基因组中某个碱基未被测定的概率,m为所测定的碱基数与基因组大小相比的倍数。m越大P值越小。当m=5(即随机测定的碱基数达到基因组的5倍)时,基因组中未测定的碱基数为总碱基数的0.67%(e=0.0067)。
对流感嗜血杆菌基因组(1.83Mb)来说,可能留有128个平均长为100bp的缺口。
1.利用非特异DNA酶随机切断DNA,建立高度随机,大小为1kb~2kb的基因文库;
2.进行高效,大规模的单末端测序和双末端测序;
3.对测序结果进行序列拼接并排除连锁匹配的错误;
4.构建λ文库进行缺口填补,得到完整基因序列。
随着所测基因组总量增大,所需测序的片段大量增加,各个片段重叠成一个连续体的概率是2n~2n。
1、大片段克隆法(clone contig)。首先用稀有内切酶把待测基因组降解为数百kb以上的片段,再分别测序。
2、靶标鸟枪法(directed shotgun)。首先根据染色体上已知基因和标记的位置来确定部分DNA片段的相对位置,再逐步缩小各片段之间的缺口。
该页面最新编辑时间为 2023年8月9日