疫情持续,进一步进行WGBS的数据处理和分析。
现在将这月的主要工作情况总结如下:
继续学习生物信息学所需要的基础知识,巩固R语言的学习,并学习WGBS数据处理。
一、阅读文献
主要阅读关于怎样分析WGBS的文献,包括分析方法和分析结果的解释以及其他有甲基化相关文献。
二、数据处理
肿瘤的发生和发展主要由于细胞内的信号调控通路发生异常,促进细胞生长和扩增的基因上调,而抑制细胞生长的基因功能降低;然而调控这些信号通路的基因由于本身产生突变或者由于其它与该基因直接相关的调控蛋白的功能丧失。但是DNA和RNA的甲基化直接影响基因的表达。随着NGS的发展,对研究基因组的甲基化研究成为可能。对此,从GEO库中找与课题相关的基因,在敲出该基因的细胞中并进行WGBS测序,从ENA数据库中下载原始测序数据,从建立参考基因组到分析开始,由于分析该数据没有经验,在分析过程中发现,分析十分耗费时间,中途也不断报错,建立参考基因组和序列比对就花费了20多天。在后续的分析中在不断测试,最后完成分析。
下一步将WGBS数据与RNA-seq数据整合。通过这一段时间对生信数据的分析,慢慢发现生息分析跟做实验一样,也会遇到很多问题,也是比较耗时间,关键还需要好的数据。
等待疫情结束,可以尽快到实验室做实验。