2016 年的一项研究检查了 3,597 篇论文的基因数据,发现有五分之一受到了 Excel 自动纠正错误的影响。为了避开 MS Excel 自动纠正,科学家制定了新的基因命名指南 ,将 MARCH1 改为 MARCHF1,SEPT1 改为 SEPTIN1,等等。不少网友就很疑惑,Excel会对论文有影响,难道科研人员也会用到Excel吗?没错,其实科研人员也会用,而且用到的频率不少,今天来和大家聊聊。
01,关于改名这件事
生信研究人员表示,改得好,其实这套落后命名系统早就该被废掉了。这也不单纯是excel的锅,这套系统本身就有很大缺陷,已经有其他命名系统了。
我以前就受到过困扰,比如这次被改的SEPT1基因,我就遇到过好几次,由于处理数据过程中一般都会vcf文件,结果只要用excel打开,就自动变更成了9月1号,这不是玩我吗,现在改为 SEPTIN1,很合适。不过我更喜欢用另一套命名系统,这个基因的名字变成了:ENSG0000018009,简单明了,省时省力。
大家也别担心,因为现在我们做组学研究,正在走向尽量少用这种基因名。为什么?因为不合理啊。
估计大家在理解人名字的时候就遇到这种事情,李世民、澹台灭明,孛儿只斤·铁木真,はなさき,고미남,Francis Bacon,Henri Rene Albert Guy de Maupassant……
还有重名,别名一堆。下面就来说说基因命名系统。
02,基因命名系统SYMBOL系统
一个基因名,其实有多种命名系统,比如symbol,entrez,ensembl等。这次改名是SYMBOL系统,不过是修修补补,因为这个SYMBOL系统本身不合理。
第一种是SYMBOL系统,就是大家常说的基因名gene name系统,这是一套非常原始非常落后的系统,就是大家常说的基因名。它的命名其实就是根据最早研究的命名的那个人的兴趣决定的,或者他当时关注到的点决定的。
比如有个基因叫BRCA1,因为在遗传性乳腺癌中发现,被叫做breast cancer 1,也就是乳腺癌基因1,类似的还有BRCA2。
当时这只是因为当初观察到了它和乳腺癌有关。如果你关注的不是乳腺癌,就会有其他命名。在互联网不发达的时候,大家也没法沟通,于是各自命名。于是基因还有了别名,服不服气~
比如BRCA2基因,就有BRCC2, FACD, FAD, FAD1, FANCD, FANCD1, XRCC11等多种命名,它们代表同一个基因。你说要是做基因的人,会不会崩溃?
搜索引擎可不会自动等同,这就等于你如果只认识BRCA2,你可能错过FAD, FAD1, FANCD其他一系列研究,其实都是同一个基因。
所以后来还出现了official symbol,尽管看似大一统,其实依然受制于语义的问题。
事实上,这个基因,并不是局限在乳腺癌上。这是一个很重要的基因组维持基因,用于保障基因组稳定性的。
This gene encodes a 190 kD nuclear phosphoprotein that plays a role in maintaining genomic stability
它的功能可不是局限在乳腺癌上,在许多癌症,甚至非癌症中也有体现啊。既然是维持基因组稳定性的,那么如果基因组稳定性受到了破坏,并且该基因发生突变没来得及维持,所以就会引发后续的癌变之类的。
以至于现在数据库在标注基因名的时候,还要额外加注释,指明是DNA repair associated,累不累啊。
再比如Fox基因,名字是叉头框基因(forkhead box FOX)等等
这种命名可以说是严重取决于早期命名人的个人认知和经历,所以这种命名已经严重不适合当今的研究了。假如当初有个人发现某基因和杠精有关,命名为杠精基因,后来发现错了,但是已经命名就麻烦了。更别提这种命名会干扰研究人员,尤其是会让很多人默认了它和xx有关,这是不合理的。
所以,我们迫切需要一套新的命名系统。于是就有了ENTREZID
03,ENTREZID系统
这个系统是生物学数据库NCBI的命名系统,适应互联网时代。
Entrez is a molecular biology database system that provides integrated access to nucleotide and protein sequence data, gene-centered and genomic mapping information, 3D structure data, PubMed MEDLINE, and more. The system is produced by the National Center for Biotechnology Information (NCBI) and is available via the Internet.
这套命名系统是纯数字的,比如GeneID: 675,就是BRCA2;9527呢,是GOSR1基因,和高尔基体有关。
这个命名的确是比较中性,管你三七二十一,按照发现顺序,以此排列。
所以现在不少分析软件都采用这种命名系统,毕竟这套系统中性,纯数字(除非迷信数字的人感觉不爽)当然,这套系统也有个问题,就是难以区分物种。而且其实excel等处理还是可能会遇到问题(比如科学计数?)
大家知道,不同物种其实都有自己的基因,你用同一个名字表示,如果不表明物种的话,说不定就搞错了。这就是大家说的同源基因概念之类的。所以又有了一套新的系统,那就是ENSEMBL。
04,ENSEMBL系统
这套系统是伴随着ensembl出现的,是面对基因组时代,越来越多物种基因组出现的时候开始的新系统。
其命名方式更加科学:就是物种名+数字。比如ENSG00000139618,前面的ENSG表示人类基因,后面的数字表示具体的基因。这个基因事实上就是BRCA2
而这个基因如果到了小鼠上呢,就变成了ENSMUSG00000041147,ENSMUSG是小鼠的意思。
可见这套系统可以成功的区分不同物种的差异,因此事实上现在这套系统正在逐步的取得更多的认可。
05,未来的系统
其实未来情况下,可能基因命名系统还会革新。毕竟如ENSG、ENSMUSG这种命名物种的方法,会累成狗。
自然界物种太多了,动物百万种,植物百万种,微生物更是可能有万亿种,按照这种命名,那到时候不得累死啊。
所以未来肯定会有一套更好的系统,但是这套系统长得什么样,我还想不出,但是肯定更加的中性,更加的合理。
06,生物人不用office?
另外,感觉很多网友有一个很大的误解,就是做生物的人不用office???
喵喵喵,毫不夸张的说,对于大部分做生物的人来说,如果非要列出个使用软件排名,office绝对是遥遥领先。为何?
1,发表文章需要office。各大投稿系统上传的基本上是word,excel,pdf。
瞅瞅这是nature的附件,excel格式
2,汇报、基金也用office。比如做个PPT啊,写基金一样如此。
3,就是生信人员也用office啊。做生信的,除了上面两个,到了后期,也是要用excel。
最开始可能有几十万甚至几千万行数据,肯定用其他办法处理,但是处理归处理,又不是只做做处理的(技术员除外),最后也要形成结论,一般到了这一步,大概率也就是几个或几十个基因,几百个基因的估计都少,因为都结论了,还有那么多基因,说明分析的不透彻嘛。
所以office应用太广泛了,以至于你根本无法摆脱它。