断续

注册

 

发新话题 回复该主题

我的生物信息之路 [复制链接]

1#
白点疯 http://baidianfeng.39.net/bdfby/yqyy/

一个农业资源与环境专业的本科生,天天和瓶瓶罐罐打交道,半路被出家做土壤微生物生态,最大的难关就是生物信息学的学习,如今又被写文章的相关云云所缠绕,认为文章就像是一个婴儿,只有孕育到位了,自然就顺产下来了,剖腹产的总是显得不那么真实。-----文涛

引子:

两年前的秋天,那是一个夜黑风高的夜晚,但是依然很闷热,当时觉得,这就是南方,或者这就是南京,和我们北方是不一样的,这种湿热,即使在已经到了的九月份了。当时只为数不多的见过几面的袁师兄叫上我,去实验室同另一位师兄会面,这个人是磊哥,不过今天他已经博士毕业一年了,拥有一身的腱子肉,喜欢漂亮的小师妹。我记得最清楚的就是袁师兄让我学习R语言,学习测序数据处理方法,像磊哥。当然还讲了一些乱七八糟啥的也听不懂的东西,当时我头脑中的概念跳出来的是:植物营养研究法:是本科上过的一本专业的实验设计和数据分析的基础和原理课本;DPS:本科发了一篇中文小文章,当时班主任推荐的数据处理小软件,易学,好用;origin:本科听了女朋友班主任上的origin实操课,毕业论文使用这个软件出的图,映像深刻的是这个软件可以和word交互,随机双击word中的图片即可回到origin中继续修改,很灵活。这些概念突然被一种叫R的东西所冲击了,不懂R,不知道为什么做这个微生物生态方向(当时并不知道自己是这个方向)研究要专门学数据分析,因为当时已有的我的概念也就是:数据分析=方差分析+柱状图,哪里还需要专门去学习什么分析之类的云云。那天就是我的起点,我研究生的七点,一句话,一个字:R,让我走向了今天的生物信息和土壤微生物生态之路。

开始:

自那时起,除了实验方面的东西,我就开始围绕这个R来思考,这是一个软件?对,我下载了下来的当时还是3.1的版本,可是打开后该做什么呢?一个可以键入字符的命令行摆在自己面前,输入些啥,一窍不通。于是我使用R在互联网上搜索,一些标签便慢慢加到了R身上,一门语言,一个软件,有很漂亮的可视化方案,依赖各种包(包治百病嘛),这些一窍不通的标签我半疑半惑的加到了R这个字母上。再往后,一本书映入我的眼帘,便是《R语言实战》,网络上很容易得到这个电子版书籍,当时下载下来将前五章打印了出来,开始看,一遍,这个是个啥呀,两遍,这个可能是这样,三遍,我可以这样开始使用R。(R语言实战,是一本基础的R入门数据,要知道如今很少有人使用基础包作图,该书也没有提到什么可用的IDE,纯基础)

知道了如何开始,于是第一次实践便开始了,那是两年前冬天的12月,我使用纯的细菌摇的生长曲线,使用R基础包做了一批折线图,表示了细菌的增长过程,和柱状图,这是选用了一个时间数据出的图,都是是用基础包做,也就是plot函数,加上了误差线,黑白的,当时年终汇报我的图片便是来自于此,被师姐吐槽不好看,被师兄也吐槽过,让我自己也觉得这个R的确不怎么样,还不如origin做的好看,而且作图数据我都是用excel分析出来的,还得调整成为R习惯的长型数据格式,实在是添了不少的麻烦。于是这样的思考回旋在脑海,R为什么会被师兄建议,为什么磊哥不学别的,偏偏学这个目前我认为不怎么样的软件,我的内心在寻找答案,时常坐在电脑旁边发呆。

在三月份,春季开学了,但是有这样一个场景:我坐在电脑旁,打开之前所做的折线图,和R那个只有一个命令行的界面,拖着腮帮子。这个时候磊哥从身旁站住,说了两句话:“你怎么不用Rstudio呢?,你怎么不用ggplot作图呢?”嗯!!!仿佛另一个世界想我打开了大门,我尝试下载了Rstudio。磊哥的R语言可视化也借给我看了:这是一本ggplot2图形实战指南。关于R的新的历练在Rstudio和ggplot2上便开始了。

话分两句,路走两条,另一方面的关于生物信息处理二代测序数据的路比R语言要辛苦的多了,还记得两年前那个月黑风高的夜晚吗?那个时候测序数据这样的概念第一次爬进来我的耳朵,像一个星光,实时闪现这,引得我不得不时常注意,其实在这之前,我就看到了一个培训指南,是关于qiime的,是马兄,我的一个当时研二的师兄桌子上放的,我去找他时看到的这个材料,他当时就顺便给我来了这么一句,你知道这是啥吗?qiime(只记得他很自豪,声音拉的很长),你要是学会这个就牛逼了。当然我没当一回事。但是在那个夜晚之后,还是之前的那个夜晚啊,我的注视的那个星光在不久之后的那一天的中午,再次让指引我看到了马兄的那本qiime培训指南。那本资料五十页左右,前面十页讲的是win安装虚拟机并在虚拟机内部安装qiime的过程,图文教程(简单的流程,不够详细,尤其是错误解决问题没有说明),之后的二十多页介绍了生物信息尤其是扩增子序列处理的发展和处理分析软件和现状,我也似懂非懂的看了几遍,之后的十几页全部是代码了,几个实战流程的全部代码,说实话真不咋地,尤其是分析处理流程的代码,乱七八糟的流程,拼凑成为一整套代码,不够简明,不够有效,不易学习。但那本材料我复印了一份,断断续续的还是看了好几遍,没什么办法,这些个生信分析往往中文材料很少,英文的确是不好入手,最起码作为一个新手是这样的,当然我也就没有去寻找,因此我的进展一直很慢。(其实在今天也一样,先进的技术往往在国外会早些被开发和使用,这是我们的弱项)。直到年底,我似乎才在win7(我用了当时算是四年的电脑,系统一直用win7,不敢升级,怕学不会)上面挂载好了qiime的镜像。这中间安装的的问题基本是共享文件夹挂载不上的问题,自己脸皮子薄,不好意思问老师,实验室又没有什么师兄学这个,马兄??也指望不上,自己硬着头皮干了三个月不止,装个软件而已。(到今天qiime已经完全被qiime2接风,但是qiime的时代似乎还没过去)

到年三月份,R语言呢,我在磊哥的指引下继续了Rstudio和ggplot2的学习,吭哧吭哧的qiime我开始了学习

分享 转发
TOP
发新话题 回复该主题