用于生物信息分析该如何安装ubuntu系统
1 生信软件系统的选择——Linux(ubuntu)
对于生信分析人员来说,日常工作,软件运行,跑流程,均在linux下操作。当然,也有基于云端的生信分析平台,如免费的Galaxy,或者某些 公司的一站式云平台。
比较初学者学生物信息还是使用开源软件、学原理、一步一步运行才有意思。这路子,一定要适应Linux的命令行界面。
选择windows还是linux? 一定是linux,windows太多的生物软件不兼容了。
选择linux的哪个版本?推荐桌面版的Ubuntu——稳定,美观,适合初学者之称;次之,Centos——免费、稳定的服务器linux版本之称。
用那种方式安装linux好?推荐虚拟机安装。不太建议双系统,云端这种。因为,对于初学者在系统中,需要反复折腾,测试,搞垮系统是常事。
选择开源的VMbox还是商业版VMware?两者都可以,但各有缺点。VMbox更新比较快,经常更新后,可能会出现报错,系统无法打开的现象,较低版本的反而比较稳定,如果用好了,不建议经常更新。还有一点是,VMbox在鼠标控制上,没有VMware流畅。VMware十分稳定,流程好用。最新版一般要收费。可以选择比最新版版本稍低的,上网搜注册码,免费使用。还是那样,用好了,不要经常更新。某些生信软件会提供VMbox的镜像,如qiime。
VMbox的镜像能不能转到VMware上使用?,答案是可以的,使用VMbox的镜像导出功能,然后使用VMware进行导入,保持两者格式相同。
首先的问题的是,我们需要什么样的计算机。
关于硬件:
需要至少4G内存,最好可以达到16G以上内存;
至少500G硬盘空间。通常一个RNA-seq的数据量为20G左右,如果再加上分析之后的结果,可能达到50G,所以即使你有500G的空间,也分析不了几组数据。所以硬盘空间越多越好,比如说2TB或者使用高速网络存贮界质。
CPU,至少2核。因为你在运行程序时,通常100%占到CPU,如果没有2核,计算机多半会假死在那里。如果有8核,或者以上更好。
GPU,很多程序开始使用GPU运算,如果能有好的GPU显卡,也是推荐的,但不是必须的。
为了达到以上的条件,入门极的比如说Mac Pro。进阶级的就是独立server,高级的是supercomputer clusters,支持qsub之类的。或者可以购买云计算服务。
对于操作系统,在工作站方面,推荐Mac OS。它运行稳定,与LINUX同源。需要下载安装Xcode和wget就可以了。当然你还可以很方便的安装office办公软件,以及photoshop,AI等工具。最后安装好R/Bioconductor,就可以开始工作了。如果买了兼容机,可以安装上Linux/UNIX系统。它在安装上R/Bioconductor之后基本上就可以了。它的缺点是办公软件,绘图软件的安装。最差的就是Windows了。需要安装比如GCC编译器,make工具,mingw64, perl, zip/unzip, tar, wget, ghostscript等等。
有了软件及硬件,接下来的工作就是了解一些常识以武装你的大脑,这是整个运行环境中最重要的一环。首先,你需要学习了掌握UNIX常用命令,并且不反感字符界面。其次学会安装,设置及构建网络服务,比如apache的websever,以及mysql的数据库服务。第三安装及设置一个Galaxy。当然,第二步及第三步可能会有难度,可以先使用Galaxy本身的服务,但是它有很多限制,所以最好还是自己安装一个比较好。第四步,学习一门计算机语言,比如c, python, ruby, java等,还有一门脚本式语言工具,比如perl。第五步,学习使用R/Bioconductor。第六步,统计学。
至此,你的NGS分析环境就设置完成了。如果快的话,你可以两三个月就设置完成,达到起步的阶段,之后就是漫长的学习过程。慢的话,四年本科也不一定学到多少。
生物信息资源简介
生物信息(bioinformatics)中的“信息(-informatics)”指的是从海量的数据中进行挖掘,从而得到知识的过程,如下图所示。在这个过程中,会涉及到数据的管理,数据的运算,数据挖掘和建模仿真。其中,数据管理部分主要是数据库(database),数据的运算部分主要是指各种生物信息的软件(software tools)。这两部分是生物信息研究非常重要的资源,也是生信入门需要了解的基础知识。下面简要介绍一下这些资源。(本文根据北京大学生物信息学公开课程视频整理,来自视频截图)
根据不同的特点,可以把这些资源分成不同的类别。比如根据数据性质可以将database分为原始数据(Original data)数据库和二级数据(Secondary data)数据库。再比如根据软件是独立的工具还是网络服务器,可以将software tools分为standalone programs和web servers。
根据发布者的类别可以分为centralized resources和individual resources。比较大的centralized resources主要有NCBI(National Center for Biotechnology Information), EBI(European Bioinformatics Institute)和UCSC(University of California Santa Cruz)Genome Browser。下面将分别介绍这三个最大的数据库以及其他的生物信息学数据资源。
1.NCBI简介
NCBI-Genome Database:
存储了目前绝大多数的被测序出来的基因组,目前有1000+基因组被测序出来。
NCBI-Nucleotide/protein (RefSeq):
将不同的版本作了整合之后的参考序列。其中NM_表示核酸序列,NP_表示蛋白序列。其中核酸给出了ID号,名称,物种,特征,编码区,序列等信息。蛋白还给出了功能区间信息。
NCBI-Gene:
以基因为单位,整合了pathway、variations、phenotype等信息。
对于Human genes而言,GeneCards比NCBI有更好的对人类基因、蛋白的注释(表达、相互作用、同源蛋白、功能、遗传变异等)。
NCBI-SRA
新一代测序技术的短序列database,每5个月数据就会翻倍。
NCBI-Taxonomy
把所有至少有一个基因被测序过的物种做的物种分类树,在所有被描述过的物种中有10%被测序过。
NCBI-PubMed
用于查阅文献。
NCBI-MeSH
(Medical Subject Heading)controlled vocabulary used for indexing articles for PubMed 结构化的词库。
NCBI-My NCBI
对于感兴趣的关键词,在NBCI设定之后,每周会推送相关文献,对于项目中跟踪文献非常有用。
NCBI-BLAST
NCBI最著名的工具,关于BLAST的两篇文章已经被引用了四万两千多次。不同版本的BLAST包括:
Online:NCBI-BLAST
Standalone:BLAST+
Embedded in webpage:wwwblast
2 EBI简介
EBI中的一些资源如表中所示:
EBI-Ensembl:
介于NCBI和UCSC之间的资源,整合很多物种的不同的资源。Ensembl中数量的类型包括:
EBI-UniProtKB
The Universal Protein Resource (UniProt) is a comprehensive resource for protein sequence and annotation data
(The UniProt Knowledgebase (UniProtKB) is the central hub for the collection of functional information on proteins, with accurate, consistent and rich annotation )
UniProtKB -Swiss-Prot(已经过人工校对)
UniProtKB -TrEMBL(无人工校对)
EBI-IntAct
分子之间相互作用
EBI-Clustal Omega
多序列比对
EBI-InterProScan
输入一个序列,看是否包含目前已经知道功能的蛋白的区域
3 UCSC简介
以基因组为坐标。包含很多的track,包括:SNP,mRNA,剪切的EST,没剪切的EST,高通量的,通过Chi
0条评论