蛋白质测序方法
Sanger试剂用于鉴定蛋白质和多肽的N-末端氨基酸残基。
Edman降解才是氨基酸序列的测定技术。但是它不能测超过40个残基的序列。
所以测大的蛋白质的序列时,需要用化学试剂将蛋白质降解为一些肽段。即需要水解。水解时一般用三氟乙酸进行酸水解。
酸水解就是加热酸进行水解,而碱水解就是加入碱进行水解。蛋白质一般用酸水解。而酯类则两种水解方式都常用。
知道了吗?^_^
利用互联网预测cDNA蛋白质产物的结构和功能3
王涤平综述 童坦君审校
(北京大学医学部生物化学与分子生物学系 北京100083)
摘要 人类基因组计划预计近两三年内即可完成,我们将会得到许多序列已知但未知功能的cDNA。本文简单介绍利用互联网上信息资源分析cDNA序列和预测它所编码的蛋白质的结构和功能的方法和常用工具。
关键词 互联网,cDNA,蛋白质,结构和功能预测
The protein product of cDNA:Predicting its structure and function using internet
W ANG Di2Ping,T ONG T an2Jun
(The H ealth Science Center,Peking Univer sity,Beijing100083,PRChina)
Abstract The Human G ene Project will be completed in tw o or three years,biologist will obtain many cDNA sequences which functions are unknownThis article introduces s ome methods and tools in internet,by which we can analysis cDNA sequences and predict the structure and function of the proteins that are coded by them
K ey w ords internet,cDNA,protein,structural and functional prediction
人类基因组计划(Human G ene Project,HG P)进展非常迅速。1999年11月人类第22条染色体的测序全部完成,这是第一条完整测序的染色体[1]。2000年5月人类第21条染色体的测序也宣布完成[2]。到1999年底约有1P3的基因组序列已经测出,目前保守估计不迟于2003年底将全部完成,人类即将步入后基因组时代。(编者注:本文发排时HG P已全部完成)。然而HG P只是一个以测序为主的结构基因组学的研究,该计划完成之后的任务更加艰巨,要阐明整个基因组基因的功能可能是21世纪整个生物学界的中心任务。为了阐述新基因的功能,科学家已经提出了功能基因组学(functional genomics)、转录子组学(transcriptomics)、蛋白质组学(proteomics)的概念。但是目前由于各方面技术的限制其速度远远跟不上潮水般涌现的新基因的步伐。近年来cDNA 克隆和测序工作进展也很快,一方面短序列片段(EST)在数据库中大量涌现,另一方面越来越多的全长cDNA得以克隆和测序,许多新型cDNA文库也被大量构建,极大地扩展了cDNA文库的应用。这样,分子生物学工作者经常会遇到一个问题:在获取一条cDNA部分或全长序列后如何判断它是属于已知或未知的某个基因、如何知道它所编码的蛋白质的结构和功能。随着计算机网络技术和生物信息学的飞速发展,利用互联网上生物信息资源对cDNA序列及其蛋白质产物的结构和功能进行分析和预测已经成为一个快速、简单可行的方法。1 常用序列数据库
G enBank由NC BI(美国国立卫生研究院生物技术中心)创建并管理,是NC BI众多数据库中最重要的一个,能提供超过55000种不同生物的所有已知的核酸及蛋白质序列和相关文献及生物学注释[3]。它与E M BL P E BI(欧洲分子生物学实验室P欧洲生物信息学研究所)的E M BL数据库及日本国立遗传学研究所的DDB J数据库是最主要的3家DNA和蛋白质序列数据库。它们分别收集各自所在区域的序列信息,每天交换各自数据库新建立的记录,每隔两三个月完整地更新一次数据库信息,这样就保证了它们几乎包括了所有已知的核酸及蛋白质序列。dbEST数据库是G enBank的一部分,它包含了cDNA片段或EST的序列数据和其它相关信息。为了管理重复的EST数据和便于信息的提取,NC BI创建了Unigene系统,它能自动地将G enBank中包括EST序列在内的DNA序列进行系统分析,形成无重复的同一基因起源的序列簇(gene2oriented clusters),每一个簇代表一个基因。NC BI现有人类、大鼠和小鼠三个Unigene库。至1999年末在人类的Unigene库中包含有超过150万个EST所形成的约83000个序列簇[4]。G S DB(G enome Sequence Database)是由NCG R(Na2 tional Center for G enome Res ources)创建管理的基因组数据库。从1999年秋开始G S DB不再接受个人实验室递交的数据,数据库的所有权转交给了G enBank。目前G S DB仍然能够提供
3国家自然科学基金重点项目(项目号39930170)与国家重点基础研究发展规划(项目号G2000057001)资助课题
・
7
4
1
・
生物技术通讯
LETTERS I N BI OTECH NO LOGY V ol12 N o2 May2001
© 1995-2005 Tsinghua Tongfang Optical Disc Co, Ltd All rights reserved
序列分析和查询服务。G DB (G enome Database )是约翰・霍普金斯大学医学院的人类基因组数据库,它包括人类基因组各方面的信息如基因、克隆、断裂位点(breakpoints )、细胞遗传学标志、脆弱位点、EST 、重复序列和重叠群,另外还有人类基因组图谱、基因组突变多型性以及等位基因组频率数据的信息。
PIR (Protein In formation Res ource )和SWISS 2PROT 因收录全
面、注释详尽、重复率低和与相关数据库的广泛连接等特点而成为最常用的蛋白质序列信息综合数据库。SWISS 2PROT 创建于1987年,现在由E M BL 和SI B (瑞士生物信息学研究所)联合管理,到1999年11月SWISS 2PROT 已有约81000条序列。在SWISS 2PROT 中每个序列条目下都有参考文献、分类数据和相关注释的信息,这些信息主要包括蛋白质的功能、翻译后修饰、结构域和位点、二级和四级结构、与其它蛋白质的同源性、相关疾病及序列变异等方面的信息。由于核酸序列爆炸性的增加而数据库的注释速度有限,E M BL 和
SI B 在1996年推出了SWISS 2PROT 的补充数据库T rE BM L ,T rE BM L 是由计算机将E M BL 数据库中除了编码SWISS 2PROT
中已有序列以外的所有编码序列(C DS )翻译并注释而形成的,所以其注释的准确性比SWISS 2PROT 低
[5]
。
现在互联网上生物信息数据库种类繁多,可谓五花八门,除上述的大的综合性数据库外还有许多专业方向特异的数据库如RNA 、酶、载体、转录因子、翻译信号及各种物种的数据库等等。由于生物信息学数据库的急剧增多,专门收集生物信息学数据库目录的数据库也应运而生。Dbcat (http :P P
w w win fobiogenfr P services P dbcat )有500个按不同领域(DNA 、RNA 、蛋白质、文献等)分类的生物学数据库以供检索。E BI P E M BL 新推出的SRS (Sequence Retrieval System )51版中也增
添了DAT ABANK S 数据库,其中含有约1300个生物学数据库,用户进入SRS 的主页(http :P P w w webiacuk P )选择“SRS
W orld Wide ”后即可检索DAT ABANK S
[6]
。
2 全长cDNA 的获取
在进行序列分析和结构功能预测时最好能利用全长
cDNA 序列。若只有部分cDNA 序列或EST 片段,传统方法
是通过RACE 法或重新筛选新的cDNA 文库。简单快捷的方法是通过硅片克隆(sililo cloning )的方法拼接出cDNA 全长。基本过程如下:从EST 开始利用同源性比较工具(BLAST 、
FAST A 等)在公共EST 数据库(如dbEST )中找出高度同源的EST ,通过EST 拼接,形成重叠群(contig ),然后将重叠群再次
进行BLAST 拼接直到没有新的重叠群发现即得到了完整的编码框。进入Unigene 数据库中只要输入EST 登录号就可以得到属于同一转录起始位点的其它序列。欲直接得到EST 簇及其重叠群可以登录T igem 网站(http :P P gcytigemit P cgi 2
bin P uniestasspl )的EST assembly machine ,利用EST 拼接程序(EST assembly program )即可。同样的程序还有ESTblast ,它更
为复杂和完善,该程序在HG MP 2RC (human genome mapping
project )服务器(http :P P w w whgmpmrcacuk P ESTblast P )上可以
提供。将含重叠群的EST 与数据库反复比较延伸就可能获得cDNA 全长。利用它就可以进一步进行序列分析和结构与功能预测。在得到cDNA 全长后就可以将其序列或数据库位名输入相应数据库或服务器进行检索、查询相关注释和预测其编码的蛋白质的结构和功能。在ESTblast 输出结果的界面上有与这些数据库和程序的超级链接,使用极为方便[7]。
3 网上序列分析和基因定位的工具
当得到一个完整的cDNA 序列后首先要进行对序列数据库的类似性检索,以鉴定是否为新基因及对基因的结构、定位及其编码的蛋白质的结构、功能进行研究。NC BI 的
BLAST 是目前广泛应用的同源性比较工具。BLAST 有5个
应用程序:Blastp 、Blastn 、Blastx 、tBlastn 、tBlastx ,应依照所需检索的和所检索的数据库是核酸或氨基酸序列及阅读框架的不同而使用,具体见表1。值得一提的是尽管许多服务器能把核酸与氨基酸序列互相转换,但是若已知氨基酸序列最好用氨基酸序列进行分析。因为DNA 序列存在阅读框架和非编码区等问题,而且氨基酸种类多,特异性识别容易。
BLAST 能对十几种指定的数据库(包括nr 、dbSTS 、dbEST 、PDB
等)进行比较。BLAST 的新版本有G apped BLAST 、PSI 2BLAST
(P osition S pecific Iterated BLAST )、BLAST 2sequences 、PHI 2BLAST (Pattern Hit Initiated BLAST )。与传统的BLAST 比较,G apped BLAST 允许在序列对排(alignment )中有部分插入或缺失,有
利于得到较大的同源片段,同时运行速度也提高了。PSI 2
BLAST 首先进行一次传统的BLAST 搜索产生序列对排从而
构建一个位置特异的轮廊(profile ),然后用此轮廓的矩阵
(matrix )代替起初的序列进行同源性搜索。PSI 2BLAST 大大
提高同源性搜索的敏感性,有助于发现蛋白质家族中的变异成员和确定新基因的功能[8]。BLAST 2sequences 通过产生一个代表序列对排的点状图(dot 2plot )来显示两个DNA 或肽序列之间的相似性。PHI 2BLAST 要求将所需查询的氨基酸序列和相应的模体一起输入,能够获得序列和结构都相对应的序列对排。另外,FAST A 和SSE ARCH 也是相似性比较程序,与BLAST 相比运行速度慢一些但效果更好。
Locus Link (http :P P w w wncbinlmnihg ov P Locus Link P )和RefSeq (http :P P w w wncbinlmnihg ov P Locus Link P reseqhtml )是NC BI 新提供的方便快速的获取基因及其产物的详细信息及
基因定位的服务器。用户可以通过多种途径(基因的名称、缩写及序列等)搜索数据库就可以得到相应基因的LocusI D
(数据库位名)、简述及染色体定位。点击LocusI D 即能得到
关于该基因的更为详尽的说明,更方便的是每个基因都与P
(PubMed )、O (OMI M )、R (Refseq )、G (G enBank )、U (UniG ene )、V (dbS NP )数据库相连接,以利进一步查询和分析。其中Refseq
能提供该基因的名称、G enBank 中的I D 、详细的说明和所编码蛋白质的信息,并与相应的蛋白质数据库相链接[10]。
・
841・生物技术通讯
LETTERS I N BI OTECH NO LOGYV ol12 N o2 May 2001
表1 BLAST的5种程序[9]
程序查询序列数据库比较 用 途
blastn blastp blastx tblastn tblastx DNA
蛋白质
DNA
蛋白质
DNA
DNA
蛋白质
蛋白质
DNA
DNA
DNA水平
蛋白质水平
蛋白质水平
蛋白质水平
蛋白质水平
寻找同源DNA序列和剪接模式
发现同源蛋白质
分析新DNA以寻找同源基因和蛋白质
在未注释的DNA中寻找基因
发现基因结构
4 蛋白质结构分析和同源性模建
PDB(Protein Data Bank)是由BN L(Brookhaven National Lab2 oratories)建立的蛋白质结构数据库,1998年10月管理权移交给了RCS B(Research C ollaboratory for S tructure Bioin formatics)。现在PDB除收集蛋白质和多肽的三维结构外,还收集酶、病毒、碳水化合物和核酸的晶体结构数据。新的PDBsum内容更加广泛,是几乎所有核酸和蛋白质结构数据的总集[11]。虽然Marcotte和Enright分别提出通过综合进化相关、表达类型、代谢途径以及复合物结构之间的联系和结构域融合的方法来分析和预测蛋白质功能的新方法[12,13],网上常用蛋白质结构和功能分析方法的基础仍然是依据氨基酸序列的相似性,通过结构域和模体的比较进行分析。PROSITE、P fam、BLOCK S、PRI NTS是常用的结构域或模体数据库。PROSITE 收集的是有生物学意义的蛋白质模型和序列对排。P fam收录了一系列的多重序列对排和H M M(Hidden Markov M odel)模型。BLOCK S存储的是模体和profiles。PRI NTS是收集蛋白质家族指纹(fingerprint)的数据库,指纹是指一群模体的线性整合,运用它来比较、运算比单个模体更准确有效[14]。C ATH 也是一个蛋白质分类数据库,它把蛋白质按不同等级水平分成Class、Architecture、T opology、H om olog ous(C ATH)超家族。SC OP(S tructural Classification of Proteins database)按照家族、超家族、普通折叠和类分层次地组织蛋白质结构数据。SC OP BLAST2sequences现在可以通过以下途径检索:其一是通过浏览SC OP的树状分类结构;其二是利用氨基酸序列检索;其三是关键词检索;其四是通过PDB identifier,最后也可以通过PDB收录或出版的日期检索[15]。
从结构数据库中检索得到的只是原子坐标数据,必须用图像显示软件才能将三维结构呈现出来。RAS M O L是常用的显示蛋白质三维结构的软件之一,利用它可以显示各种不同的图像,包括棍棒、空间填充、α2碳原子骨架折叠和带型等等,各部分可以单独或组合显示,原子、亚基、残基可以着色,图像可以旋转,结果可以存盘。2000年8月最新推出的Pro2 tein Explorer(PE)是从RAS M O L的基础上发展而来,功能更加强大、使用起来更加方便、图像更加形象直观、具有更多的解释说明。两者均可以从RAS M O L主页免费下载后安装在用户的计算机上使用。其它如M AGE和NC BI的C D3n也是很好的三维结构显示软件,也可以从相应的站点下载。了解蛋白质的四级结构对于完整地理解蛋白质的结构和功能是十分必要的,蛋白质四级结构预测服务器PQS能提供PDB中所有蛋白质可能的四级结构的信息[16]。ExPASy服务器是瑞士日内瓦大学开发的专家蛋白分析系统。它可以进行几乎所有的蛋白质序列分析作业,包括理化特性分析、氨基酸组成和分子量分析、序列统计学分析、序列类似性检索、双重和多重序列对排、模式和位点分析、二级结构预测及跨膜区和蛋白质定向的预测。
S wiss2M odel是一个能自动进行蛋白质模型构建的服务器,它能把用户输入的氨基酸序列根据序列同源性模拟构建成蛋白质模型。由于运算系统仍然有许多难以克服的缺陷,并不是所有模建都能得到完美的结果,特别是在靶蛋白质与模板序列之间的相同率较低的区域。事实上,当相同率低于40%时预测的准确率很低。因此,S wiss2M odel提供了两种模式供用户选择。First Approach m ode界面简单,只有当靶蛋白质与模板序列之间的相同率大于25%时自动模建过程才能进行,否则结果将完全不可靠。这时就应选择Optimise m ode,它能修正和优化第一种模式的结果。模建过程一般需要15~60分钟,模建结果(包括最后模型的原子坐标及3D2 profiles)将通过电子邮件发送给用户。需要提醒的是任何一种模建方法的结果都是非实验性的,与该蛋白质的真实结构可能会有出入[17]。
网上各种数据库数据来源不同、丰度不一、数据分类处理方法各异,服务器计算方法也不尽相同,它们各具优缺点,同一序列通过不同数据库或服务器往往会得到不尽相同的结果[18]。因此最好先根据所需信息的类型选择合适的数据库和程序,另外尽量多用几个不同数据库和程序以获取最准确的信息。表2是一些常用的生物学数据库和服务器的网址。虽然生物信息学的方法能预测基因及其蛋白质产物的结构、功能和定位,但是所有预测在未被实验证实以前都是不可靠的。因此必须把二者有机地结合起来,在生物信息学方法提供的信息的基础上指导实验设计,实验所得结果才是最准确的。
・
9
4
1
・
王涤平等:利用互联网预测cDNA蛋白质产物的结构和功能
表2 常用的生物学数据库和服务器的网址
数据库或服务器
网 址
G enBank http :P P w w wncbinlmnihg ov P W eb P G enbank P E M BL http :P P w w webiacuk P DDB J http :P P w w wnigacjp P
G S DB http :P P w w wncgrorg P tdb P tdbhtml Unigene http :P P w w wncbinlmnihg ov P Unigene P G DB http :P P w w wgdborg
PIR
http :P P w w wgdbnbrfgeorgetownedu P pri P SWISS 2PROT P T rE M BL http :P P w w wexpasych P sprot PDB http :P P w w wrcsborg P pdb P
PDBsum http :P P w w wbiochemuclacuk P bsml P pdbsum P PROSITE http :P P w w wexpasych P prosite P P fam http :P P w w wsangeracuk P s oftware P P fam P BLOCK S http :P P w w wblocksfhcrcorg
PRINTS http :P P w w wbiochemuclacuk P bsm P dbbrower P PRINTS P printscontentshtml SCOP http :P P w w wmrc 2lmbcamacuk P scop P CATH http :P P w w wbiochemuclacuk P bsm P cath P BLAST http :P P w w wncbinlmnihg ov P BLAST P FAST A http :P P w w w2ebiacuk P fasta3P SSE ARCH http :P P sssstan fordedu P sss P
RAMS O L http :P P w w wumassedu P microbio P rasm ol P
SWISS 2M ODE L http :w w wexpasych P swissm od P SWISS 2M ODE Lhtml ExPaSy http :P P expasyhcugech P PQS
http :P P w w wpqsebiacuk P
参考文献
1 Dunham I ,Shimizu N ,P oe BA et al The DNA sequence of human
chrom os ome 22Nature ,1999,402:489
2 H ottori M ,Fujiyama A ,T aylor T D et al The DNA sequence of human
chrom os ome 21Nature ,2000,405:311
3 Bens on DA ,K arsch 2M izrachi L ,Ostell J et al Nucleic Acids Res ,
2000,28:15
4 Wheeler D L ,Chsppey C ,Lash AE et al Nucleic Acids Res ,2000,28:
10
5 Bairoch A ,Apweiler RThe SWISS 2PROT protein sequence database
and its supplement T rE M BL in 2000Nucleic Acids Res ,2000,28:456 K reil DP ,E tzx old TDAT ABANK S 2a catalogue database of m olecular
biology databasesT rends Biochem S ic ,1999,24:155
7 Banti S ,G u ffaniti A ,Borsani GH ow to get the best of dbESTT rends
G enetic ,14:81
8 Altschul SF ,K oonin E VIterated profile searches with PSI 2BLAST 2a
tool for discovery in protein databasesT rends Biochem Sci ,1998,23:358
9 Brenner SEPractical database searchingT rends G uide to Bioin format 2
ics (T rends suppl ),1998,910 Puitt K D ,K atz K S ,S icotte H et al Introducing Refseq and Locuslink :
curated human genome res ources at the NC BIT rends G enetic ,2000,16:44
11 Puitt K D ,K atz K S ,S icotte H et al Introducing Refseq and Locuslink :
curated human genome res ources at the NC BIT rends G enetic ,2000,16:44
12 M arcotte E M ,Pellegrinim M ,Thom ps on M J et al A combines alg o 2
rithm for genome 2wide prediction of protein functionNature ,1999,402:83
13 Enright A J ,Illopoulos I ,K yrpides NC et al Protein interaction maps
for com plete genomes based on gene fusion eventsNature ,1999,402:86
14 Attw ood TK,Croning M DR ,Flower DR et al PRINTS 2S :the database
formerly known as PRINTSNucleic Acids Res ,2000,28:22515 C onte LC ,Ailey B ,Hubbard T JP et al SCOP :a structural classifica 2
tion of proteins databaseNucleic Acids Res ,2000,28:257
16 Henrick K Thornton JMPQS :a protein quaternary structure file server
T rends Biochem ,Sci ,1998,23:358
17 G uex N ,Diemand A ,Peitsch MCProtein m odeling for allT rends
Biochem Sci ,1999,24:364
18 Bouck J ,W ei Y u ,G ibbs R et al C om paris on of gene indexing databas 2
esT rends G enetic ,1999,15:159
(2000209225收稿)
・
051・生物技术通讯LETTERS I N BI OTECH NO LOGYV ol12 N o2 May 2001
¥
59
百度文库VIP限时优惠现在开通,立享6亿+VIP内容
立即获取
利用互联网预测cDNA蛋白质产物的结构和功能
利用互联网预测cDNA蛋白质产物的结构和功能3
王涤平综述 童坦君审校
(北京大学医学部生物化学与分子生物学系 北京100083)
摘要 人类基因组计划预计近两三年内即可完成,我们将会得到许多序列已知但未知功能的cDNA。本文简单介绍利用互联网上信息资源分析cDNA序列和预测它所编码的蛋白质的结构和功能的方法和常用工具。
关键词 互联网,cDNA,蛋白质,结构和功能预测
第 1 页
The protein product of cDNA:Predicting its structure and function using internet
W ANG Di2Ping,T ONG T an2Jun
(The H ealth Science Center,Peking Univer sity,Beijing100083,PRChina)
Abstract The Human G ene Project will be completed in tw o or three years,biologist will obtain many cDNA sequences which functions are unknownThis article introduces s ome methods and tools in internet,by which can analysis cDNA sequences and predict the structure and function of the proteins that are coded by them
展开全文
蛋白质谱一般来讲是用来对某个蛋白质进行鉴定的方法
而蛋白质测序实际上就是检测蛋白质的多肽链数目,不一定要用到质谱技术
简单说,蛋白质测序的方法有很多,一般是在构建完成后,通过测序来对比之前的预测的序列是否正确。
而质谱检测一般是用在蛋白质表达纯化完成后,用来鉴定是否是最初设计的那个蛋白。
目前对蛋白N端测序主要分类两大类,其一为非质谱技术,例如经典的Edman降解法、利用反转录RT-PCR得到对应蛋白的cDNA,再来反推得到蛋白序列;其二为质谱技术。各自都有其使用的长处和制约之处,目前,市面上采用的,依然是基于经典的Edman降解法原理,利用美国ABI公司Procise491蛋白序列测序系统进行蛋白N-端测序。
基本过程是将蛋白质被打成单电荷片段,通过电磁偏转得到一系列长度不等的片段,由于可测得质量,将片段排序,就可知道某个位点的氨基酸的质量,进而得知氨基酸的种类,重复此过程,可得知所有氨基酸的种类,进而得知蛋白质的序列,一般都是以及序列的信息,毕竟蛋白质测序之前要经过预处理。
几乎所有的蛋白质合成都起始于N-端,蛋白质N-端的序列组成对于蛋白质整体的生物学功能有着巨大的影响力。例如N-端序列影响蛋白质的半衰期,同时关联着蛋白亚细胞器定位等,这些与蛋白的功能和稳定性息息相关,对蛋白进行N-端测序分析,有利于帮助分析蛋白质的高级结构,揭示蛋白质的生物学功能。
N端序列没有太大的特异性,只测几个用来进行对比可能性不大。
氨基酸测序N端测序C端测序原理用氨肽酶(N端测序)或羧肽酶(C端测序)肽链端依切并段间内检测切氨基酸种类(间则现种氨基酸)并且重复该程
必需氨基酸9种:甲硫氨酸、缬氨酸、赖氨酸、异亮氨酸、苯丙氨酸、亮氨酸、色氨酸、苏氨酸(用甲借本两色书帮助记忆虽缬氨酸缬确读音鞋杰)
0条评论