注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

Talk To Myself

Wubin's Bioinformatics Life

 
 
 
 
 

日志

 
 

使用新版BLAST+进行生物序列同源性检索  

2010-04-13 21:38:51|  分类: BLAST |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |
屈武斌 <quwubin@gmail.com>

本文主要针对的是Windows平台,不过对于Linux平台也适用。

安装BLAST+

在前面的文章已经提过了如何安装BLAST+ http://biflife.blog.163.com/blog/static/1398155822010220393975/),这里再介绍一个绿色版的安装,从NCBI FTP下载ncbi-blast-2.2.23+-ia32-win32.tar.gz文件,然后解压到任意位置,例如D:\Bif下面,进入解压后的文件夹内的bin目录(在我电脑上是D:\Bif\ncbi-blast-2.2.23+\bin),可以看到已经编译好的BLAST+程序了,见图 1。启动Windows命令行界面,进入到当前bin目录,输入“blastn help”命令,如果屏幕显示blastn命令参数的帮助信息,则说明程序完好,可以运行,见图 2

Fw:使用新版BLAST+进行生物序列同源性检索 - Wubin - Bif Life

 1 解压后BLAST+文件夹内bin目录下面包含有可执行的各种程序

Fw:使用新版BLAST+进行生物序列同源性检索 - Wubin - Bif Life

 2 运行blastn help命令

BLAST+程序结构

关于BLAST+的主要变化已经在这篇文章中介绍过了,这里主要介绍一下BLAST+中的主要应用程序。最为重要的一个改变就是BLAST+中没有blastall程序了,取而代之的是blastn, blastx, blastp等之前出现在blastall 参数后面的属性值。图 3标明了新老版本程序的进化关系。

另外需要注意的是,blastn以及blastp新增加了-task参数,可用的值参见图 4。这个参数如同其名称所示,是执行相应任务的,例如,对于短序列,例如探针、引物,则应该选择-task blastn-short。通常情况下,选择-task blastn。因为blastn的参数较多,对于不同的任务(引物序列vs基因组片段)需要选择不同的参数,而普通用户常常不太熟悉这些参数,导致相似性搜索失败。根据不同的任务类型,将其封装起来,形成-task参数,确实是一个大的进步,着实为用户着想。感谢NCBI

Fw:使用新版BLAST+进行生物序列同源性检索 - Wubin - Bif Life

 3 BLAST新老版本程序对应图

Fw:使用新版BLAST+进行生物序列同源性检索 - Wubin - Bif Life

 4 BLAST+中的-task参数可用属性值列表

下载数据库

本地化搜索没有本地数据库是不行的,这篇文章介绍了如何使用update_blastdb.pl下载数据库,但如果电脑使用代理上网的话,就会出现错误导致无法下载。建议还是直接到NCBI FTPftp://ftp.ncbi.nih.gov/)上下载数据库,使用lftp (Linux)或者迅雷(没试过)还可以多线程下载,用update_blastdb.pl下载比较慢。

作为测试,本文下载了人类的mRNA数据库,下载地址是:ftp://ftp.ncbi.nih.gov/refseq/H_sapiens/mRNA_Prot/human.rna.fna.gz 。解压后存放在 D:\Bif\test目录下。

格式化数据库

Blastn要求格式化好的数据库,从NCBI ftp站点下载下来的fasta格式的数据库不能直接使用,需要使用makeblastdb程序来格式化,命令如下(图 5):

D:\Bif\test>”D:\Bif\ncbi-blast-2.2.23+\bin\makeblastdb.exe” -in human.rna.fna -parse_seqids -hash_index -dbtype nucl

-in参数后面接将要格式化的数据库,-parse_seqids, -hash_index两个参数一般都带上,主要是为blastdbcmd取子序列时使用,-dbtype nucl告诉程序这是核酸数据库。

Fw:使用新版BLAST+进行生物序列同源性检索 - Wubin - Bif Life

 5 格式化数据库

准备自己的查询序列

BLAST+系列程序均要求查询序列以fasta格式存在,fasta格式已经程序事实上的序列标准被广泛采用,几乎所有的序列处理程序都要求fasta格式。所谓FASTA格式是指DNA序列第一行开始于一个标识符:">",紧接着(没有空格)是对该序列的唯一描述(即ID),然后一个空格,接着是对该序列的描述(也可以没有),从第二行开始就是一行行的序列,中间的空格,换行没有影响。为了方便阅读,每一行序列最好不要超过80个字母。详细的说明请看着这里http://biocompute.bmi.ac.cn/MPprimer/Fasta_help.html 

本文准备了fasta格式的人源NGB mRNA序列,见图 6

Fw:使用新版BLAST+进行生物序列同源性检索 - Wubin - Bif Life

 6 Fasta格式的人源NGB mRNA序列

运行blastn (BLAST+)

当一切都准备好之后,运行blastn就非常简单了,命令如下:

D:\Bif\test>”D:\Bif\ncbi-blast-2.2.23+\bin\blastn.exe” -task blastn -query NGB.rna -db human.rna.fna out NGB_blast.txt

-task blastn:任务类型,前面已有描述;

-query NGB.rna:查询序列,必须是fasta格式;

-db human.rna.fna:格式化好的查询数据库;

-out NGB_blast.txt:结果输出文件,见图 8

其他参数请使用blastn help查阅。

另外新版blastn还有一个可以定制输出结果的参数-outfmt,有了这个参数,BioPerl Biopython中的blast解析器就可以不必使用了。这确实又是BLAST+新版另外一个最大的提高,非常非常方便。本人的一些工作就依赖于BLAST结果的解析,有了这个参数,就不需要解析BLAST结果了,确实很好很强大。具体如何使用,各位可以摸索一下,非常简单。

Fw:使用新版BLAST+进行生物序列同源性检索 - Wubin - Bif Life

 7 运行blastn程序

Fw:使用新版BLAST+进行生物序列同源性检索 - Wubin - Bif Life

 8 blastn结果文件示例

其他

完整的BLAST+说明文档请参阅解压后的BLAST+目录/doc文件夹下的NCBI-BLAST-user_manual.pdf文件。



 
  评论这张
 
阅读(4621)| 评论(11)
推荐 转载

历史上的今天

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017