13 de junho de 2009

EST analysis: o começo! (*)

Bom, este post não tem o objetivo de ser um passo-a-passo de como usar os softwares para analisar ESTs, até por que eu ainda estou aprendendo e seria um livro, não um post. A idéia é descrever teoricamente a principais etapas, que podem ser feitas por diferentes softwares. É claro, este não é um processo rígido, depende de uma série de fatores como de com que espécie se trabalha e principalmente de quais são os objetivos do trabalho.

1) Trimming

O primeiro passo é fazer uma "limpeza" (trimming) das seqüências. O sequenciamento frequentemente gera alguns trechos de má qualidade, em geral, no ínicio e no final do fragmento, ou seja, onde algumas bases não puderam ser determinadas ou não o foram com muita precisão. Estes trechos devem ser removidos para não interferir nas etapas seguintes. Além disso, frequentemente, flanqueando a sequência do inserto, ou seja, do cDNA que é o que de fato interessa, há sequências de adaptadores e do vetor utilizados. Estes trechos também devem ser removidos para que no final desta etapa haja apenas a sequência do inserto com um nível de qualidade aceitável.

De fato, a presença de sequências contaminantes (vetores e adaptadores) nas sequências depositadas nos bancos de dados tem se tornado um problema crescente, gerando uma série de problemas muito bem discutidos aqui. Diante disso, a NCBI criou um software online chamado VecScreen que detecta contaminação de sequencias exógenas submetendo a sequência de inetresse a um BLAST contra um banco de dados de contaminantes (UniVec)

No entanto, apenas uma sequência pode ser analisada por vez e o programa apenas indica onde começa e termina as sequencias contaminantes. Ou seja, não serve para identificar e remover estes contaminantes de um grande número de sequências. Para isso, existem alguns softwares disponíveis: SeqClean (Free, só roda em Linux), LUCY2 (Free, roda em windows), DNA Baser (pago, 60 dias grátis para testes), entre outros. Estes mesmos softwares também pode ser utilizados para remover os trechos de baixa qualidade.

Update 19/09/2009. Antes se seguir para a próxima etapa, é importante também "mascarar"(masking) regiões de baixa complexidade e de repetições que poderiam interferir no agrupamento, assim como nas etapas seguintes. O "masking" consiste em substituir estas regiões por N (base não determinada) e assim elas não serão consideradas no clustering, assembly, BLAST, etc. Um dos meios de se fazer isso é pelo site RepeatMasker.

2) Clustering e contigs assembly

"Clustering" consiste em dentro do grupo de sequências, agrupar aquelas que se sobrepõe e que portanto são derivadas de um mesmo fragmento maior. Em uma segunda etapa, com base nestas sobreposições, estas sequências são agrupadas em contigs (sequencia contínua consenso que representa o fragmento maior de onde as diferentes sequencias são derivadas).Vários softwares fazem este trabalho: TGI Clustering tools (TGICL) e DNA baser, por exemplo.

3) Gene onthology: BLAST2GO

Agora que temos as sequencias "limpinhas" e organizadas, o que fazer com elas? Bom, isso depende do objetivo do trabalho! No meu caso, devo fazer um BLAST para anotar o máximo de sequencias possível. Para tanto, devo utilizar a plataforma Blast2GO que além de fazer este trabalho ainda tem várias outras ferramentas interessantes! Como eu tive uma aula com uma das criadoras deste software, Dra Ana Conesa, embora ainda não o domine, tenho um pouco a mais a dizer sobre e fica pro próximo post!


*Post sujeito a atualizações!


3 comentários:

Eliane, a Lia disse...

no final do seu mestrado vamos reunir esses posts e fazer um livro de auto-ajuda para iniciantes em biomol!!!!

Clara disse...

Ótimas dicas....me explica uma coisa que não entendo o que é Assembly? Montagem das sequencias? Reads sao sequencias que formam um contig??

Juliana Americo disse...

Oi Clara

Entre um grupo de sequências podem existir algumas repetidas ou que se sobreponham em algum trecho.

Por exemplo, uma sequência tem a metade de um gene X e uma outra tem a metade final. Se estas duas sequências possuem algum trecho em comum (neste caso, a região central do gene), elas serão agrupadas (clustering) e, posteriormente, montadas ("assembly"), para formar uma sequência só, contínua, neste caso, do gene completo.

"Read" se refere a "leitura" das sequências (na verdade, cromatogramas) pelo sequenciador. Este termo pode ser usado para se referir a uma sequência também.

Abs,
Juliana