13 de junho de 2009

EST analysis: o começo! (*)

Bom, este post não tem o objetivo de ser um passo-a-passo de como usar os softwares para analisar ESTs, até por que eu ainda estou aprendendo e seria um livro, não um post. A idéia é descrever teoricamente a principais etapas, que podem ser feitas por diferentes softwares. É claro, este não é um processo rígido, depende de uma série de fatores como de com que espécie se trabalha e principalmente de quais são os objetivos do trabalho.

1) Trimming

O primeiro passo é fazer uma "limpeza" (trimming) das seqüências. O sequenciamento frequentemente gera alguns trechos de má qualidade, em geral, no ínicio e no final do fragmento, ou seja, onde algumas bases não puderam ser determinadas ou não o foram com muita precisão. Estes trechos devem ser removidos para não interferir nas etapas seguintes. Além disso, frequentemente, flanqueando a sequência do inserto, ou seja, do cDNA que é o que de fato interessa, há sequências de adaptadores e do vetor utilizados. Estes trechos também devem ser removidos para que no final desta etapa haja apenas a sequência do inserto com um nível de qualidade aceitável.

De fato, a presença de sequências contaminantes (vetores e adaptadores) nas sequências depositadas nos bancos de dados tem se tornado um problema crescente, gerando uma série de problemas muito bem discutidos aqui. Diante disso, a NCBI criou um software online chamado VecScreen que detecta contaminação de sequencias exógenas submetendo a sequência de inetresse a um BLAST contra um banco de dados de contaminantes (UniVec)

No entanto, apenas uma sequência pode ser analisada por vez e o programa apenas indica onde começa e termina as sequencias contaminantes. Ou seja, não serve para identificar e remover estes contaminantes de um grande número de sequências. Para isso, existem alguns softwares disponíveis: SeqClean (Free, só roda em Linux), LUCY2 (Free, roda em windows), DNA Baser (pago, 60 dias grátis para testes), entre outros. Estes mesmos softwares também pode ser utilizados para remover os trechos de baixa qualidade.

Update 19/09/2009. Antes se seguir para a próxima etapa, é importante também "mascarar"(masking) regiões de baixa complexidade e de repetições que poderiam interferir no agrupamento, assim como nas etapas seguintes. O "masking" consiste em substituir estas regiões por N (base não determinada) e assim elas não serão consideradas no clustering, assembly, BLAST, etc. Um dos meios de se fazer isso é pelo site RepeatMasker.

2) Clustering e contigs assembly

"Clustering" consiste em dentro do grupo de sequências, agrupar aquelas que se sobrepõe e que portanto são derivadas de um mesmo fragmento maior. Em uma segunda etapa, com base nestas sobreposições, estas sequências são agrupadas em contigs (sequencia contínua consenso que representa o fragmento maior de onde as diferentes sequencias são derivadas).Vários softwares fazem este trabalho: TGI Clustering tools (TGICL) e DNA baser, por exemplo.

3) Gene onthology: BLAST2GO

Agora que temos as sequencias "limpinhas" e organizadas, o que fazer com elas? Bom, isso depende do objetivo do trabalho! No meu caso, devo fazer um BLAST para anotar o máximo de sequencias possível. Para tanto, devo utilizar a plataforma Blast2GO que além de fazer este trabalho ainda tem várias outras ferramentas interessantes! Como eu tive uma aula com uma das criadoras deste software, Dra Ana Conesa, embora ainda não o domine, tenho um pouco a mais a dizer sobre e fica pro próximo post!


*Post sujeito a atualizações!


12 de junho de 2009

EST sequence analysis: e agora?

Um projeto de transcriptoma começa tradicionalmente com a geração de bibliotecas de cDNA, como já discuti extensivamente por aqui. Agora que superei esta etapa, começa o que para mim é um desafio um pouco maior: a análise das seqüências obtidas. Um desafio por que (1) eu nunca fiz isso antes (2) por que por mais que se leia livros, artigos e tutoriais dos softwares, isso só se aprende mesmo com a prática e (3) por que são centenas de sequencias e por tanto uma grande quantidade de dados são gerados. Este último fator é um "problema" crescente na biologia. Com técnicas cada vez mais modernas e rápidas, uma grande quantidade de dados tem sido gerada e para lidar com eles, ou seja, para extrair informação deles, somente os bioinformatas podem nos ajudar! E de fato, o tem feito. Tanto, que uma das minhas dificuldades tem sido: que programa usar? E a resposta esta geralmente associada a "free download", uma vez que os bioinformatas sabem valorizar bem seu trabalho. No entanto, não é fácil para os "não-bioinformatas" aprenderem a usar os vários softwares de que precisam de forma crítica, entendendo de fato o que estão fazendo, o que significa cada parâmetro dentro do processo em questão e não apenas reproduzindo uma série de comandos pré-estabelecidos por alguém.

Embora eu não tenha experiência com isso, sempre tive interesse e se aparecer qualquer curso , disciplina ou conversa fiada sobre o assunto, eu estou dentro! No entanto, estou conformada com a idéia de que vou ter que ser um pouco autodidata para aprender tudo isso, como muitas vezes temos que ser na vida acadêmica, o que não é realmente um problema. Assim, após um jejum de posts, resolvi escrever este, mais uma vez, para me ajudar a ordernar minhas idéias.

Bom, os dados que eu tenho em mãos são um grupo de sequências obtidas de clones selecionados aleatoriamente das bibliotecas de cDNA. Estas sequencias foram obtidas através de reações de sequenciamento a partir de amostras de DNA plasmidial usando um primer universal específico para o plasmidio no qual as bibliotecas foram construídas. E como resultado, tem-se um grupo de (na ordem de centenas) sequencias de nucleotídeos e os respectivos cromatogramas, mostrando o sinal para cada base.

Como saber o que estas sequencias significam? Que genes codificam? Em que processos estão envolvidos? Todas as sequências são de genes diferentes? Existem sequencias de regiões diferentes de um mesmo gene? Qual a redundância das sequências? Qual padrão de códons usado pelo organismo? É possível identificar microsatélites, SNPs ou outros polimorfismos?


Todas estas perguntas somente podem ser respondidas através de ferramentas computacionais! E, por isso, ao invés de ter medo desses programas, temos mais é que agradecer que eles existem! E com isso em mente, respirar fundo e aprender a usá-los, pois eles estão aí para nos ajudar.

No próximo post, vou descrever as principais etapas do processo de análise e identificação de EST (Expressed Sequence Tags) geradas a partir de bibliotecas de cDNA. Até lá!