12 de junho de 2009

EST sequence analysis: e agora?

Um projeto de transcriptoma começa tradicionalmente com a geração de bibliotecas de cDNA, como já discuti extensivamente por aqui. Agora que superei esta etapa, começa o que para mim é um desafio um pouco maior: a análise das seqüências obtidas. Um desafio por que (1) eu nunca fiz isso antes (2) por que por mais que se leia livros, artigos e tutoriais dos softwares, isso só se aprende mesmo com a prática e (3) por que são centenas de sequencias e por tanto uma grande quantidade de dados são gerados. Este último fator é um "problema" crescente na biologia. Com técnicas cada vez mais modernas e rápidas, uma grande quantidade de dados tem sido gerada e para lidar com eles, ou seja, para extrair informação deles, somente os bioinformatas podem nos ajudar! E de fato, o tem feito. Tanto, que uma das minhas dificuldades tem sido: que programa usar? E a resposta esta geralmente associada a "free download", uma vez que os bioinformatas sabem valorizar bem seu trabalho. No entanto, não é fácil para os "não-bioinformatas" aprenderem a usar os vários softwares de que precisam de forma crítica, entendendo de fato o que estão fazendo, o que significa cada parâmetro dentro do processo em questão e não apenas reproduzindo uma série de comandos pré-estabelecidos por alguém.

Embora eu não tenha experiência com isso, sempre tive interesse e se aparecer qualquer curso , disciplina ou conversa fiada sobre o assunto, eu estou dentro! No entanto, estou conformada com a idéia de que vou ter que ser um pouco autodidata para aprender tudo isso, como muitas vezes temos que ser na vida acadêmica, o que não é realmente um problema. Assim, após um jejum de posts, resolvi escrever este, mais uma vez, para me ajudar a ordernar minhas idéias.

Bom, os dados que eu tenho em mãos são um grupo de sequências obtidas de clones selecionados aleatoriamente das bibliotecas de cDNA. Estas sequencias foram obtidas através de reações de sequenciamento a partir de amostras de DNA plasmidial usando um primer universal específico para o plasmidio no qual as bibliotecas foram construídas. E como resultado, tem-se um grupo de (na ordem de centenas) sequencias de nucleotídeos e os respectivos cromatogramas, mostrando o sinal para cada base.

Como saber o que estas sequencias significam? Que genes codificam? Em que processos estão envolvidos? Todas as sequências são de genes diferentes? Existem sequencias de regiões diferentes de um mesmo gene? Qual a redundância das sequências? Qual padrão de códons usado pelo organismo? É possível identificar microsatélites, SNPs ou outros polimorfismos?


Todas estas perguntas somente podem ser respondidas através de ferramentas computacionais! E, por isso, ao invés de ter medo desses programas, temos mais é que agradecer que eles existem! E com isso em mente, respirar fundo e aprender a usá-los, pois eles estão aí para nos ajudar.

No próximo post, vou descrever as principais etapas do processo de análise e identificação de EST (Expressed Sequence Tags) geradas a partir de bibliotecas de cDNA. Até lá!

2 comentários:

Vania brasiliensis disse...

ufff... eu não tenho dúvida que vc vai conseguir mexer nessas coisas e sou sua fã!
e eu aqui reclamando do ArcGis.... :-S

ps: de fato, quem pelo menos não tenta ser autodidata se ferra... Tb já me conformei a ser. Anteontem mesmo, quebrei a cabeça por horas pra imaginar como analisar alguns dados com um programa e no fim das contas, consegui descobrir como, sozinha. :-))

Juliana Americo disse...

Vania, eu que sou sua fã! Eu não ia conseguir fazer metade do que você está fazendo, dirigir 4x4 com tração nas 4 rodas para cima e pra baixo e ainda ter que lidar com esses seus softwares para análise de dados que também não devem ser brincadeira!