Tutorial – Introdução a anotação e comparação de genomas

Tiago Mendes – Doutorando em Bionformática

 

Hoje iremos trabalhar com dois programas livres desenvolvidos pelo Sanger Institute: Artemis e ACT. Artemis foi desenvolvido com a finalidade de permitir a visualização gráfica de um genoma, bem como uma ferramenta de anotação que permite visualização, edição e análise de sequências gênicas em suas seis janelas de leitura. ACT é um programa que permite comparação de genomas.

 

Ao longo do tutorial existem sete exercícios (digitados em vermelho) que deverão ser enviados individualmente para o email: mendesfarmacia@gmail.com até domingo (03/06/2012) as 23:59 .

 

Como os dois programas são escritos em Java, para instalação do Artemis e do ACT é necessária instalação prévia do Java (já realizada nas máquinas do laboratório) com instruções que podem ser obtidas em: http://java.com/en/download/manual.jsp

 

Obtenção dos arquivos:

1-   Faça Download dos arquivos_aula_artemis (https://www.dropbox.com/s/kphhuduauyfil0m/arquivos_aula_artemis.zip)

2-   Abra o terminal (Aplicativos à Acessórios à Terminal)

3-   Entre no diretório artemis (cd Documentos/artemis)

4-   Mova o arquivo para a pasta artemis [mv Downloads/arquivos_aula_artemis.zip .] – o ponto (“presente diretório”) após o nome do arquivo é muito importante!!!

5-   Descompacte o arquivo (unzip arquivos_aula_artemis.zip)

6-   Digite ‘ls -l’ e confira se estes arquivos estão presente no diretório artemis: organismo1.fasta, organismo2.embl, organismo3.embl, org1.vs.org2, org1.vs.org3.

 

Instalação Artemis e ACT em Linux (não vai ser feito na aula):

1-   Entre no site do Artemis e clique na aba Download

2-   Em FTP Download clique Artemis for Unix

3-   Salve o arquivo artemis.tar.gz no diretório Documentos

4-   Abra o terminal e entre no diretório Documentos (cd Documentos)

5-   Extraia o arquivo (tar -vzxf artemis_linux.tar.gz)

 

Instalação do Artemis e ACT em Windows (não vai ser feito na aula):

1-   Entre no site do Artemis e clique na aba Download

2-   Em FTP Download clique Artemis for Windows

3-   Salve o arquivo artemis.jar no Desktop

4-   Clique duas vezes no arquivo artemis.jar

5-   Clique em Browse e selecione o diretório Documentos

 

Anotação manual de genes codificadores de proteínas

1.  Para executar o programa Artemis digite: ./art  e aperte enter

2.  Clique em Browse e selecione o diretório artemis

3.  Clique em ‘Options’ e selecionne  ’1 – Standard’

4.  Clique em File à Open... à Abra o arquivo ‘organismo1.fasta‘

5.  Uma vez aberto o arquivo, procure uma ORF (Open Read Frame) e com o mouse selecione um trecho dessa ORF. Obs: Não selecione nenhum tracinho referente a um stop códon, selecione de preferência o meio da ORF;

 

Exercício 1: Quais as características de uma CDS (sequência codificante para uma proteína completa)?

 

6.  Clique em Create à Feature From Base Range. Na janela que apareceu clique em ‘Apply’ e OK;

7.  Clique no retângulo azul criado e clique em Extend Selected Features à To Previous Stop Códon. A sequência deve crescer para a esquerda (até um stop códon);

8.  Clique novamente no mesmo retângulo azul e vá em ‘Edit’ à ‘Extend selected feature’ à ‘To next stop códon and fix’/. Pronto, agora seu gene termina em um stop códon, mas será que o começo está correto?

9.  Clique novamente no mesmo retângulo azul e clique em Edit à Trim Selected Features à To Next Met. A sequência vai ser corrigida para começar em uma metionina. Agora sim! Seu gene tem metionina inicial e stop códon, ‘pode’ codificar algo...

10.      Feito isso, procure outras 3 ORFs disponíveis e repita do passo 4 ao 9;

11.      Uma vez criado genes, clique em ‘Select’ à ‘All CDS features’

12.      Clique em ‘Edit’ à ‘Automatically create genes name’

a.    ‘Enter the start character...’: coloque o nome Gene_

b.    ‘start count at’, coloque: 1

c.    ’increment number by’, coloque: 1

d.   ‘enter a qualifier name to use’, coloque: locus_tag

e.    ‘number of digits...’, coloque: 2

f.     ‘append “c”...., clique em No. Pronto, os genes estão nomeados!!!

 

Exercício 2: Para identificarmos qual possível proteína cada CDS codifica, será utilizado BLAST (alinhamento local contra um banco de dados). Qual programa seria mais indicado para esta identificação: Blastn (utilizando a sequência gênica) ou Blastp (utilizando a sequência da proteína predita)? Justifique.

 

13.      Clique no primeiro gene, vá em ‘View’ à ‘Aminoacid of selection as fasta’ à copie a sequência que aparecer em formato fasta e faça uma busca por similaridade no BLASTp no site do NCBI;

14.      Anote o resultado, para isso, selecione o gene de onde veio a sequência e aperte a tecla E (Edit/Selected Features in Editor). Vai aparecer uma janela, é nessa janela que serão anotadas todas as informações sobre o gene;

15.      Na janela aberta, clique na setinha preta do campo ‘Add Qualifier’ e adicione os campos product; curation e similarity. Em cada escolha, clique em Add Qualifier e confira se o campo foi criado dentro da janela;

16.      Com o resultado do BLASTp feito, preencha os campos acima adicionando;

a.  Curation: o nome do anotador

b.  Product: o nome do produto codificado pelo gene, de acordo com o BLASTp;

c.  Similarity: campo mais importante. Preencher da seguinte maneira – Similar to (organismo que deu maior similaridade); nome do produto da maior similaridade; tamanho dessa proteína em aminoácidos; e-value: valor de e-value encontrado nessa maior similaridade; % de similaridade entre as duas proteínas (% id) in (número de aminoácidos encontrados na similaridade) (exemplo no slide!!!);

d.  Clique em ‘Apply’ e ‘Ok‘

17.      Feito isso, vá aos outros genes e repita do passo 13 a 19;

18.      Salve o arquivo com o nome de organismo1.embl no diretório artemis clicando em File à Save An Entry As à EMBL Format à organismo1.fasta

19.      Pronto, curadoria realizada com sucesso!!! Agora vocês já podem anotar um genoma de verdade, com todos seus elementos! J

20.      Feche o programa, abra o arquivo .embl gerado (more organismo1.embl) e analise sua estrutura.

 

Exercício 3: Qual os produtos gênicos prováveis para os seguintes genes:

a)   Gene_01:

b)   Gene_02:

c)   Gene_03:

d)   Gene_04:

 

Observação do cromossomo 1 de Trypanosoma brucei anotado

 

1-   Clique no link: http://www.ncbi.nlm.nih.gov/mapview/

2-   Clique em Prozoan à Trypanosoma brucei  (Build 1.1) à clique no cromossomo 1

3-   Clique em Download/View Sequence/Evidence

4-   Clique em Save to Disk

5-   Clique em Send à File à Mude o formato para GenBank (full) à create file à download

6-   Mova o aquivo para o diretorio artemis [mv ../../Download/sequence.gb .] – o ponto (presente diretório) é muito importante!!

7-   Abra o artemis (./art)

8-   Clique em ‘Options’ e selecione  ’4 – Mold, Protozoan,...’

9-   Clique em File à Open... à Abra o arquivo ‘sequence.gb‘

10-  Se aparecer a mensagem – there are warnings while reading – view now? Clicar em ‘No’

Exercício 4: Copie e descreva a característica de três  estruturas anotadas neste cromossomo.

 

Comparação de três genomas com ACT

 

Para rodar o ACT precisa-se de pelo menos 3 arquivos. Dois arquivos com as seqüências a serem comparadas que podem ser anotadas (formato anotado do Genbank, por exemplo) ou não (fasta) e um arquivo de comparação entre as duas seqüências. Nós já temos os arquivos das seqüências (organismo1.embl, organismo2.embl e organismo3.embl) e para gerar os arquivos comparativo foi utilizado o programa tBLASTx (org1.vs.org2 e org1.vs.org3) com o seguinte formato:

organismo2    organismo1    69.19   977     301     0       97007   94077   277208  274278  0.0     1660

 

Exercício 5: Como tBLASTx faz alinhamento entre duas sequências?

 

Para gerar o arquivo comparativo vamos precisar selecionar os seguintes campos:

 

Col.12: score

Col.3: % identidade

Col.7: Query start

Col.8: Query end

Col.1: Query sequence name

Col.9: Subject start

Col.10: Subject end

Col.2: Subject sequence name

 

1. Digite: awk -F "\t" '{if ($12>1000) {print $12,$3,$7,$8,$1,$9,$10,$2}}' org1.vs.org2 > org1.vs.org2.formatado

 

2. Digite: awk -F "\t" '{if ($12>1000) {print $12,$3,$7,$8,$1,$9,$10,$2}}' org1.vs.org3 > org1.vs.org3.formatado

 

O arquivo de saída deve ter o seguinte formato:

 

1660 69.19 97007 94077 organismo2 277208 274278 organismo1

 

3. Abrir o programa ACT digitando ./act e apertando [enter]

4. Clicar em file à Open e complete os campos com as seguintes informações:

Sequence file 1: organismo2.embl

Comparison file 1: org1.vs.org2.formatado

Sequence file 2: organismo1.embl

 

5. Clicar em “More files...”

Comparison file 2: Tb.vs.Tc.comparative

Sequence file 3: seqüência anotada da scaffold 1047053517117 de Tc

 

6. Clicar em ‘Apply’

7. Comparar as CDS e regiões não codificadoras nos três genomas (linhas vermelhas match sem inversão,  linhas azuis match com inversão).

 

Exercício 6:  Conceitue sintenia gênica e como é esperado a sintenia entre dois organismos filogeneticamente próximos e mais afastados?

 

Exercício 7: Comparando o genoma do Organismo2 e o Organismo3, existe diferença entre o quantidade de genes? Quais genes estão ausentes ou duplicados entre estes organismos? Há alguma inversão ou alteração na sintenia gênica?