Tutorial – Introdução a
anotação e comparação de genomas
Tiago Mendes – Doutorando em
Bionformática
Hoje iremos trabalhar com dois programas livres
desenvolvidos pelo Sanger Institute: Artemis e ACT. Artemis foi desenvolvido
com a finalidade de permitir a visualização gráfica de um genoma, bem como uma
ferramenta de anotação que permite visualização, edição e análise de sequências
gênicas em suas seis janelas de leitura. ACT é um programa que permite comparação
de genomas.
Ao longo do tutorial existem sete exercícios (digitados em vermelho) que deverão ser enviados
individualmente para o email: mendesfarmacia@gmail.com até domingo (03/06/2012)
as 23:59 .
Como os dois programas são escritos em Java, para
instalação do Artemis e do ACT é necessária instalação prévia do Java (já
realizada nas máquinas do laboratório) com instruções que podem ser obtidas em:
http://java.com/en/download/manual.jsp
Obtenção dos arquivos:
1-
Faça Download
dos arquivos_aula_artemis
(https://www.dropbox.com/s/kphhuduauyfil0m/arquivos_aula_artemis.zip)
2-
Abra o terminal
(Aplicativos à Acessórios à Terminal)
3-
Entre no
diretório artemis (cd Documentos/artemis)
4-
Mova o arquivo
para a pasta artemis [mv Downloads/arquivos_aula_artemis.zip .] – o ponto
(“presente diretório”) após o nome do arquivo é muito importante!!!
5-
Descompacte o
arquivo (unzip arquivos_aula_artemis.zip)
6-
Digite ‘ls -l’ e
confira se estes arquivos estão presente no diretório artemis:
organismo1.fasta, organismo2.embl, organismo3.embl, org1.vs.org2, org1.vs.org3.
Instalação Artemis e ACT em Linux (não vai ser
feito na aula):
1-
Entre no site do
Artemis e
clique na aba Download
2-
Em FTP Download clique Artemis for Unix
3-
Salve o arquivo
artemis.tar.gz no diretório Documentos
4-
Abra o terminal
e entre no diretório Documentos (cd Documentos)
5-
Extraia o
arquivo (tar -vzxf artemis_linux.tar.gz)
Instalação do Artemis e ACT em Windows (não vai
ser feito na aula):
1-
Entre no site do
Artemis e
clique na aba Download
2-
Em FTP Download clique Artemis for Windows
3-
Salve o arquivo
artemis.jar no Desktop
4-
Clique duas
vezes no arquivo artemis.jar
5-
Clique em Browse
e selecione o diretório Documentos
Anotação
manual de genes codificadores de proteínas
1. Para executar o programa Artemis digite: ./art e aperte enter
2. Clique em Browse e selecione o diretório artemis
3. Clique em ‘Options’ e selecionne ’1 – Standard’
4. Clique em File à Open... à
Abra o arquivo ‘organismo1.fasta‘
5. Uma vez aberto o arquivo, procure uma ORF (Open
Read Frame) e com o mouse selecione um trecho dessa ORF. Obs: Não selecione
nenhum tracinho referente a um stop códon, selecione de preferência o meio da
ORF;
Exercício 1: Quais as características de uma CDS (sequência
codificante para uma proteína completa)?
6. Clique em Create à Feature From Base Range. Na janela que apareceu clique em ‘Apply’ e OK;
7. Clique no retângulo azul criado e clique em Extend
Selected Features à To Previous Stop Códon. A sequência deve crescer
para a esquerda (até um stop códon);
8. Clique novamente no mesmo retângulo azul e vá em
‘Edit’ à ‘Extend selected feature’ à
‘To next stop códon and fix’/. Pronto, agora seu gene termina em um stop códon,
mas será que o começo está correto?
9. Clique novamente no mesmo retângulo azul e clique
em Edit à Trim Selected Features à
To Next Met. A sequência vai ser corrigida para começar em uma metionina. Agora
sim! Seu gene tem metionina inicial e stop códon, ‘pode’ codificar algo...
10.
Feito isso,
procure outras 3 ORFs disponíveis e repita do passo 4 ao 9;
11.
Uma vez criado
genes, clique em ‘Select’ à ‘All CDS features’
12.
Clique em ‘Edit’ à ‘Automatically create genes name’
a.
‘Enter the start
character...’: coloque o nome Gene_
b.
‘start count
at’, coloque: 1
c.
’increment
number by’, coloque: 1
d.
‘enter a
qualifier name to use’, coloque: locus_tag
e.
‘number of digits...’, coloque: 2
f.
‘append “c”....,
clique em No. Pronto, os genes estão nomeados!!!
Exercício 2: Para identificarmos qual possível proteína cada
CDS codifica, será utilizado BLAST (alinhamento local contra um banco de
dados). Qual programa seria mais indicado para esta identificação: Blastn
(utilizando a sequência gênica) ou Blastp (utilizando a sequência da proteína
predita)? Justifique.
13.
Clique no primeiro
gene, vá em ‘View’ à ‘Aminoacid of selection as fasta’ à
copie a sequência que aparecer em formato fasta e faça uma busca por
similaridade no BLASTp
no site do NCBI;
14.
Anote o
resultado, para isso, selecione o gene de onde veio a sequência e aperte a
tecla E (Edit/Selected Features in Editor). Vai aparecer uma janela, é nessa
janela que serão anotadas todas as informações sobre o gene;
15.
Na janela
aberta, clique na setinha preta do campo ‘Add Qualifier’ e adicione os campos
product; curation e similarity. Em cada escolha, clique em Add Qualifier e
confira se o campo foi criado dentro da janela;
16.
Com o resultado
do BLASTp feito, preencha os campos acima adicionando;
a. Curation: o nome do anotador
b. Product: o nome do produto codificado pelo gene, de
acordo com o BLASTp;
c. Similarity: campo mais importante. Preencher da
seguinte maneira – Similar to (organismo que deu maior similaridade); nome do
produto da maior similaridade; tamanho dessa proteína em aminoácidos; e-value:
valor de e-value encontrado nessa maior similaridade; % de similaridade entre
as duas proteínas (% id) in (número de aminoácidos encontrados na similaridade)
(exemplo no slide!!!);
d. Clique em ‘Apply’ e ‘Ok‘
17.
Feito isso, vá
aos outros genes e repita do passo 13 a 19;
18.
Salve o arquivo
com o nome de organismo1.embl no diretório artemis clicando em File à
Save An Entry As à EMBL Format à
organismo1.fasta
19.
Pronto,
curadoria realizada com sucesso!!! Agora vocês já podem anotar um genoma de
verdade, com todos seus elementos! J
20.
Feche o
programa, abra o arquivo .embl gerado (more organismo1.embl) e analise sua
estrutura.
Exercício 3: Qual os produtos gênicos
prováveis para os seguintes genes:
a)
Gene_01:
b)
Gene_02:
c)
Gene_03:
d)
Gene_04:
Observação do cromossomo 1 de Trypanosoma brucei
anotado
1-
Clique no link: http://www.ncbi.nlm.nih.gov/mapview/
2-
Clique em
Prozoan à Trypanosoma brucei
(Build 1.1) à clique no cromossomo 1
3-
Clique em Download/View Sequence/Evidence
4-
Clique em Save to Disk
5-
Clique em Send à File à Mude o formato para
GenBank (full) à create file à download
6-
Mova o aquivo
para o diretorio artemis [mv ../../Download/sequence.gb .] – o ponto (presente
diretório) é muito importante!!
7-
Abra o artemis (./art)
8-
Clique em
‘Options’ e selecione ’4 – Mold,
Protozoan,...’
9-
Clique em File à
Open... à Abra o arquivo ‘sequence.gb‘
10-
Se aparecer a mensagem – there are warnings while
reading – view now? Clicar em ‘No’
Exercício 4: Copie e descreva a
característica de três estruturas
anotadas neste cromossomo.
Comparação de três genomas com ACT
Para rodar o ACT
precisa-se de pelo menos 3 arquivos. Dois arquivos com as seqüências a serem
comparadas que podem ser anotadas (formato anotado do Genbank, por exemplo) ou
não (fasta) e um arquivo de comparação entre as duas seqüências. Nós já temos
os arquivos das seqüências (organismo1.embl, organismo2.embl e organismo3.embl)
e para gerar os arquivos comparativo foi utilizado o programa tBLASTx
(org1.vs.org2 e org1.vs.org3) com o seguinte formato:
organismo2
organismo1 69.19 977
301 0 97007
94077 277208 274278
0.0 1660
Exercício 5: Como tBLASTx faz alinhamento
entre duas sequências?
Para gerar o arquivo comparativo vamos precisar
selecionar os seguintes campos:
Col.12: score
Col.3: % identidade
Col.7: Query start
Col.8: Query end
Col.1: Query sequence name
Col.9: Subject start
Col.10: Subject end
Col.2: Subject sequence
name
1. Digite: awk -F
"\t" '{if ($12>1000) {print $12,$3,$7,$8,$1,$9,$10,$2}}'
org1.vs.org2 > org1.vs.org2.formatado
2. Digite: awk -F
"\t" '{if ($12>1000) {print $12,$3,$7,$8,$1,$9,$10,$2}}'
org1.vs.org3 > org1.vs.org3.formatado
O arquivo de saída deve ter o seguinte formato:
1660 69.19
97007 94077 organismo2 277208 274278 organismo1
3. Abrir o programa ACT digitando ./act e apertando
[enter]
4. Clicar em file à Open e complete
os campos com as seguintes informações:
Sequence file 1: organismo2.embl
Comparison file 1: org1.vs.org2.formatado
Sequence file 2: organismo1.embl
5. Clicar em “More files...”
Comparison file 2: Tb.vs.Tc.comparative
Sequence file 3: seqüência anotada da scaffold
1047053517117 de Tc
6. Clicar em ‘Apply’
7. Comparar as CDS e regiões não codificadoras nos
três genomas (linhas vermelhas match sem inversão, linhas azuis match com inversão).
Exercício
6: Conceitue sintenia gênica e como é esperado
a sintenia entre dois organismos filogeneticamente próximos e mais afastados?
Exercício
7: Comparando o genoma do Organismo2 e o Organismo3, existe diferença entre o
quantidade de genes? Quais genes estão ausentes ou duplicados entre estes
organismos? Há alguma inversão ou alteração na sintenia gênica?