CEBI boinfo na web

CEBI tutoriais para Bioinformática na web

1. Informando-se sobre genes

Vamos nos informar sobre o gene nanog de várias maneiras

a) Você pode querer obter literatura a respeito do gene, uma maneira é consultar a base PubMed
- vamos simplesmente colocar a palavra nanog na janela de busca e ver o que se obtém: milhares de artigos
- na barra à esquerda vc pode ver se há revisões que falam sobre nanog, clique em Review e veja o número cair para centenas!
- mas vc quer ler sem pagar, então marque tb Free full text, cai mais.
- vc pode adicionar palavras com AND, vamos aumentar a busca para nanog AND role[title] assim vc obriga "role" (papel de nanog) a ocorrer no título!
- caiu pra uma dezena, agora vamos ler um deles, de Lin YC e colaboradores
- qdo vc abre um artigo, vê à direita outros relacionados (Similar articles)
- vamos refazer a pesquisa, vá para pubmed.com e digite nanog novamente
- recentemente já aparece um link sugerindo vc olhar NANOG (em maiúsculas é o símbolo oficial de nanog) na base Gene

b) A base Gene é uma base legal pq leva vc ao gene diretamente! E a tudo sobre ele!
- se vc clicou em Gene acima, coloque NANOG e dê enter, vc chega aqui.
- o NANOG humano tem o identificador (gene ID) 79923, clique nele
- não vamos ler tudo mas descubra em qual cromossomo ele fica?
- em verde vc vê que desse gene pode-se derivar vários mRNAs diferentes, na base do NCBI, quantas linhas verdes vc vê?
- à esquerda ficam os identificadores dos mRNA (processados), se começar por NM é entrada vista experimentalmente, se for XP, deduzida do genoma
- à direita ficam os identificadores das proteínas, NP qdo é vistas experimentalmente, XP deduzida do genoma
- jeito mais fácil de listar as proteínas é na barra da direita clicar em RefSeq proteins
- são duas NP e três preditas pela info do genoma, vamos olhar a isoform 1
- as referências listadas pela base Gene são sempre boas de ler! E lá no final tem a sequência
- mas se vc for trabalhar com ela... escolha o formato FASTA
- o formato FASTA tem três pedaços
    - começa com o sinal de maior (>) e ligado nele os identificadores, ai vc vê o gi e o RefSeq IDs
    - depois do primeiro espaço que ocorrer, a chamada "anotação", texto geralmente livre que descreve a sequência
    - pulou uma linha, vêm os resíduos de aminoácidos que formam a proteína MSVDP...
- vcs conhecem o código de uma letra? os aminoácidos cuja letra é a primeira deles são estes: A C F G H I L M P S T V
- os ácidos isso e aquilo são, na ordem alfabética, D E
- os básicos K R H
- têm hidroxila e podem ser fosforilados S T Y
- e uns outros ai... pratiquem! Tem triptofano (W) nessa proteína? Muitos ou poucos?

c) OMIM é o trabalho pronto na internet sobre NANOG e outros genes
- selecione na janela de busca OMIM e preencha com NANOG
- vc encontra o link do identificador 607973, explore!
- achou muita info boa, pois tente um gene que se conhece há mais tempo, busque TP53 no OMIM, TP53 é o 191170
- OMIM é uma base de genes e doenças, experimente buscar breast cancer, veja o registro 114480

d) Vc pode ver NANOG na base de dados Protein Data Base
- no NCBI vc acessa essa info em Structure, busque por NANOG
- para dar mérico por direito, navegue dai par ao link do PDB, em cima, na direita. link para PDB 2VI6 (os IDs no PDB têm essa cara)
- se der pra ver no seu computador teste JSmol
- troque Color para Hydrophobicity e Style para Ball and Stick, brinque com variações

e) Um consórcio sobre informações de proteínas vale a pena olhar UniProt
- tem muita coisa no UniProt mas vamos abrir o registro de NANOG
- Q9H9SO é o identificador da humana, vamos abrir
- o registro começa descrevendo as funções Gene Ontology, tem as Molecular Function e tem os Process tb
- se vc realmente quer explorar os dados de Gene Ontology, clique no link Complete GO annotation
- vamos aprender na marra, clique no quickGO em GO:0035019 somatic stem cell maintenance, veja a ontologia, principalmente "is a" e "part of"
- volte para a página NANOG do UniProt e veja que há uma sessão Expression
- nela o link mais legal é do ExpressionAtlas, e vc pode consultar alguns Baseline Experiments como o famoso FANTOM5
- fica legal se vc desmarcar o box Specific pra ver expressão em todos tecidos e clicar Apply. Preencha Gene query com TP53 e saiba sobre a expressão dela!
- mude Change filters: Developmental stage para fetal e aperte Apply, veja como varia.
- volte para o Q9H9SO e desça até a sessão de Cross References onde diz Phylogenomic databases
- a melhor delas é a Kegg Orthology (KO), clique em K10164
- duas coisas são legais no KO, acesso a Pathways e a grupos de ortólogos

f) O conhecimento dos genes antecede vc sequenciar o seu! Barata? Estudamos o reparo de DNA dela "ao contrário" no Kegg Orthlogy
- em Kegg Pathways temos vias bioquímicas e muito mais
- procure em Pathway informações sobre a via Prostate cancer (item 6.2)
- que tal verificar o sistema de reparo de mismatch? Quer os genes humanos? Simples, troque em cima por Homo sapiens e olhe à direita
- quer Escherichia coli DH10B? Então selecione e olhe o lado esquerdo
- mas que tal Trichomonas vaginalis? Quem é esse cara do lado esquerdo?
- encontre POU5F1 (Oct4) no Kegg, veja o Pathway em que está, e desvende seu grupo de ortólogos ou agrupamento KO e nele clique no botão Taxonomy e vá fechando as setinhas dos filhos de Euteleostomi e por final veja que o gene só existe a partir de Vertebrata
- Posteriormente para conhecer uma aplicação da Taxonomy do NCBI, clique nos genes como HSA: 5460 e copie o organismo Homo sapiens e cole em Taxonomy Common Tree do NCBI
- volte ao KO e clique nos outros genes do grupo de ortólogos e vá colocando no Taxonomy Common Tree

2. Informando-se sobre sequências

a) Uma maneira de conhecer sua sequência é comparar ela com outras
- alinhamento múltiplo é quando vc quer fazer um artigo, um trabalho, e quer comparar proteínas inteiras
- alinhe essas sequencias com MultiAlign. Ou estas
- alinhamento local com BLAST é usado para rapidamente encontrar sequencias muito parecidas com uma que vc sequenciou
- abra nucleotide BLAST e selecione Somewhat similar sequences (BLASTn) e no campo de sequencias digite
>seunome
acgatctacgtagctagctacga... (cinco linhas de sequencia psicografada)
- aperte o botão BLAST e veja se achou alguma sequência parecida com a sua. Lembre, azar no jogo, sorte no amor! Se não achou nada, repita!
- BLAST quebrou sua digitação em pedacinhos de 8, todos os possíveis, e rapidamente descartou todas sequências do banco de dados que não tenha nenhum deles
- em seguita caminhou para esquerda e direita, pontuando quando é igual, e tirando pontos quando há diferenças até que... (estória co relacionamento)
- quando continuar não compensa pq a pontuação só cai... o BLAST pára! Isso é alinhamento local
- bem, ai ele dá a pontuação = Score
[cuidado, o que vai ser explicado a seguir não deve ser repetido fora desta sala sob pena de poder ser queimado em fogueira]
- depois de calcular Score, BLAST se transforma em um dealer de cassino, verifica sua chance de tirar uma máo igual ou melhor que a sua (empate é da casa)
- ele estima quantos alinhamentos conseguirá iguais ou melhores que o seu, se achar que vai ganhar, ele aposta, senão ele bate na mesa!
- se por chance ele acha que dado o enorme tamanho co banco de dados ele consegue coisas que alinham mal e porcamente mas melhor que o que vc obteve... ele joga
- esse número de alinhamentos esperado pelo acaso iguais ou melhores que o seu se chama e-value
- se for alto, o seu foi uma coincidência ao acaso tb
- se for muito baixo, acaso é rejeitado, a explicação é que o que vc enviou e alguma sequência no banco de dados são "parentes"
- portanto BLAST serve para inferir homologia
[fora desta sala, diga que BLAST serve para determinar similaridade, o que não está errado, o Score mede isso, e vc não morre queimado]
- vamos agora submeter ao BLASTp (alinha aminoácidos versus aminoácidos) estas sequências e tentar ver o que são
- é possível usar inteligência artificial (do computador, não a sua) para saber a sublocalização celular dessas sequencias, use o Psort
- agora vamos tentar descobrir com BLASTn (nucleotide BLAST) limitando a busca para Human genomic + transcript um homólogo disto
- deu ruim? experimentemos usar uma versão onde a sequencia é traduzida para seis proteínas com BLASTx e a busca é no proteoma humano
- uma sequencia de DNA geralmente codifica par auma única mensagem, então BLASTx descarta rápido as 5 buscas que não dão em nada e descobre sozinho qual a leitura certa
- nem todo compositor é um Chico Buarque de Holanda, vejam e ouçam aqui