Multiple Sequence Alignment

Multiple Sequence Alignment
ClustalW TCoffee Ka, Ks, and Ka/Ks Anchored alignment

ClustalW

ClustalW Paste your sequences Submit
Multiple sequence Alignment alignment options Submit

Exercise HomoloGene is a system for automated detection of homologs among annotated genes of several completely sequenced eukaryotic genomes. Download the FASTA sequences of HomoloGene:5276 and align them with ClustalW

Download protein sequences

Result Alignment Guide Tree

TCoffee http://tcoffee.crg.cat/
Tcoffee computes its alignments by combining a collection of smaller alignments

Alignment at the DNA level based on an alignment at the Protein Level
The 18-kDa protein plays an important role in fertilization of several abalone species Build a multiple sequence alignment using the following sequences

Sequences >gi|604533|gb|AAC37231.1| fertilization protein
MRSLVLLCVLLMAICAADKKTSVSKENEAAMKVAMMKFLDMKAGVFKEIIEDMGYPITPPQWTTLLYYNR ERLIEFCRSFLALSKKIILLGGNKLNKANFARMGRILGWKSQWAVRQRQWGMVRVSRRHTSTAIAKRIVA MKVADLPCN >gi|604531|gb|AAC | fertilization protein MRFLLLLCVLMGAVSQAVCRKRPNVWGKIVVKEKNKAAMKIGFMEYLDAKLVKFKRHWLVGANWKLQKFE TDEMRYLAIKRLIKVCHGYTIWSQRLIMLKYRPLNEKYFKKVGRYLAWRNYLIVFRMWIGVLKKNLKRSE ITKPMQKLLDTKDGELPCPVRKIHG >gi|604529|gb|AAC | fertilization protein MRSLVLLCVLMAVGCVAFDDVVVSRQEQSYVQRGMVNFLDEEMHKLVKRFRDMRWNLGPGFVFLLKKVNR ERMMRYCMDYARYSKKILQLKHLPVNKKTLTKMGRFVGYRNYGVIRELYADVFRDVQGFRGPKMTAAMRK YSSKDPGTFPCKNEKRRG >gi|604527|gb|AAC | fertilization protein MRSLVLLCVLLMAICAADKKTTVSKENAAAMKIAMIKFLDARAGKFKKRVENMGYPITPPQWTTLLYYNR QRLMEWCHTYVEFSKKIILMGGNKLNKKNFTRMGRIIGWKNQWVLKRRQWEMVRVMRRYKSTAIAKKIVA >gi|604525|gb|AAC | fertilization protein MRSLVLLCVLLMAICAADKKSTVSKENAAAMKVAMIKFLDSRTDRFKKRIEKIGYPITPPQYTTLLYYNR ERLMDWCHNYVEVSKKIILLGGNKLNKKNFARMGRIIGWKNQWILKRRQWHMVRVMRRYKASAIAKKIVA

Choose TCoffee Regular, paste the sequences in the data box, and press submit

Download formats Guide tree

Codon Alignment In order to study selection patterns, you will need to have the corresponding DNA alignment Using the PROTOGENE (Protein-to-Gene) in Tcoffee, the amino-acid alignment will be transformed into a codon alignment. The actual procedure invloves tBLASTn.

PROTOGENE (in Tcoffee) is time consuming
PROTOGENE (in Tcoffee) is time consuming. Please submit your address, and the results will be ed to you. PROTOGENE may return more that one DNA sequence for any given Protein sequence. For your homework assignment, please choose one sequence for each species.

(Result) Codon alignment
>gi|604533|gb|AAC |_G_L36554 _S_ AAC37231 _DESC_ fertilization protein MATCHES_ON Haliotis assimilis fertilization protein mRNA, complete cds ATGAGGTCTTTGGTGCTTCTCTGTGTTTTGCTGATGGCAATATGTGCGGCGGAC------ AAAAAAACCTCGGTCTCGAAGGAAAATGAAGCCGCAATGAAG GTAGCGATGATGAAGTTTTTGGATATGAAGGCGGGTGTATTCAAAGAAATC---ATTGAG GATATGGGATATCCAATAACCCCTCCGCAATGGACAACTCTACTGTACTACAACAGAGAG AGATTGATTGAATTTTGCCGTTCCTTCCTTGCATTGTCCAAAAAGATTATATTGCTGGGA GGTAACAAATTAAATAAGGCGAACTTCGCTAGGATGGGTCGAATCCTTGGCTGGAAAAGC CAGTGGGCTGTGAGACAGAGGCAATGGGGGATGGTCAGA GTGTCGAGGCGC CATACAAGTACTGCAATAGCTAAAAGGATCGTCGCCATGAAAGTTGCTGACCTACCCTGT AAC TAG >gi|604531|gb|AAC |_G_L36590 _S_ AAC37233 _DESC_ fertilization protein MATCHES_ON Haliotis corrugata fertilization protein mRNA, complete cds ATGAGGTTTTTGCTGCTTCTCTGTGTTTTGATGGGGGCAGTATCTCAGGCAGTATGCAGA AAAAGACCTAATGTCTGGGGGAAAATCGTGGTCAAGGAGAAAAATAAAGCCGCAATGAAG ATAGGGTTTATGGAATATTTGGATGCAAAGTTGGTAAAGTTTAAAAGGCACTGGCTTGTT GGAGCCAATTGGAAACTTCAAAAATTTGAAACGGATGAAATGAGATACCTCGCCATAAAG AGACTGATAAAAGTTTGCCATGGATACACTATTTGGTCCCAACGACTAATAATGTTAAAA TATCGACCATTGAATGAGAAATACTTCAAAAAGGTGGGTCGATACCTTGCCTGGCGAAAC TACCTCATAGTTTTTCGGATGTGGATCGGCGTTTTG------AAGAAAAATCTTAAAAGA TCGGAAATAACGAAACCCATGCAAAAACTCCTCGACACAAAGGATGGTGAGTTGCCCTGC CCTGTTAGAAAGATACATGGATAA >gi|604529|gb|AAC |_G_L36589 _S_ AAC37232 _DESC_ fertilization protein MATCHES_ON Haliotis fulgens fertilization protein mRNA, complete cds ATGAGGTCTTTGGTGCTTCTCTGTGTTTTGATGGCGGTAGGATGTGTGGCGTTT------ GATGATGTGGTGGTCTCAAGGCAAGAGCAATCTTATGTGCAG AGAGGGATGGTCAACTTTTTGGATGAAGAAATGCATAAACTGGTTAAACGG---TTTAGA GATATGCGATGGAATTTAGGGCCAGGCTTTGTATTCCTTCTAAAAAAAGTCAACAGAGAG AGAATGATGCGCTACTGCATGGATTACGCCAGATATTCCAAAAAGATTTTACAGCTAAAA CATCTTCCAGTAAATAAGAAGACCCTCACTAAAATGGGTAGATTCGTTGGATATCGAAAC TATGGGGTCATCAGGGAGTTGTACGCCGACGTATTCAGAGACGTTCAAGGATTTAGGGGG CCTAAAATGACTGCAGCCATGAGGAAGTACAGCAGCAAGGATCCTGGTACATTTCCTTGC AAGAACGAGAAACGCCGCGGATGA >gi|604527|gb|AAC |_G_L36553 _S_ AAC37230 _DESC_ fertilization protein MATCHES_ON Haliotis sorenseni fertilization protein mRNA, complete cds AAAAAAACCACGGTCTCGAAGGAAAATGCAGCCGCAATGAAG ATAGCTATGATAAAGTTTTTGGATGCGAGGGCGGGTAAATTCAAAAAACGC---GTTGAG AATATGGGATATCCAATAACCCCTCCGCAATGGACAACTCTACTATACTACAACAGACAG AGATTGATGGAATGGTGCCATACCTACGTTGAATTTTCCAAAAAGATTATATTGATGGGA GGTAACAAATTAAATAAGAAGAACTTCACTAGGATGGGTCGAATCATTGGCTGGAAAAAC CAGTGGGTTTTGAAAAGGAGGCAATGGGAGATGGTCAGA GTGATGAGGCGC TATAAAAGTACTGCAATAGCTAAAAAGATCGTCGCCATGAAAGTTGCTGACCTACCCTGT >gi|604525|gb|AAC |_G_L36552 _S_ AAC37229 _DESC_ fertilization protein MATCHES_ON Haliotis rufescens fertilization protein mRNA, complete cds AAAAAATCCACGGTCTCGAAGGAAAATGCAGCCGCAATGAAG GTAGCGATGATAAAGTTTTTGGATTCGAGGACGGATAGATTCAAAAAACGC---ATTGAG AAGATTGGATATCCAATAACCCCTCCGCAATATACAACTCTACTATACTACAACAGAGAG AGATTGATGGATTGGTGCCATAACTACGTTGAAGTATCCAAAAAGATTATATTGTTGGGA GGTAACAAATTAAATAAGAAGAACTTCGCTAGGATGGGTCGAATCATTGGCTGGAAAAAC CAGTGGATTTTGAAAAGGAGGCAATGGCACATGGTCAGA GTGATGAGGCGC TATAAAGCTTCTGCAATAGCTAAAAAGATCGTCGCCATGAAAGTTGCTGACCTACCCTGT

SNAP - Ds/Dn Calculation Tool
Calculates synonymous and nonsynonymous substitution rates based on codon alignments according to Nei and Gojobori (1986) method.

Input codon alignment Select output statistics

SNAP - Ds/Dn Calculation Tool
Conclusion: We detect positive selection in six of the comparisons. So did Swanson and Vacquier (1998).

Distmat Distmat calculates the evolutionary distances between every pair of sequences in a multiple alignment. The distances are expressed in terms of the number per 100 nucleotides or number of replacements per 100 amino acids

Distmat Feed the DNA alignment of 18-kDa protein into distmat.
Calculate separately the distances between the sequences for codon positions 1 and 2, and for codon position 3. Are the results in agreement with those from the dn/ds analysis?

Distmat

Anchored multiple-sequence alignment with DIALIGN
User manual:

Align the following sequences (use the file dalign_sequences.txt):
>seq1 WKKNADAPKRAMTSFMKAAY >seq2 WNLDTNSPEEKQAYIQLAKDDRIRYD >seq3 WRMDSNQKNPDSNNPKAAYNKGDANAPK

Results DIALIGN makes alignments from fragments

Results Numbers below the alignment reflect some rough degree of local similarity among the sequences

Anchored alignment Now, let us assume that the user has some expert knowledge concerning a certain domain that is present in all the input sequences The domains marked in red in the three sequences are thought to be homologous to one another >seq1 WKKNADAPKRAMTSFMKAAY >seq2 WNLDTNSPEEKQAYIQLAKDDRIRYD >seq3 WRMDSNQKNPDSNNPKAAYNKGDANAPK

Therefore, the user wants to define this domain as anchor and align the rest of the sequences automatically. To specify a set of anchor points, each anchor point corresponds to a equal-length segment pair involving two of the input sequences should be defined

first sequence involved
second sequence involved start of anchor in first sequence start of anchor in second sequence length of anchor

Results The specified domain is aligned and the remainder of the sequences is aligned automatically respecting the constraints given by the anchor points:

Guidance/HoT

>seq1 WKKNADAPKRAMTSFMKAAY >seq2 WNLDTNSPEEKQAYIQLAKDDRIRYD >seq3 WRMDSNQKNPDSNNPKAAYNKGDANAPK >seq4 WRMDSNQKNPNNPKAAYNKGDANAPK

Multiple Sequence Alignment

Similar presentations

Presentation on theme: "Multiple Sequence Alignment"— Presentation transcript:

Similar presentations

About project

Feedback

Log in

Auth with social network:

Multiple Sequence Alignment

Similar presentations

Presentation on theme: "Multiple Sequence Alignment"— Presentation transcript:

Similar presentations

About project

Feedback