www.medizint.de

Die Bioinformatik ist nur auf den ersten Blick eine junge Wissenschaft, tatsächlich ist sie jedoch schon wesentlich älter als ihr Name. Die ersten Algorithmen zur Sequenzanalyse wurden in den 50er Jahren benötigt, als die ersten Proteinsequenzen verfügbar wurden. Daher sind die ältesten Analysemethoden auch auf die Proteine abgestimmt. Nachdem Fred Sanger 1975 die enzymatische Sequnezierung von DNA erfunden hatte, stieg auch die Anzahl der Nukleotidsequenzen kontinuierlich an. Mit den Jahren wurden die Sequenzierungstechniken und -strategien von Nukeleotiden und Proteinen derartig optimiert, daß die Anzahl der verfügbaren Sequenzen inzwischen exponentiell wächst.

Zu den ersten Bioinformatikern gehören Needleman & Wunsch (1970), die sich Gedanken zum direkten globalen Vergleich von Sequenzen gemacht haben. Margaret Dayhoff (1978) schuf eine Ähnlichkeitsmatrix, in der die Aminosäuren in ähnliche und nicht-ähnliche unterteilt werden. Damit war ein wichtiges Maß geschaffen, mit dem man ähnliche Sequenzen genauer miteinander vergleichen konnte. Smith & Waterman (1981) entwickelten ein weiteres wichtiges Werkzeug, das optimale lokale Alignment von zwei Sequnenzen. Einige Jahre später brachten Fen & Doolittle (1987) einen Ansatz zum multiplen Sequenzvergleich, der von Thompson (1994) optimiert wurde. Henikoff & Henikoff (1992) konnten in den 90er Jahren die Ähnlichkeitsmatrix von Dayhoff verbessern, nicht zuletzt deshalb, weil ihnen mehr Sequenzen zur Verfügung standen.

Auf den Algorithmen von Needleman & Wunsch und Smith & Waterman basieren auch heute noch die gängigen Methoden zur Sequenzanalyse. Die Algorythmen werden ständig weiterentwickelt, um sie nicht nur auf den Vergleich einzelner Gene, sondern auch auf den Vergleich ganzer Genome anzuwenden.

Das Wachstum der Sequenzdaten erfodert Datenbanken, und damit auch Suchalgorithmen, mit denen diese durchsucht werden können. Dabei spielen Wilbur & Lipman (1983, k-tuple), Parson & Lipman (1988, FASTA) und Atschul (1990 BLAST), Gish, Miller, Myers & Lipman wichtige Rollen. Sie erfanden heuristische Methoden, um eine möglichst schnelle Datenbanksuche zu ermöglichen. Mit zunehmender Komplexität der Datenbanken wird auch die Datenbanksuche komplizierter. Die Datenbanken sind heute nicht mehr nur reine Sequenzdatenbanken. Für jede nur denkbare Fragestellung gibt es inzwischen spezialierster Datenbanken, die die Informationen für den Anwender aufbereiten und anbieten.

Die drei größten primären Sequenzdatenbanken weltweit sind: Genbank (USA), EMBL (England) und DDBJ (Japan). Diese drei Datenbanken sind die ersten Anlaufstellen zur Sequenzsuche, da hier Wissenschafler aus der ganzen Welt ihre Protein- und Nukleotidsequenzen eintragen, unabhängig von Art und Herkunft der Seuqenz.