Identifizierung eines verdeckten Evolutionswegs zwischen zwei Proteinfalten

Nachricht

HeimHeim / Nachricht / Identifizierung eines verdeckten Evolutionswegs zwischen zwei Proteinfalten

Sep 10, 2023

Identifizierung eines verdeckten Evolutionswegs zwischen zwei Proteinfalten

Band Nature Communications

Nature Communications Band 14, Artikelnummer: 3177 (2023) Diesen Artikel zitieren

317 Zugriffe

15 Altmetrisch

Details zu den Metriken

Obwohl erwartet wird, dass homologe Proteinsequenzen ähnliche Strukturen annehmen, können einige Aminosäuresubstitutionen α-Helices und β-Faltblätter ineinander umwandeln. Ein solcher Faltungswechsel kann im Laufe der Evolutionsgeschichte stattgefunden haben, aber unterstützende Beweise wurden durch Folgendes begrenzt: (1) Häufigkeit und Diversität sequenzierter Gene, (2) Menge experimentell bestimmter Proteinstrukturen und (3) Annahmen, die den verwendeten statistischen Methoden zugrunde liegen Homologie ableiten. Hier überwinden wir diese Barrieren, indem wir mehrere statistische Methoden auf eine Familie von etwa 600.000 Proteinen zur Regulierung der bakteriellen Reaktion anwenden. Wir stellen fest, dass ihre homologen DNA-bindenden Untereinheiten unterschiedliche Strukturen annehmen: Helix-Turn-Helix versus α-Helix + β-Faltblatt (geflügelte Helix). Phylogenetische Analysen, die Rekonstruktion der Ahnensequenz und AlphaFold2-Modelle weisen darauf hin, dass Aminosäuresubstitutionen den Wechsel von der Helix-Turn-Helix zur geflügelten Helix erleichterten. Diese strukturelle Transformation erweiterte wahrscheinlich die DNA-Bindungsspezifität. Unser Ansatz deckt einen Evolutionspfad zwischen zwei Proteinfaltungen auf und bietet eine Methode zur Identifizierung von Sekundärstrukturwechseln in anderen Proteinfamilien.

Das Leben wird durch die chemischen Wechselwirkungen und katalytischen Reaktionen von Hunderten Millionen gefalteten Proteinen aufrechterhalten. Die Strukturen und Funktionen dieser Proteine ​​werden durch ihre Aminosäuresequenzen bestimmt1. Daher haben Sequenzänderungen verschiedene funktionelle Auswirkungen, die von keiner über eine mittlere Beeinträchtigung bis hin zum vollständigen Verlust2,3 reichen, wobei die biologischen Folgen von keiner beobachtbaren Wirkung bis hin zu einer schwächenden Erkrankung reichen4,5,6. Während viele historische Studien darauf hinweisen, dass Aminosäurevariationen die Proteinstruktur lokal oder global entfalten können7,8, verändern solche Veränderungen typischerweise nicht die Sekundärstruktur, wie etwa die Umwandlung von α-Helices in β-Faltblätter. Diese Ergebnisse stützen die etablierte Beobachtung, dass Proteine ​​mit ähnlichen Sequenzen ähnliche Faltungen aufweisen und ähnliche Funktionen ausführen. Diese Ähnlichkeiten wiederum werden verwendet, um Proteinfalten in Familien zu klassifizieren9,10,11 und liegen modernsten Methoden zur Vorhersage der Proteinstruktur12,13,14 zugrunde.

Dennoch zeigen neuere Arbeiten, dass eine Untergruppe von Aminosäureveränderungen die Sekundärstruktur verändern kann. Dieser Prozess wurde als „evolutionäre Metamorphose15“ und „evolved Fold Switching“16 bezeichnet. Beispielsweise schaltet die häufigste nicht-Hodgkin-Lymphom-assoziierte Mutation im menschlichen Mykozyt-Enhancer-Faktor 2 (MEF2) eine C-terminale α-Helix in einen β-Strang um, was wahrscheinlich die MEF2-Funktion beeinträchtigt17. Darüber hinaus deaktivieren zahlreiche einzelne Mutationen die zirkadiane Uhr der Cyanobakterien, indem sie eine Transformation verhindern, die für ihre normale Funktion entscheidend ist – den Wechsel ihrer C-terminalen Subdomäne von einer βααβ-Faltung zu einer αββα-Faltung18. Schließlich kann bei einer manipulierten Protein-G-Variante eine einzelne Mutation oder der Einbau in eine größere Proteindomäne das 3-α-Helix-Bündel, das menschliches Serumalbumin bindet, an andere Falten mit veränderten Funktionen ändern, beispielsweise an eine α/β-Greiffalte bindet Immunglobuline oder eine α/β-geflochtene ribosomale Proteindomäne19,20,21,22,23.

Diese Beispiele legen nahe, dass der weiterentwickelte Faltungswechsel von Sekundärstrukturen über schrittweise Aminosäureveränderungen ein Mechanismus sein könnte, durch den in der Natur neue Proteinfalten entstehen. Wenn ja, sollte dieser Evolutionsmechanismus durch die Suche nach homologen Proteinsequenzen mit unterschiedlichen experimentell bestimmten Strukturen identifizierbar sein (Abb. 1a). Ähnliche Ansätze haben erfolgreich evolutionäre Beziehungen zwischen Proteinfaltungsfamilien mit konservierten Sekundärstrukturen, aber unterschiedlichen Tertiäranordnungen identifiziert24,25.

a Die Abfrage der vollständigen Sequenz von FixJ (HTH4) gegen die PDB mit einer BLAST-Runde ergab eine signifikante Übereinstimmung mit KdpE (wH) in voller Länge. Bemerkenswert ist, dass in zwei Regionen experimentell festgestellt wurde, dass α-Helices an β-Faltblättern ausgerichtet sind. b Eine anschließende PSI-BLAST-Suche bestätigte eine wahrscheinliche evolutionäre Beziehung zwischen den FixJ- und KdpE-Sequenzen voller Länge; Volllängenstrukturen werden mit konservierten NTDs in Grau, Linkern in Orange, HTH4-CTD in Schwarz und wH-CTD in Gelb angezeigt. Das resultierende PSI-BLAST-Alignment umfasst NTD und CTD (beginnend dort, wo die KdpE-Sequenz gelb hervorgehoben ist); Fettgedruckte Aminosäuren sind identisch (schwarz) oder ähnlich (grau), Regionen, in denen α-Helices mit β-Strängen ausgerichtet sind, sind rosa; Lücken werden mit „-“ gekennzeichnet. c Regionen mit dreidimensionaler Struktur (links) und Sekundärstruktur (rechts), in denen PSI-BLAST α-Helices in der HTH4-Faltung mit Sequenzen des β-Strangs in der wH-Faltung (rosa) ausrichtet. Graue Bereiche zeigen die konservierte Sekundär- und Tertiärstruktur an; Beige Regionen im wH entsprechen seinen zusätzlichen Aminosäuren in der Ausrichtung, angezeigt als offene Räume in der ausgerichteten Sekundärstruktur von FixJ (rechts). Quelldaten werden als Quelldatendatei bereitgestellt.

Beobachtungen der Umwandlung entwickelter Sekundärstrukturen wurden jedoch durch mehrere technische Hindernisse behindert: (1) die begrenzte Häufigkeit und Vielfalt sequenzierter Gene, (2) die begrenzte Menge experimentell bestimmter Proteinstrukturen und (3) die den statistischen Methoden zugrunde liegenden Annahmen Wird verwendet, um auf Homologie zu schließen. Tatsächlich wirkten sich alle drei Einschränkungen auf die bahnbrechende Arbeit von Cordes und Kollegen aus, die eine wahrscheinliche evolutionäre Beziehung zwischen den beiden deutlich gefalteten Transkriptionsfaktoren P22 Cro und λ Cro26,27,28 identifizierten. Strukturell haben diese beiden Proteine ​​​​einen 3-helikalen N-terminalen Kern, weisen jedoch unterschiedliche C-terminale Regionen auf: Die C-terminale Region von P22 Cro faltet sich in zwei α-Helices, während der C-terminale Bereich von λ Cro eine β-Haarnadel annimmt. Obwohl diese Unterschiede durch weiterentwickelte Faltungsschaltung entstanden sein könnten, waren die verfügbaren Daten zu begrenzt, um schlüssig zu sein: Zum Zeitpunkt ihrer Studie umfasste die Proteinfamilie nur 55 Sequenzen und 5 gelöste Strukturen (Barrieren (1) und (2)). . Die Autoren schlugen auch die Existenz einer Barriere (3) vor: Da PSI-BLAST-Suchen in der gesamten Datenbank P22 Cro und λ Cro nicht als homolog identifizierten, kamen die Autoren zu dem Schluss, dass27 „profilbasierte Methoden möglicherweise an sich schlecht geeignet sind … wenn es um umfassende Strukturanalysen geht.“ Es ist eine Änderung eingetreten, da sich in einem solchen Fall die Sequenzerhaltungsmuster ändern werden.

Seit die oben genannte Studie vor fast 20 Jahren durchgeführt wurde, ist die Anzahl der verfügbaren Sequenzen in der RefSeq29-Datenbank um drei Größenordnungen gestiegen, und die Anzahl der experimentell bestimmten Strukturen, die in der Proteindatenbank (PDB) hinterlegt sind, ist um den Faktor 1 gestiegen 730,31. Daher stellten wir die Hypothese auf, dass jetzt genügend Proteinsequenz- und Strukturinformationen verfügbar sind, um schrittweise Aminosäureveränderungen zu erkennen, die zu einem weiterentwickelten Faltungswechsel führen.

Zu diesem Zweck suchten wir nach Beweisen in einer großen Familie bakterieller Reaktionsregulatoren, die etwa 600.000 Sequenzen und 76 einzigartige, experimentell bestimmte Strukturen umfasste. Jedes Homolog in dieser Familie stellt die Hälfte eines bakteriellen „Zweikomponentensystems“ dar; die andere Hälfte ist ein verwandtes Sensorprotein32. Diese Proteinpaare arbeiten zusammen, damit Bakterien durch Chemotaxis33, Antibiotikaresistenz34, Sauerstoffsensorik35 und mehr36 auf ihre Umgebung reagieren können. Um seine Funktion zu erfüllen, verfügt jedes Sensorprotein über eine extrazelluläre Domäne, die einen auslösenden Liganden bindet und dadurch die Histidinkinasedomäne des Sensors aktiviert, um seinen zugehörigen Reaktionsregulator an einem konservierten Aspartat in der N-terminalen Empfängerdomäne zu phosphorylieren. Diese Modifikation führt wiederum dazu, dass die C-terminale „Ausgabe“-Domäne des Reaktionsregulators die Reaktion des Organismus auslöst, beispielsweise eine veränderte Transkriptionsregulation37.

Strukturell haben die Antwortregulatorproteine ​​eine gemeinsame N-terminale Domänenarchitektur, wohingegen strukturelle Unterschiede zwischen ihren C-terminalen Domänen genutzt wurden, um sie in Unterfamilien zu unterteilen37,38. Fast 50 % der C-terminalen Domänen falten sich entweder zu Helix-Turn-Helix- (HTH) oder Winged-Helix- (wH) DNA-Bindungsdomänen37. (Diese ~50 % entsprechen den oben genannten ~600.000 Sequenzen). Beide C-terminalen Domänenfalten bestehen aus einem 3-Helix-Kernbündel, das entweder von (1) einem N-terminalen helikalen Linker und einer vierten C-terminalen Helix (z. B. einem tetrahelischen HTH oder HTH4) oder (2) einem Vierstrang flankiert wird N-terminales β-Faltblatt (hier zur Vereinfachung des Vergleichs Linker genannt) und eine C-terminale β-Haarnadel (oder „Flügel“, Abb. 1b und c). Im Durchschnitt sind Reaktionsregulatoren mit HTH4-Ausgabedomänen etwa 30 Reste kürzer als ihre wH-Gegenstücke.

Eine gemeinsame evolutionäre Abstammung der Reaktionsregulator-Domänen HTH4 und wH wurde bereits zuvor vorgeschlagen39. Ein evolutionärer Mechanismus konnte jedoch nicht nachgewiesen werden, was wiederum höchstwahrscheinlich auf den Mangel an Sequenz- und Strukturinformationen zurückzuführen ist, die zum Zeitpunkt der Studie verfügbar waren. Daher war unklar, ob die Unterschiede in den CTD-Sekundärstrukturen auf Sequenzeinfügungen, vollständige oder teilweise Domänenrekombination, schrittweise Aminosäureänderungen (z. B. evolved Fold Switching) oder eine Kombination der drei zurückzuführen sind.

In dieser Arbeit berichten wir über starke statistische Belege für den weiterentwickelten Faltungswechsel der C-terminalen Sekundärstruktur in HTH4- und wH-Domänen und schlagen einen mutmaßlichen Evolutionsweg zwischen den beiden Faltungen vor. Zunächst haben wir gezeigt, dass die C-terminale α-Helix des HTH4 eine evolutionäre Beziehung zum β-Faltblattflügel des wH aufweist (Abb. 1 und 2). Diese Beziehung wurde dann durch mehrere statistische Analysen phylogenetischer Beziehungen, die Rekonstruktion der Ahnensequenz mit AlphaFold2-Modellen und Funktionsanalysen gestärkt. Alle Belege deuten übereinstimmend auf einen evolutionären Verlauf hin, bei dem sich eine α-Helix durch schrittweise Mutation(en) in ein β-Faltblatt verwandelte. Unsere Ergebnisse deuten darauf hin, wie schrittweise Mutationen die Sekundärstruktur von Proteinen verändern können, und bieten Methoden zur Identifizierung weiterentwickelter Faltungswechsel in anderen Proteinfamilien.

Wir haben zuvor Protein BLAST40 verwendet, um die PDB nach Paaren von Proteinsequenzen mit hoher Sequenzidentität (≥ 70 %, wenn auch nicht identisch), aber divergenten, experimentell bestimmten Sekundärstrukturen zu durchsuchen (Abb. 1a). Diese Studie stützt die Hypothese, dass homologe Proteine ​​durch schrittweise Mutation die Faltung wechseln können, konnte jedoch keine detaillierte Beschreibung liefern, wie die Strukturübergänge stattfanden. Tatsächlich hatte NusG von den berichteten Fold-Switching-Proteinen den größten Sequenzsatz mit etwa 16.000 nicht-redundanten Sequenzen42; Allerdings sind diese Sequenzen unzuverlässig annotiert42 und der/die Faltungsübergang(e) ist/sind schwer zu identifizieren43, was phylogenetische Analysen verfälscht, die möglicherweise den Faltungswechselübergang aufdecken könnten.

Hier kamen wir zu dem Schluss, dass die Suche nach Familien mit einer größeren Anzahl von Sequenzen die der Homologie-Inferenz zugrunde liegenden Statistiken verbessern, die Genauigkeit der Faltannotation erhöhen und die statistisch signifikanten phylogenetischen Analysen ermöglichen würde, die zur Identifizierung homologer, aber deutlich gefalteter Proteine ​​erforderlich sind. Größere Familien bieten möglicherweise auch die Möglichkeit, entwickelte Fold-Switching-Pfade zwischen Sequenzen mit ≤70 % Identität zu identifizieren. Zu diesem Zweck haben wir alle ~150.000 Sequenzen in der PDB verwendet, um alle anderen Sequenzen mit abweichenden Sekundärstrukturen abzufragen (Abschnitt „Methoden“) und Sequenzübereinstimmungen mit E-Werten von 1e-04 oder niedriger identifiziert. Niedrigere E-Werte deuten darauf hin, dass es immer unwahrscheinlicher wird, dass eine Übereinstimmung zufällig entsteht, was Rückschlüsse auf Homologie zulässt44. Unser Schwellenwert von 1e-04 ist konservativ; 5e-02 wird oft verwendet, um auf Homologie zu schließen40 und einige Sequenzen mit noch höheren e-Werten sind auch homolog40.

Unter den Paaren potenzieller Fold-Switching-Homologe in der PDB identifizierten wir eine Übereinstimmung zwischen den Volllängenstrukturen von FixJ aus Bradyrhizobium japonicum (Abfrage) und KdpE aus Escherichia coli mit einem e-Wert von 1e-07. Wichtig ist, dass FixJPDB und KdpEPDB von mehreren unabhängigen Annotatoren, einschließlich Pfam, ECOD und SCOP (Abschnitt „Methoden“), als unterschiedliche Faltungen definiert werden. Sowohl FixJPDB als auch KdpEPDB sind Reaktionsregulatoren bakterieller Zweikomponentensysteme. Diese Proteine ​​kommen in und zwischen unzähligen Bakterienarten sehr häufig vor. Sequenzen für mehr als 1.000.000 verschiedene Gene sind in der nr-Datenbank vorhanden, die fast zwei Größenordnungen größer ist als die zuvor erwähnte NusG-Familie.

Strukturell zeigten die N-terminalen Domänen (NTDs) von FixJPDB und KdpEPDB hohe Sequenz- und Strukturähnlichkeiten (Abb. 1b, links), wohingegen ihre Linker und DNA-bindenden C-terminalen Domänen (CTDs) bescheidene Sequenzähnlichkeiten und auffällige Unterschiede aufwiesen Sekundärstruktur: Die CTD von FixJPDB besteht aus einer tetrahelischen Helix-Turn-Helix-Architektur (HTH4), während die CTD von KdpEPDB aus einer geflügelten Helix besteht (wH, Abb. 1). Die KdpEPDB CTD ist außerdem 15 AA länger als die von FixJPDB. Dennoch richtete sich der helikale Linker von FixJ teilweise an den vier β-Faltblättern des CTD von KdpE aus. (Um den Vergleich zu erleichtern, nennen wir beide Regionen „Linker“.) Darüber hinaus richtet sich die C-terminale α-Helix von FixJPDB an die C-terminale β-Haarnadel von KdpEPDBs CTD aus, die auch als „Flügel“ bekannt ist.

Im Gegensatz zu Abfragen mit Proteinen voller Länge identifizierten BLAST- und PSI-BLAST-Suchen der PDB unter Verwendung der Sequenzen isolierter CTDs aus FixJPDB oder KdpEPDB als Abfragen nur Sequenzen aus denselben Faltungsfamilien (HTH4 oder wH). Sequenzen, die die alternative Struktur codieren, wurden nicht identifiziert.

Zwei Möglichkeiten könnten diese widersprüchlichen Ergebnisse erklären. Erstens könnten in den Sequenzen voller Länge die starken Ähnlichkeiten der NTD fälschlicherweise durch „homologe Überdehnung“ zum CTD-Alignment führen, bei dem flankierende, nicht homologe Sequenzen fälschlicherweise in ein lokales Sequenz-Alignment einbezogen werden45. In diesem Fall hätten die deutlich gefalteten CTDs keinen gemeinsamen Vorfahren. Stattdessen rekombinierten Gene, die die einzelnen CTDs codieren, wahrscheinlich mit Genen, die die NTDs der Reaktionsregulatoren codieren. In Übereinstimmung mit dieser Möglichkeit umfasste die Alignment-Abdeckung nach unserer ersten BLAST-Suche nur 52 % der CTD-Sequenz. Alternativ könnten die HTH4- und wH-Domänen einen gemeinsamen Vorfahren haben, der aus den isolierten, divergenten CTD-Sequenzen nur schwer zuverlässig abzuleiten ist. In diesem Fall ergab die Suche mit vollständigen Sequenzen (NTD + CTD) statistisch signifikante Alignments, die korrekt auf eine evolutionäre Beziehung zwischen alternativ gefalteten CTDs schließen ließen. Tatsächlich wurde das zweite Phänomen sowohl für die Cro-Proteine26,27,28 als auch für die bakteriellen NusG-Transkriptionsfaktoren46 vorgeschlagen.

Um weiter zu unterscheiden, ob unsere anfängliche FixJPDB/KdpEPDB-HTH4/wH-Übereinstimmung auf eine echte evolutionäre Beziehung hinwies oder auf eine fehlerhafte homologe Überdehnung zurückzuführen war, verwendeten wir als nächstes FixJPDB in voller Länge, um die PDB mit drei Runden PSI-BLAST40 abzufragen, einem iterativen Algorithmus, der die Erhaltung identifiziert Muster zwischen homologen Proteinsequenzen. Im Gegensatz zum schnelleren BLAST-Algorithmus (der Übereinstimmungen mithilfe paarweiser Identitäten zwischen der Abfragesequenz und Einträgen in einer Sequenzdatenbank identifiziert) sucht PSI-BLAST nach Sequenzen, die mit Erhaltungsmustern innerhalb eines Satzes homologer Sequenzen übereinstimmen, die zur Erstellung einer positionsspezifischen Bewertungsmatrix verwendet werden. Diese Matrix speichert Bewertungen für den Ersatz einer Aminosäure durch eine andere an jeder Sequenzposition und wird nach jeder PSI-BLAST-Iteration aktualisiert, wenn bei der Suche neue Sequenzen gefunden werden. Daher identifiziert PSI-BLAST versteckte Konservierungsmuster, die für eine bestimmte Proteinfamilie charakteristisch sind und von BLAST nicht erkannt werden können. Tatsächlich identifizierte PSI-BLAST stärkere Konservierungsmuster zwischen Sequenzen, die für HTH4- und wH-Faltungen kodieren. Dieser Alignment-Ansatz verschob auch die Alignment-Register der CTDs, sodass 97 % der FixJPDB-Sequenz mit KdpEPDB mit einem E-Wert von 6 × 10−39 ausgerichtet waren (Abb. 1b, rechts). Dieses Ergebnis stützt die Hypothese, dass die HTH4- und wH-Falten der FixJ- und KdpE-CTDs eher entfernte Homologe als Ausrichtungsartefakte sind.

Darüber hinaus gingen die CTDs für 11 der 20 besten PSI-BLAST-Übereinstimmungen aus dieser Suche von der gleichen wH-Faltung wie KdpEPDB aus, während die anderen 9 Übereinstimmungen die gleiche HTH-Faltung wie die FixJPDB-Abfrage annahmen (Ergänzungstabelle 1). Eine reziproke PSI-BLAST-Suche mit drei Runden unter Verwendung der KdpEPDB-Sequenz voller Länge als Abfrage richtete 90 % dieses Proteins mit FixJPDB aus, mit einem E-Wert von 10–29. Bemerkenswerterweise wurden Sequenzen isolierter DNA-Bindungsdomänen mit HTH-Falten mit der CTD von KdpEPDB (wH) abgeglichen, und Sequenzen isolierter DNA-Bindungsdomänen mit wH-Falten wurden mit der Sequenz der CTD von FixJPDB (HTH4, Ergänzungstabelle 2) abgeglichen. Zusammengenommen zeigen diese Ergebnisse, dass: (1) HTH4- und wH-Domänen einen gemeinsamen Vorfahren haben39 und (2) die Verwendung von Sequenzen voller Länge in unseren Analysen anstelle isolierter Domänen sowohl legitim als auch notwendig ist, um die Beziehung zu identifizieren. Daher wurden bei allen nachfolgenden Suchvorgängen Sequenzen voller Länge als Abfragen verwendet, sofern nicht anders angegeben.

Eine weitere Untersuchung der ausgerichteten FixJPDB HTH4- und KdpEPDB wH-Falten ergab Bereiche mit struktureller Ähnlichkeit und Unähnlichkeit: Beide Falten teilen sich einen konservierten trihelischen Kern (Abb. 1c). Im Gegensatz dazu sind auffällige Bereiche der Unähnlichkeit erkennbar zwischen (1) dem α-helikalen Interdomänenlinker von FixJPDB und dem entsprechenden viersträngigen β-Faltblatt von KdpE; Lange Lücken in dieser Ausrichtung deuten darauf hin, dass die Linkerregion von KdpEPDB durch eine Insertion erweitert wurde und (2) die C-terminale Helix von FixJPDB mit dem C-terminalen β-Haarnadel-„Flügel“ von KdpEPDB ausgerichtet ist (Abb. 1c); Die lückenlose Ausrichtung dieser Region lässt vermuten, dass sich eine dieser beiden Sekundärstrukturen durch schrittweise Mutation in die andere entwickelt hat.

Um weiter zu testen, ob schrittweise Mutationen zu einem Wechsel von α-Helices zu β-Faltblättern (oder umgekehrt) geführt haben könnten, verwendeten wir als nächstes einen alternativen Sequenzsuchalgorithmus, jackhmmer, um die mögliche evolutionäre Beziehung zwischen Reaktionsregulatoren mit HTH4- und wH-Ausgabe zu bewerten Domänen. Obwohl sie rechenintensiver sind, sind auf iterativen Hidden-Markov-Modellen (HMM) basierende Suchen in der Regel empfindlicher als PSI-BLAST47 und können eine homologe Überdehnung45 besser vermeiden. Zu diesem Zweck wurden mithilfe der ECOD-Datenbank Sequenzen für 23 nicht-redundante Antwortregulatoren voller Länge mit HTH4- (11) und wH-Domänen (12) aus der PDB identifiziert.

In dieser Analyserunde bestand unser Ziel darin, zu bestimmen, ob Sequenzen aller experimentell ermittelten Antwortregulatoren voller Länge mit HTH4- und wH-Falten mit Sequenzen abgeglichen werden können, die die alternative Falte kodieren (d. h. HTH4-zu-wH-Übereinstimmungen und umgekehrt). Unter Verwendung von jackhmmer47 wurde jede Sequenz voller Länge verwendet, um alle Sequenzen aus der PDB (Abschnitt „Methoden“) abzufragen. Wie erwartet gruppierten sich die paarweisen Sequenzidentitäten von 23 Antwortregulatoren voller Länge basierend auf ihren CTD-Architekturen (HTH4 und wH, Abb. 2a) in zwei Unterfamilien, was darauf hindeutet, dass CTDs in denselben Faltungsfamilien engere evolutionäre Beziehungen aufweisen als solche in unterschiedlichen Faltungen Familien (Ergänzende Abbildung 1). Nichtsdestotrotz sind die C-terminalen Helices der HTH4-Domänen konsistent mit einer Region in den C-terminalen β-Haarnadelflügeln der wH-Faltdomänen ausgerichtet (Abb. 2b). Darüber hinaus orientierten sich die α-helikalen Interdomänenlinker des HTH4 konsistent an den vier N-terminalen β-Strängen der wH-Domäne. Zur weiteren Unterstützung der Cross-Fold-Beziehung wurden weitere 19/34 Nur-CTD-Strukturen durch Abfragen in voller Länge identifiziert, wiederum mit Cross-Fold-Erkennung.

a Jackhmmer-ausgerichtete Sequenzen von Reaktionsregulatoren mit experimentell bestimmten Strukturen (PDB-IDs) wurden zur Berechnung paarweiser Sequenzidentitäten verwendet. Sequenzen gruppieren sich in zwei Unterfamilien mit den C-terminalen Domänen HTH4 (obere rechte Klammer) und wH (untere rechte Klammer). Jede Zeile gibt den Prozentsatz ausgerichteter Identitäten (Zahlen innerhalb von Kästchen) an, die aus paarweisen Vergleichen berechnet wurden. Identische Sequenzen sind weiß; alle anderen werden nach % Identität eingefärbt (linke Farbleiste). b Experimentell bestimmte Sekundärstrukturen jeder Sequenz in a. Die N-terminale Domäne, der Linker und die C-terminale Domäne werden durch unterschiedliche Hintergrundfarben angezeigt. Die Sekundärstrukturen werden durch ihre sequenzbasierte Sekundärstrukturausrichtung mit den alternativ gefalteten Strukturen gefärbt (HTH4 ausgerichtet mit wH und umgekehrt). Identische Sekundärstrukturen, die sich konsistent ausrichten, sind dunkelviolett (z. B. Helices, die sich immer an Helices ausrichten); Sekundärstrukturen, die sich an Regionen zufälliger Knäuel ausrichten, reichen von hellviolett bis rosa; α-Helices, die sich mit β-Faltblättern ausrichten und umgekehrt, sind von rosa bis gelb gefärbt, je nachdem, ob die Ausrichtung mehr oder weniger häufig ist. c Box- und Whisker-Plots von log10(e-Werten) von Jackhmmer-Suchen nach Sequenzen, die eine Faltung zur Abfrage von Sequenzen aus der alternativen Unterfamilie (HTH4 gegen wH oder umgekehrt) verwendeten. Die Verteilungen jeder HTH4-Box (grauer Hintergrund)/wH-Box (gelber Hintergrund) wurden aus N = 12 (1A04, 1YIO, 3C3W, 4GVP, 4HYE, 4LDZ, 4YN8, 5F64, 5HEV, 5O8Y), 11 (1KGS, 1P2F, 2HQR, 4B09), 10 (5XSO, 2GWR, 4S04), 9 (2OQR), 8 (4KFC, 5VFA, 7LZ9), 7 (1YS6, 5ED4) E-Werte; Jedes Kästchen begrenzt den Interquartilbereich (IQR) der Daten (erstes Quartil, Q1 bis drittes Quartil, Q3); Mediane jeder Verteilung sind graue Linien innerhalb jeder Blackbox; unterer Whisker ist der niedrigste Wert über Q1-1,5*IQR; Der obere Whisker ist der höchste Wert unter Q3 + 1,5*IQR. Quelldaten werden als Quelldatendatei bereitgestellt.

Die mögliche Beziehung zwischen HTH4- und wH-Faltungen wurde weiter durch die Bewertung der E-Wert-Verteilungen aus Alignments zwischen den Proteinen voller Länge mit (1) Homologen aus ihrer eigenen Unterfamilie und (2) Homologen aus der alternativ gefalteten Unterfamilie gestützt (Abb. 2c, graue/gelbe Hintergründe). Die mittleren E-Werte der Alignments zwischen der Sequenz einer gegebenen experimentell bestimmten Faltung (HTH/wH) und dem Satz von Sequenzen mit der alternativen Faltung (wH/HTH) lagen zwischen e-33 und e-43, was auf signifikante evolutionäre Beziehungen hindeutet alle Mitglieder der beiden Unterfamilien (Abb. 2c). Wie erwartet lagen die mittleren E-Werte zwischen Sequenzen ähnlicher Falten zwischen e-54 und e-72 (ergänzende Abbildung 2a), was auf engere evolutionäre Beziehungen hinweist.

Statistisch signifikante Alignments wurden auch zwischen Abfragesequenzen voller Länge und isolierten CTDs mit der alternativen Faltung in 22/23 Antwortregulatoren voller Länge identifiziert. Die mittleren E-Werte dieser Alignments lagen zwischen e-04 und e-09, wohingegen die mittleren E-Werte der ausgerichteten Sequenzen aus derselben Faltungsfamilie zwischen e-17 und e-30 lagen (ergänzende Abbildung 2b). Diese domänenspezifischen Ausrichtungen unterstützen die evolutionäre Beziehung zwischen HTH4- und wH-Domänen weiter.

Somit stimmen die Presslufthammer-Ergebnisse (Abb. 2) mit der PSI-BLAST-Ausrichtung (Abb. 1b) überein und lassen auf zwei Arten von Evolutionsereignissen schließen: (1) Der Linker wurde möglicherweise durch eine Insertion/Deletion verlängert/verkürzt; und (2) die schrittweise Mutation könnte eine strukturelle Umwandlung zwischen der C-terminalen α-Helix des HTH4 und dem C-terminalen β-Faltblatt des wH induziert haben.

Obwohl diese strukturbasierten Sequenzsuchen mit der weiterentwickelten Faltungsumschaltung in den C-terminalen HTH4- und wH-Domänen übereinstimmten, wurde der Mechanismus der Sekundärstrukturumwandlung durch die alternativen Positionen der in die längeren wH-Homologen eingefügten Sequenzen verdeckt. PSI-BLAST richtete die C-terminale α-Helix des HTH4 vollständig an der β-Haarnadel des wH aus (Abb. 1b), was auf eine vollständige Umwandlung der Sekundärstruktur schließen lässt. Im Gegensatz dazu richtete Jackhmmer die C-terminale α-Helix von HTH4 nur am ersten β-Strang von wH aus (Abb. 2b), was auf eine teilweise Umwandlung zusammen mit einer Insertion schließen lässt. Um zwischen diesen Optionen zu unterscheiden, haben wir als nächstes einen großen Satz von Reaktionsregulatorsequenzen mit HTH4- und wH-Ausgabedomänen gesammelt. Zu diesem Zweck wurden die FixJPDB- und KdpEPDB-Sequenzen mithilfe von Protein BLAST mit der nr-Datenbank abgeglichen, um 581.791 mutmaßliche Homologe zu identifizieren. Angesichts der Größe dieses Sequenzsatzes haben wir mehrere Strategien zum Kuratieren und Sampling der Daten entwickelt (Abschnitt „Methoden“), sodass der endgültige Teilsatz der Sequenzen klein genug für verschiedene phylogenetische Analysen, aber groß genug ist, um die große Antwortfamilie angemessen darzustellen Aufsichtsbehörden.

Zu diesem Zweck wurden die 581.791 Sequenzen mithilfe eines Greedy-Clustering-Algorithmus in 367 Cluster gruppiert und auf 85 % Redundanz gefiltert, um eine endgültige Anzahl von 23.791 Sequenzen zu erhalten. Anschließend wurden die Cluster verglichen, um 13.006 FixJ-ähnliche Sequenzen und 10.785 KdpE-ähnliche Sequenzen zu identifizieren. Sequenzen innerhalb jeder Gruppe können problemlos angepasst werden; Die beiden Gruppen hatten jedoch insgesamt eine geringe Sequenzidentität untereinander. Es wurden verschiedene Ansätze versucht, diese Gruppen anzugleichen. Ein Versuch identifizierte einen „transitiven Homologieweg“ von 7 Sequenzen, die HTH4 mit wH-Sequenzen verbinden (Ergänzungstabelle 3, Abschnitt „Methoden“), der verwendet wurde, um die FixJ-ähnlichen (HTH4) und KdpE-ähnlichen (wH) Alignments abzugleichen. Als jedoch in IQ-Tree ein phylogenetischer Baum für die kombinierten 23.791 Sequenzen erstellt wurde, war seine Qualität schlecht (dh 140 Lücken/360 Positionen in der KdpEPDB-Sequenz) und konnte nach drei Bootstrapping-Runden nicht konvergieren.

Dennoch deutete der transitive Homologiepfad auf die Existenz zusätzlicher Sequenzen hin, die die HTH4- und wH-Faltfamilien überbrücken könnten. Daher haben wir den ursprünglichen Sequenzsatz mit einem alternativen Ansatz durchsucht. Zunächst haben wir Cluster mit ≥ 100 Sequenzen anhand ihrer CTD-Architekturen kategorisiert, um 74.741/387.276 Sequenzen mit HTH4/wH-Ausgabedomänen zu identifizieren. Diese Sequenzsätze wurden zum Aufbau von BLAST-Bibliotheken verwendet. Als nächstes wurden die Sequenzen mit HTH4-Ausgabedomänen auf 50 % Redundanz gefiltert und die verbleibenden 4520 Sequenzen mit Protein BLAST gegen die wH-Bibliothek abgefragt. Wenn eine Übereinstimmung statistisch signifikant war, durchsuchten wir NCBI-Sequenzdatensätze beider Sequenzen nach CTD-Strukturanmerkungen, die typischerweise aus Hidden-Markov-Modellen abgeleitet werden. Diese Ergebnisse wurden verwendet, um BLAST-Übereinstimmungen zwischen verschiedenen Faltungsfamilien (Sequenzpaare mit 1 annotiertem HTH4 und 1 annotiertem wH) von Übereinstimmungen zwischen derselben Faltungsfamilie zu unterscheiden. Sequenzpaare mit Anmerkungen aus verschiedenen Faltfamilien wurden beibehalten; Dieser Prozess identifizierte 3136 Übereinstimmungen zwischen 664 HTH4- und 2541 wH-Proteinen mit mittleren/medianen E-Werten von 4 × 10−10/5 × 10−16. Reziproke BLAST-Suchen unter Verwendung der wH-Sequenzen als Abfragen wurden in allen 3136 Fällen erfolgreich durchgeführt, mit mittleren/medianen E-Werten von 1 × 10−8/2 × 10−16; Diese höheren E-Werte spiegeln wahrscheinlich die geringere Größe der HTH4-Datenbank oder die längeren Längen der wH-Sequenzen im Vergleich zu HTH4 wider.

Als nächstes haben wir die 3205-Sequenzen mit zwei verschiedenen Methoden abgeglichen: Clustal Omega48 und MUSCLE49 (Supplementary Data 1). Auch hier war ein wesentlicher Unterschied zwischen diesen familienübergreifenden Multiple Sequence Alignments (MSAs) die Position der Sequenzen, die in die längeren wH/kürzeren HTH4-Homologen eingefügt bzw. daraus gelöscht wurden. Dennoch war in beiden familienübergreifenden MSAs die C-terminale Helix des HTH4 vollständig mit dem C-terminalen β-Faltblattflügel des wH ausgerichtet, was auf die Entwicklung von der α-Helix zum β-Faltblatt durch schrittweise Mutation und nicht durch Insertion oder Deletion hinweist (Abb. 3a und ergänzende Abb. 3). In der Clustal-Omega-Anordnung wurde eine Zwei-Reste-Lücke, die in > 99 % der HTH4-Faltungen gefunden wurde, auch in einer annotierten wH-Faltung (wHwing_gap) gefunden, was weiter darauf hindeutet, dass die Umwandlung von α-Helix ↔ β-Faltblatt durch schrittweise Mutation erfolgte. Darüber hinaus wurden mehrere HTH4-Sequenzen mit Linkerlängen ähnlich den wH-Sequenzen identifiziert (z. B. HTH4_-Insert in Abb. 3a), was zeigt, dass lange Linker nicht ausschließlich für wH-Faltungen gelten. Die Sequenzen innerhalb des Alignments waren vielfältig, mit durchschnittlichen paarweisen Identitäten von 31 % bei HTH4-Falten, 40 % bei wH-Falten und 31 % über Falten hinweg. Bemerkenswerterweise unterschieden sich die evolutionären Erhaltungsmuster zwischen der HTH4- und der wH-Faltung (ergänzende Abbildung 4). Insbesondere die C-terminale Helix von HTH4 zeigte keine ausgeprägten Konservierungsmuster, wohingegen dies beim β-Strang-Flügel von wH der Fall war. Wie von Cordes und Kollegen27 vorgeschlagen, könnten solche unterschiedlichen Konservierungsmuster erklären, warum Homologie zwischen Sequenzen für die isolierten wH- und HTH4-Domänen nicht aus den PSI-BLAST- und Jackhmmer-Suchen gegen die PDB abgeleitet werden konnte.

Ein Clustal-Omega-Alignment von 3205 HTH4- und wH-Sequenzen weist auf eine vollständige Umwandlung der C-terminalen Sekundärstruktur im Laufe der Evolutionsgeschichte hin. Sekundärstrukturdiagramme wurden mit den Strukturen von FixJPDB (schwarz) und KdpEPDB (gelb) erstellt. Die Hintergrundfarben der vier Sequenzen stimmen mit denen im Stammbaum überein. Hinweise in den Zwischenräumen zwischen den Sequenzen zeigen wichtige Änderungen: (1) Einfügung (oder Deletion) des orangefarbenen Linkers, abhängig von den Eigenschaften der Vorgängersequenzen, (2) Faltumwandlung (3) Sequenzverlängerung/-deletion. Das Wort vor einem Schrägstrich stellt dar, was passiert, wenn sich eine Sequenz von oben nach unten ändert; Das Wort nach dem Schrägstrich stellt dar, was passiert, wenn sich eine Sequenz von unten nach oben ändert. Ein gemeinsamer Vorfahre zwischen den Sequenzen FixJPDB und KdpEPDB ist ebenfalls möglich. Quelldaten werden als Quelldatendatei bereitgestellt. b Phylogenetische Bäume mit maximaler Wahrscheinlichkeit deuten auf einen Evolutionspfad zwischen Reaktionsregulatoren mit HTH4- und wH-Falten hin. Sequenzen mit C-terminalen Domänen, die aus NCBI-Proteinaufzeichnungen als HTH/wH annotiert sind, sind grau/gelb. Die Gruppe, die die 12 identifizierten Brückensequenzen enthält, ist rosa hervorgehoben. HTH4_insert bietet ein Beispiel für eine annotierte HTH4-Sequenz, deren Linkerlänge wH ähnelte; wHwing_gap bietet ein Beispiel für eine wH-Sequenz mit einer Deletion von zwei Resten, die denen ähnelt, die in >99 % der C-terminalen Helices ausgerichteter HTH4-Sequenzen gefunden werden. Entfernungseinheiten sind willkürlich, obwohl Sequenzen weiter im Raum weiter entfernte evolutionäre Beziehungen aufweisen.

Schließlich haben wir einen Bootstrap-gestützten, phylogenetischen Baum für die familienübergreifende MSA erstellt. Bemerkenswerterweise zeigten die Ergebnisse einen Sequenzklade, der die beiden Faltenfamilien zu überbrücken scheint (Abb. 3b und Abb. S5 und S6). Zu den 12 Sequenzen dieser Gruppe gehört eine, die im transitiven Homologiepfad identifiziert wurde; Alle 12 haben als HTH4 bezeichnete Ausgabedomänen und stammen von mehreren Bakterienstämmen (Ergänzungstabelle 4). Im Stammbaum grenzen diese 12 Sequenzen an Zweige mit wH- und HTH4-CTDs (Abb. 3b), was darauf hindeutet, dass ihre Vorfahren evolutionäre Zwischenstufen zwischen den beiden Falten sein könnten. Um die statistische Robustheit der HTH-Brücke-wH-Schnittstelle zu bewerten, haben wir die Häufigkeit ihres Auftretens anhand von Bäumen quantifiziert, die in allen 6393 möglichen Verzweigungspunkten verwurzelt sind. Die logarithmische Wahrscheinlichkeit jedes Wurzelbaums wurde unter Verwendung des annähernd unverzerrten Tests (p-AU, ergänzende Abbildung 7A) berechnet. Von den 6393 möglichen Wurzeln hatten 18 einen p-AU-Score ≥ 0,8 (ergänzende Abbildung 7B), was auf statistische Signifikanz hinweist. In allen 18 Fällen grenzten die Brückensequenzen an Zweige mit annotierten wH- und HTH4-Domänen (ergänzende Abbildung 8), was die Rolle dieser Gruppe als evolutionäre Brücke zwischen den beiden Falten stark unterstützt.

Als nächstes untersuchten wir die vorhergesagten strukturellen Eigenschaften von Sequenzen in der Brückengruppe. Zu diesem Zweck wurden Strukturmodelle jeder Brückensequenz mit AlphaFold214 (AF2) erstellt. Bemerkenswerterweise gingen alle Modelle von der HTH4-Faltung aus (ergänzende Abbildung 9). Dieses Ergebnis legt einige Möglichkeiten nahe. Erstens könnten einige Brückensequenzen zwischen HTH4- und wH-Faltungen ineinander umgewandelt werden. Frühere Arbeiten haben gezeigt, dass AF2 im Allgemeinen nur eine dominante Konformation von Proteinen vorhersagt, die zwischen zwei Faltungen wechseln kann42,51. Zweitens könnten die AF2-Vorhersagen unzuverlässig sein und einige oder alle Brückensequenzen könnten tatsächlich wH-Faltungen annehmen. Drittens könnte der Faltungsübergang bei früheren Vorfahren stattgefunden haben, die sich an Knoten befanden, die die meisten HTH4- und wH-Sequenzen verbinden. Diese Knoten verbinden die beiden Faltenfamilien im Baum (ergänzende Abbildung 5), was darauf hindeutet, dass ihre entsprechenden Vorfahrensequenzen möglicherweise Eigenschaften sowohl von HTH- als auch von wH-Falten hatten.

Daher führten wir als nächstes eine Rekonstruktion der Ahnensequenz durch und generierten zusätzliche AF2-Modelle für die Ahnensequenzen, die die HTH4- und wH-Falten überbrücken (Abb. 4 und S5). Beachten Sie, dass die Linker aller Vorfahrensequenzen genauso lang waren wie die wH-Linker. Unser Grundprinzip war, dass die Linker einiger HTH4-Sequenzen in der Nähe der Brückenregion genauso lang waren wie die Linker von wH-Sequenzen (Abb. 3 und ergänzende Abb. 3), was darauf hindeutet, dass diese Linker möglicherweise bereits durch eine große Insertion modifiziert wurden.

Der früheste Vorfahr scheint die längere Version einer tetrahelischen Helix-Turn-Helix (HTH4) zu sein, aus der sich die Faltungen der geflügelten Helix (wH) entwickelten. Die faltschaltbare C-terminale Helix/β-Haarnadel ist in Rosa und der strukturell plastische Linker in Gelb dargestellt. Die in diesem Diagramm verwendete Brückensequenz war TME68356.1, diejenige, die dem angestammten Knoten in Abb. 3b am nächsten liegt.

Interessanterweise deuten die Ergebnisse der Ahnenrekonstruktion darauf hin, dass die Ahnensequenzen möglicherweise strukturell plastische Regionen hatten, die als Reaktion auf Mutationen zwischen α-Helices und β-Faltblättern wechseln konnten (Abb. 4 und Ergänzungstabelle 5). Bemerkenswert ist, dass das C-terminalste Sekundärstrukturelement von Vorfahr 0 eine α-Helix ist, das von Vorfahr 1 eine β-Haarnadel ist und das Element von Vorfahr 2 wieder zu einer α-Helix wechselt (Abb. 4, rosa). Interessanterweise ist die Sequenz der β-Haarnadel von Ancestor 1 zu 83 % identisch mit den Sequenzen der C-terminalen Helices von Ancestor 0 und Ancestor 2, die zu 75 % identisch sind. Diese Ergebnisse legen nahe, dass nur zwei Mutationen die C-terminale α-Helix durch einen anderen Satz von Sequenzsubstitutionen in ein β-Faltblatt und wieder zurück umwandeln können.

Auch die N-terminale Linkerregion (Abb. 4, gelb) scheint plastisch zu sein. In Ancestor 0–2 ist dieser Linker teilweise in eine β-Haarnadelstruktur gefaltet, wohingegen in Ancestor 3 der Linker eine vollständig gefaltete 4-β-Faltblattstruktur annimmt. Im Gegensatz dazu nimmt der Linker in den Ancestors 4–5 und in der modernen Brückensequenz eine teilweise helikale Struktur an (Abb. 4).

Zusammengenommen deuten diese Ergebnisse darauf hin, dass Vorfahren von Sequenzen in der Brückengruppe möglicherweise eine Neigung sowohl zur wH- als auch zur HTH4-Faltung hatten. Um diese Möglichkeit weiter zu testen, wurden sowohl PSI-BLAST- als auch Jackhmmer-Suchen zwischen den angestammten CTD-Sequenzen und PDB-Strukturen mit sowohl HTH4- als auch wH-Falten durchgeführt. Statistisch signifikante Cross-Fold-Übereinstimmungen wurden in allen Fällen mit Ausnahme von Anc identifiziert. 3 (Ergänzende Daten 2). Im Vergleich dazu stimmten die früheren PSI-BLAST- und Jackhmmer-Suchen der isolierten CTDs bestehender HTH4- und wH-Sequenzen mit Homologen mit derselben, aber nicht der alternativen Faltung überein.

Schließlich wollten wir herausfinden, ob der Übergang von HTH4- zu wH-Falten einen evolutionären Vorteil gehabt haben könnte. Die Untersuchung experimentell ermittelter HTH4- und wH-Antwortregulatorstrukturen im Komplex mit ihren verwandten DNA-Partnern legt nahe, dass ein Vorteil der Strukturtransformation möglicherweise eine erweiterte Bindungsspezifität war. Im Durchschnitt kontaktieren die HTH4-Falten 17 einzigartige Nukleotide, während die wH-Falten 22 kontaktieren (Abb. 5a). Sowohl die HTH4- als auch die wH-Faltung haben eine einzige Erkennungshelix, die den Hauptfurchen bindet, und die C-terminale β-Haarnadel der geflügelten Helices kontaktiert auch die Nebenfurche (Abb. 5b). Daher können wH-Domänen wahrscheinlich mehr einzigartige Nukleotidsequenzen erkennen als HTH.

ein vereinfachtes Box-and-Whisker-Diagramm mit überlagerten Datenpunkten für die Anzahl der Kontakte zwischen HTH4 und DNA (schwarz) und wH und DNA (gelb). Im Durchschnitt haben HTH4-Domänen 5 DNA-Kontakte weniger als wH-Domänen. Die mittleren Balken entsprechen den Mittelwerten, die oberen/unteren Balken den Standardabweichungen. Statistiken wurden aus 16/15 unabhängig bestimmten Strukturen von HTH-DNA/wH-DNA-Komplexen abgeleitet. Quelldaten werden als Quelldatendatei bereitgestellt. b Beispiele für DNA-Wechselwirkungen (grau) mit HTH4- und wH-Domänen, oben bzw. unten. Die C-terminale α-Helix des HTH4 (schwarz, oben) berührt die DNA nicht, wohingegen der β-Haarnadelflügel des wH (gelb, unten) die kleine Furche berührt. Strukturell ähnliche Teile der Falten HTH4 (PDB-ID: 1h0m, Kette D) und wH (PDB-ID: 4hf1, Kette A) sind hellgrau. Dieses Ergebnis und die damit verbundene Zunahme der möglichen Anzahl einzigartiger DNA-Sequenzen, die vom wH erkannt werden könnten, könnten erklären, warum es sich aus den HTH4-In-Response-Regulatoren entwickelt hat.

Jahrzehntelange Forschung legt nahe, dass die Sekundärstruktur von Proteinen im Laufe der Evolutionsgeschichte weitgehend konserviert ist52,53. Dementsprechend haben verschiedene Studien gezeigt, dass sich neue Proteinfalten durch verschiedene Mechanismen entwickeln können, die die Sekundärstruktur fixieren, wie etwa Insertionen, Deletionen und zirkuläre Permutation54. Andere haben gezeigt, dass Proteine ​​mit konservierten Sekundärstrukturen unterschiedliche tertiäre Anordnungen entwickeln können24,25,55.

Im Gegensatz dazu deuten mehrere neuere Studien darauf hin, dass schrittweise Mutationen die Sekundärstrukturen von Proteinen verändern und so die Entwicklung neuer Proteinfalten fördern können19,28,56,57. Unsere Arbeit stützt diese Hypothese, indem sie einen statistisch signifikanten Evolutionsverlauf zwischen zwei Proteinfalten identifiziert. Diese Falten bestehen aus Fragmenten von Reaktionsregulator-CTDs, die von der α-Helix zum β-Faltblatt wechseln. Unsere Ergebnisse werden durch die Rekonstruktion der Ahnensequenz, Strukturmodelle und verschiedene Methoden zur Sequenzausrichtung gestützt. Darüber hinaus hatte dieser weiterentwickelte Faltungswechsel wahrscheinlich eine funktionelle Konsequenz: die Erweiterung der DNA-Bindungsspezifität. Insbesondere sind HTH4- und wH-Faltungen nicht auf die Superfamilie der Reaktionsregulatoren beschränkt. In anderen Familien könnten sich die wHs durch andere oder zusätzliche Mechanismen aus HTH4-Vorfahren entwickelt haben (und die Evolutionsreihenfolge kann unterschiedlich sein).

Da die hier beobachtete Faltungsschaltregion ein Fragment des gesamten Proteins umfasst, vergleichen wir unseren vorgeschlagenen schrittweisen Mechanismus mit anderen Mechanismen für die Proteinevolution, an denen Proteinfragmente beteiligt sind, wie z. B. „Wörter“58 und „Brückenthemen“59,60,61. Die hier vorgestellte Arbeit unterscheidet sich in mehreren wichtigen Punkten von diesen Studien. Zunächst wurden „Wörter“ als Proteinfragmente mit „lokalen Ähnlichkeiten in Sequenz und Struktur innerhalb global unterschiedlicher Faltungen“58 definiert, und verbindende „Themen“ umfassen jeweils einen Satz „homologer Proteinfragmente, die in unterschiedlichen sequentiellen und strukturellen Kontexten gefunden werden“59. Daher weisen die isolierten Sequenzen dieser Fragmente eine erkennbare Homologie auf, ohne dass der Kontext zum Rest des Proteins besteht. Im Gegensatz dazu zeigten die hier beschriebenen Fold-Switching-Sequenzen von HTH4- und wH-Fragmenten nur erkennbare Homologie im Kontext des gesamten Proteins. In der Praxis konnten die zur Identifizierung von Wörtern und Themen verwendeten Suchvorgänge, die auf Übereinstimmungen zwischen homologen Sequenzen von Proteinfragmenten in verschiedenen Proteinkontexten beruhen, nicht zur Identifizierung des hier vorgeschlagenen weiterentwickelten Faltungswechselübergangs verwendet werden.

Zweitens unterscheidet sich der Evolutionsmechanismus, der Wörtern und Brückenthemen zugrunde liegt, von der schrittweisen Mutation, die wahrscheinlich dazu führte, dass sich die HTH4-Domänen der Reaktionsregulatoren zu wH-Falten entwickelten. Wörter und Brückenthemen sind konservierte Proteinfragmente, die entweder mit nicht homologen Segmenten der Proteinstruktur rekombinieren oder diese anhäufen, um unterschiedliche Domänen zu bilden. Im Gegensatz dazu findet der hier vorgeschlagene Fold-Switching-Übergang in einem konservierten Proteinkontext statt. In diesem Fall scheinen schrittweise Mutationen dazu geführt zu haben, dass ein Proteinfragment ohne Rekombination oder Akkretion des Fragments von der α-Helix zum β-Faltblatt wechselte. Wichtig ist, dass Fragmentrekombination, Akkretion und schrittweise Mutation gültige Evolutionsmechanismen sind, die in verschiedenen Situationen auftreten.

Drittens: Obwohl einige Brückenthemen die Faltungen wechseln61, hängt ihr Wechsel wahrscheinlich von ihrem größeren Proteinkontext ab. Das heißt, innerhalb unterschiedlich gefalteter Domänen kann dasselbe Brückenthema auch unterschiedliche Faltungen annehmen. Dies gilt auch für Chamäleonsequenzen62,63, identische Proteinfragmente mit unterschiedlichen Faltungen in unterschiedlichen Proteinkontexten. Im Gegensatz dazu nehmen die homologen Sequenzen in dieser Arbeit innerhalb homologer Proteinkontexte unterschiedliche Strukturen an: Beide Faltungen sind C-terminal zu einer konservierten trihelischen Helix-Turn-Helix39. Es kann nicht genug betont werden, dass der Faltungsschalter, über den wir berichten, verdeckt war: Homologie zwischen den Sequenzen der Faltungsschaltregion konnte ohne den Kontext des restlichen Proteins, einschließlich der N-terminalen Empfängerdomäne, nicht identifiziert werden. Dieser kritische Punkt unterscheidet unsere Ergebnisse von früheren Studien zu Wörtern und Brückenthemen sowie vom Mechanismus der „kreativen Zerstörung“, durch den sich neue Falten durch Fusionen von Genen entwickeln, die unterschiedliche Domänen kodieren64.

Auch wenn es außerhalb des Rahmens dieser Studie liegt, könnten experimentelle Tests der gemeldeten Brückensequenzen und rekonstruierten Vorfahren mechanistische Details des Übergangs von HTH4 zu wH offenbaren. Von besonderem Interesse wäre, ob eine dieser Sequenzen beide Falten bevölkert – wie dies bei anderen Faltungsschaltproteinen beobachtet wurde57,65–. Für die rekonstruierten Vorfahren wäre die strukturelle Umwandlung analog zu Funktionsstudien an rekonstruierten Vorfahren von grün und rot fluoreszierenden Proteinen, die sowohl grünes als auch rotes Licht emittieren66 oder promiskuitiven Glukokortikoidrezeptoren, die aus vorhandenen Rezeptoren mit einzigartigen Bindungsspezifitäten rekonstruiert wurden67. Wie frühere Arbeiten gezeigt haben57,68,69, kann die strukturelle Umwandlung ineinander mit Hilfe der Kernspinresonanzspektroskopie (NMR) beobachtet werden. Tatsächlich identifizierten NMR-Studien des Arc-Repressors70,71 und XCL157 eine Handvoll Schlüsselmutationen, die die Proteinfalten verändern. Dementsprechend wäre es interessant, experimentell minimale Mutationswege zu identifizieren, die HTH4-Sequenzen in wH umwandeln und umgekehrt.

Biophysikalisch basierte Computeransätze können auch Einblicke in den Mechanismus und die Entwicklung von Reaktionsregulatorproteinen mit HTH4- und wH-Domänen liefern. Solche Studien haben erfolgreich Faltungsübergänge zwischen manipulierten Protein-G-Varianten mit einem hohen Maß an Sequenzidentität, aber unterschiedlichen Faltungen vorhergesagt72,73. Andere biophysikalische Modelle oder hybride theoretisch-experimentelle Ansätze können verwendet werden, um die Rolle von Punktmutationen, Multifunktionalität, Selektionsdruck und Epistase bei der Proteinevolution74,75,76 abzuleiten.

Sekundärstrukturwechsel, wie das hier identifizierte Beispiel, könnten in der Evolutionsgeschichte häufiger vorkommen als derzeit angenommen. Unter unseren Ergebnissen wurde durchgängig ein Evolutionsweg von HTH4 zu wH beobachtet, wobei eine Gruppe von „Brückensequenzen“ eine Schlüsselposition im Weg einnahm. Bemerkenswert ist, dass diese Brückensequenzen durch metagenomische Sequenzierungen identifiziert wurden, die hauptsächlich in den Jahren 2018 und 2019 durchgeführt wurden, was die Bedeutung neuer Sequenzierungstechniken und -initiativen für die Weiterentwicklung von Evolutionsstudien zeigt77 und darauf hindeutet, dass jetzt möglicherweise mehr Fälle von weiterentwickeltem Faltungswechsel identifizierbar sind.

Daher schließen wir mit der folgenden Schritt-für-Schritt-Anleitung (Abb. 6), um zukünftige rechnerische Suchen nach weiterentwickeltem Fold Switching zu unterstützen:

Identifizieren Sie Paare homologer Sequenzen mit unterschiedlichen Faltungen. Hier haben wir dies erreicht, indem wir eine Alles-gegen-Alles-Suche der PDB mithilfe von Protein BLAST durchgeführt haben (Abb. 1, Abschnitt „Methoden“). Weitere Fälle von weiterentwickeltem Faltungswechsel können identifiziert werden, wenn mehr Strukturen abgelagert werden. Alternativ könnten anstelle experimentell ermittelter Vorhersagen Strukturmodelle verwendet werden, die durch Vorhersagealgorithmen wie AlphaFold214, ColabFold78, RGN213 oder ESM-fold79 generiert wurden. Diese vorhergesagten Strukturen sind zwar weniger sicher als Experimente, könnten aber nützliche Ausgangspunkte für Sequenzanalysen und anschließende experimentelle Tests bieten. Insbesondere erforderte die erfolgreiche Identifizierung des hier beschriebenen Evolutionswegs, dass die gesamte Proteinsequenz (N-terminale + C-terminale Domänen) durchsucht wurde und nicht nur die faltungsschaltende C-terminale Domäne.

Kreuzvalidieren Sie Ergebnisse anhand homologer Sequenzen mit experimentell bestimmten Strukturen. Hier führten wir Jackhmmer-Suchen aller Antwortregulatorsequenzen mit HTH4- und wH-Domänen durch, deren Strukturen experimentell bestimmt wurden. Wir fanden Anzeichen einer Kreuzfaltenhomologie für alle Sequenzen (Abb. 2). Dieser Ansatz bietet die Gewissheit, dass die in Schritt 1 identifizierte evolutionäre Beziehung beide Proteinfamilien umfasste und nicht ein einzelner zufälliger Treffer war. Ähnliche Analysen könnten an experimentell bestimmten Strukturen mutmaßlich entwickelter Faltungsschalter aus anderen Proteinfamilien durchgeführt werden. Sollten solche Strukturen nicht verfügbar sein, könnten sie mithilfe prädiktiver Algorithmen generiert werden. Wenn viele Vorhersagen getroffen werden müssen, empfehlen wir aufgrund seiner hohen Genauigkeit und überlegenen Leistung die Verwendung von ColabFold78.

Identifizieren und gruppieren Sie Sequenzen, die zu den beiden Faltungsfamilien homolog sind. Identifizieren. Für die FixJ/KdpE-Sequenzen ergaben BLAST-Suchen in der nr-Datenbank >1.000.000 Sequenzen. Wir haben BLAST wegen seiner Effizienz beim Durchsuchen einer so großen Datenbank verwendet, obwohl auch eine empfindlichere und hocheffiziente Methode wie HHBlits80 verwendet werden könnte. Möglicherweise ist eine Kuratierung des Sequenzsatzes (Abschnitt „Methoden“) erforderlich, um anomale Sequenzen zu entfernen. Cluster. Obwohl wir einen benutzerdefinierten Greedy-Clustering-Algorithmus verwendet haben, könnte auch MMSeqs281 verwendet werden. Als nächstes haben wir jeden verbleibenden Cluster einer bestimmten Faltung zugeordnet, indem wir die Sequenzen von FixJPDB und KdpEPDB gegen jeden Cluster BLASTing und berechnet haben, welche Sequenz mehr Übereinstimmungen mit ≥200 Resten und E-Werten ≥ 1e-04 ergab.

Erhalten Sie ein familienübergreifendes Sequenz-Alignment, das Sequenzen mit hohen E-Werten, aber unterschiedlichen Strukturanmerkungen enthält. Für den erfolgreichen Abschluss nachgelagerter Analysen ist dieser „Goldlöckchen“-Schritt von entscheidender Bedeutung: Zu große Alignments können zu nicht interpretierbaren Ergebnissen führen (Abschnitt „Methoden“), aber zu kleine Alignments könnten unbeabsichtigt wichtige evolutionäre Zwischenprodukte auslassen. Für diese Arbeit haben wir das relevante familienübergreifende Alignment extrahiert und konstruiert, indem wir alle Sequenzen aus Clustern, die einer Falte (Fold1) zugeordnet sind, mit allen Sequenzen aus Clustern durchsucht haben, die der anderen Falte (Fold2) zugeordnet sind. Da dieser Prozess Tausende von unabhängigen Suchvorgängen umfasste, wurde aus Effizienzgründen Protein BLAST verwendet. Aus Gründen der Konsistenz sind reziproke Suchen nach Fold2-Übereinstimmungen mit der Fold1-Datenbank erforderlich. Als letzten Validierungsschritt empfiehlt es sich, Sequenzen aus Fold1/Fold2-Clustern zu verwerfen, die in ihren NCBI-Sequenzdatensätzen nicht als Fold1/Fold2 annotiert wurden. Der verbleibende Satz familienübergreifender Sequenzen kann dann mithilfe mehrerer Algorithmen ausgerichtet werden. In diesem Fall haben wir sowohl Clustal Omega48 als auch MUSCLE49 verwendet.

Führen Sie nachgelagerte phylogenetische Analysen durch. Hier führten wir phylogenetische Analysen unseres familienübergreifenden Sequenz-Alignments mit IQ-Tree82 und Consurf83 und der Ahnensequenz-Rekonstruktion mit IQ-Tree durch. Eine familienübergreifende Ausrichtung sollte mit einer Reihe anderer phylogenetischer Analysemethoden kompatibel sein.

1. Fragen Sie eine Sequenz von Interesse (schwarz) anhand der PDB (oder Datenbank vorhergesagter Strukturen) mit einer Runde Protein BLAST (oder Phmmer) ab und suchen Sie nach Treffern mit unterschiedlichen Sekundärstrukturen (gelb). Treffer können auf einen weiterentwickelten Fold-Switching hinweisen. 2. Kreuzvalidieren Sie die Ergebnisse aus Schritt 1, indem Sie empfindlichere Sequenzsuchen (z. B. Jackhmmer) aller homologen Sequenzen mit experimentell bestimmten Strukturen durchführen. Schwarze Sequenzen=Fold1; gelbe Sequenzen=Fold2. Schwarze Regionen von Fold2 haben die gleichen Falten wie Fold1, um die Möglichkeit zu ermöglichen, dass Fold2 eine Protein-Subdomäne ist. 3. Wenn die Kreuzvalidierung erfolgreich ist, finden Sie alle Sequenzen, die zu Fold1 (schwarz) und Fold2 (gelb) homolog sind. Clustersequenzen nach wahrscheinlicher Faltungsfamilie. 4. Erhalten Sie ein familienübergreifendes Sequenz-Alignment, indem Sie alle Sequenzen von Fold1 gegen Fold2 durchsuchen und umgekehrt Fold2-Treffer gegen Fold1 durchsuchen. 5. Verwenden Sie die familienübergreifende Ausrichtung für nachgelagerte Analysen, einschließlich, aber nicht beschränkt auf IQ-Tree, ConSurf und AlphaFold2. Vollständige Beschreibungen der einzelnen Schritte finden Sie im Haupttext.

Um die mutmaßliche evolutionäre Beziehung zwischen FixJPDB und KdpEPDB zu identifizieren, führten wir Protein-BLAST-Suchen mit einem maximalen E-Wert von 1e-04 für alle Sequenzen in der Proteindatenbank (PDB) im Vergleich zu allen anderen PDB-Sequenzen durch 16, 41. Um festzustellen, ob homologe Sequenzen in unterschiedliche Strukturen gefaltet wurden, wurden Sekundärstrukturanmerkungen jeder PDB von DSSP84 im Register mit ihren entsprechenden BLAST-Alignments ausgerichtet und einzeln und Position für Position verglichen. Dieser Ansatz ermöglichte es uns, die Ähnlichkeit ausgerichteter Sekundärstrukturen quantitativ zu bewerten. Eine potenzielle Übereinstimmung musste eine kontinuierliche Region von mindestens 15 Resten aufweisen, in der mindestens 50 % der Reste Unterschiede zwischen α-Helix und β-Faltblatt aufwiesen. Mit diesem Ansatz stimmte die Sequenz von FixJPDB mit der Sequenz von KdpEPDB mit einem E-Wert von 1e-07 überein; Durch DSSP-Vergleich wurden unterschiedliche Sekundärstrukturen in den C-terminalen Ausgabedomänen identifiziert. Nachfolgende Drei-Runden-PSI-BLAST-Suchen von FixJPDB- und KdpEPDB-Sequenzen gegen alle PDB-Sequenzen wurden mit einem Gap-Open-Strafwert von 10 und einem Gap-Extension-Strafwert von 1 durchgeführt. Bei CTD-PSI-BLAST-Suchen überspannten die Sequenzen für FixJPDB und KdpEPDB die Reste 124 –205 bzw. Reste 129–225. Wichtig ist, dass FixJPDB und KdpEPDB von mehreren unabhängigen Annotatoren so definiert wurden, dass sie unterschiedliche Falten haben: Pfam85 (http://pfam.xfam.org): PF00010 (helix-turn-helix), PF02319 (winged helix). ECOD86 (http://prodata.swmed.edu/ecod/) ordnet sie in verschiedene T-Gruppen ein (tetrahelicales HTH und geflügeltes), SCOP10 (https://scop.mrc-lmb.cam.ac.uk): HTH: 8034563 (C-terminale Effektordomäne der Superfamilie der bipartiten Reaktionsregulatoren) Geflügelte Helix: 8075578 (Superfamilie: PhoB-like).

Um die zuvor erhaltenen PSI-BLAST-Ergebnisse zu testen, wurden Jackhmmer-Suchen auch an HTH4- und wH-Sequenzen mit experimentell bestimmten Strukturen durchgeführt. Dementsprechend wurden Strukturen von 23 Reaktionsregulatoren voller Länge mit HTH4- (11) und wH-(12)-Ausgabedomänen aus der Evolutionary Classification of Protein Domains (ECOD)-Datenbank86 identifiziert. Für jede der 23 Sequenzen wurden fünf Jackhmmer-Runden mit Lückenöffnungs-/Erweiterungswahrscheinlichkeiten von 0,05 bzw. 0,5 ausgeführt. Dabei wurde eine Datenbank aller aus der PDB (15.07.2021) heruntergeladenen Sequenzen verwendet und Sequenzduplikate nach der Suche entfernt. Sequenzidentitäten aus jeder Zeile von Abb. 2a wurden aus jedem Sequenz-Alignment berechnet, das durch Jackhmmer-Lauf auf der Sequenz des PDB-Eintrags mit ID-Kennzeichnung jeder jeweiligen Zeile generiert wurde.

DSSP-Anmerkungen wurden im Register mit jedem Jackhmmer-generierten Sequenz-Alignment ausgerichtet, um die Sekundärstrukturdiagramme in Abb. 2b zu erstellen. Im Detail wurden die Sekundärstrukturanmerkungen von jedem der 11 HTH4 mit den Sekundärstrukturanmerkungen von 48 wHs verglichen, die aus ECOD identifiziert wurden; Ebenso wurden Sekundärstrukturanmerkungen von jedem der 12 wHs mit Sekundärstrukturanmerkungen von 35 HTH4s verglichen, die aus ECOD (Supplementary Data 3) identifiziert wurden. Die Ähnlichkeiten jedes Paares ausgerichteter Sekundärstrukturen (46 Paare für jedes der 11 HTH4-Proteine, 30 Paare für jedes der 12 wH-Proteine) wurden wie folgt bewertet: +1 für eine Position mit identischen Sekundärstrukturen (Helix:Helix [H, G,I in DSSP-Notation] oder Strang:Strang [E in DSSP-Notation]) und −1 für eine Position mit alternativen Sekundärstrukturen (Helix:Strang oder Strang:Helix unter Verwendung derselben DSSP-Notation wie oben). Positionsspezifische Bewertungen wurden durch die Häufigkeit von Restpaaren ohne Lücke in jeder Position normalisiert, einschließlich Spulen-Sekundärstruktur-Ausrichtungen, die effektiv mit 0 bewertet wurden. Diese normalisierten positionspezifischen Bewertungen wurden verwendet, um die Farbkarten jedes Sekundärstrukturdiagramms zu erstellen.

Die vollständigen Sequenzen von FixJPDB (PDB-ID 5XSO, Kette A) und KdpEPDB (PDB-ID 4KFC, Kette A) wurden mithilfe von Protein BLAST mit der nr-Datenbank (08.10.2020) mit einem maximalen E-Wert von 1e–04 durchsucht und maximal 500.000 Ausrichtungen pro Suche. Vollständige Sequenzen aus jedem Alignment wurden anhand ihrer NCBI-Zugangscodes mithilfe von „blastdbcmd“ in der nr-Datenbank abgerufen. Alle Sequenzen aus beiden Suchen wurden kombiniert, was nach Entfernung von Sequenzduplikaten insgesamt 999.912 ergab. Sequenzen mit entweder weniger als 162 oder mehr als 300 Resten wurden entfernt, da ihnen wahrscheinlich die richtige Struktur der Antwortregulatordomäne fehlte, sodass 581.791 Sequenzen übrig blieben. Dies waren zu viele, um sie mit Standardtools zu kuratieren, und viele Sequenzidentitäten lagen deutlich unter dem Identitätsschwellenwert von ~40 %, unterhalb dessen viele Alignment-Tools unzuverlässig werden87. Um diese Sequenzen weiter zu analysieren, haben wir daher die in den folgenden Abschnitten beschriebenen Clustering- und Sampling-Methoden durchgeführt.

Aus einem Satz von 581.791 Sequenzen wurde ein Basissatz von 367 Sequenzen – jede mit <24 % paarweiser Identität zu allen anderen Mitgliedern des Satzes – ausgewählt, um die Sequenzclusterung zu starten. Oberhalb dieses Schwellenwerts ist zu erwarten, dass Reaktionsregulatorsequenzen ähnliche Strukturen annehmen52. Um diesen Satz von Startsequenzen zu identifizieren, wurde die erste Sequenz in der Liste von 581.791 Sequenzen (FixJPDB) ausgewählt. Nachfolgende Sequenzen wurden mit der Sequenz von FixJPDB unter Verwendung von Biopython88 pairwise2.align.localxs mit Lückenöffnungs-/Erweiterungsstrafen von –1 bzw. –0,5 abgeglichen. Wenn die paarweise Identität einer Sequenz mit der FixJPDB-Sequenz <24 % ist, wurde sie dem Basissatz hinzugefügt. Die Sequenzen in der Liste wurden mit allen zuvor zum Basissatz hinzugefügten Sequenzen abgeglichen und nur dann einbezogen, wenn die Identitäten aller paarweisen Alignments <24 % betrugen, was insgesamt 367 Basissequenzen ergab. Die verbleibenden 581.424 Sequenzen wurden mit der Basissequenz geclustert, zu der sie die höchste paarweise ausgerichtete Identität aufwiesen. Dies wurde umfassend bestimmt, indem alle Sequenzen mit allen Basissequenzen mithilfe von „pairwise2.align.localxs“ mit den Parametern wie zuvor abgeglichen wurden.

Um die Gesamtzahl der Sequenzen weiter zu reduzieren, haben wir die 251 Cluster mit weniger als 50 Sequenzen außer Acht gelassen. Die verbleibenden 116 Cluster umfassten 103 „mittlere“ Cluster (<5000 Sequenzen) und 13 „große“ Cluster (>4000 Sequenzen). Von den großen Clustern enthielt einer die Sequenz von FixJ (PDB-ID 5XSO) und 283.762 weitere Sequenzen, und ein anderer enthielt die Sequenz von KdpE (PDB-ID 4KFC) und 25.035 weitere Sequenzen.

Die Sequenzen innerhalb jedes Medium-Clusters wurden zunächst mit Clustal Omega48 abgeglichen. Eine visuelle Untersuchung ergab, dass einige Alignments durch Sequenzen beeinflusst wurden, die entweder wesentlich kürzer oder länger als die meisten Homologen in ihrem Cluster waren. Um solche Sequenzen rechnerisch zu identifizieren und herauszufiltern, haben wir (i) „spärliche Zonen“ durch die Suche nach Fenstern mit 8 Positionen identifiziert, in denen mehr als 95 % der Sequenzen Lücken enthielten, und (ii) „besiedelte Zonen“ durch die Suche nach Fenstern mit 10 Positionen wobei mehr als 90 % der Sequenzen Aminosäurereste enthielten. Sequenzen mit (1) ≥10 % ihrer Aminosäuren in spärlichen Zonen oder (2) <10 % ihrer Aminosäuren in besiedelten Zonen wurden aus dem Cluster entfernt. Die Schwellenwerte von 10 % wurden empirisch ermittelt, um diesen „Keulungs“-Schritt am besten durchzuführen. Als nächstes führten wir ~2–7 aufeinanderfolgende Iterationen von Culling und Clustal Omega-Alignments durch, bis die Anzahl der Sequenzen in jedem Cluster konvergierte. Während dieses Prozesses schrumpften 9 mittlere Cluster auf weniger als 50 Sequenzen und wurden anschließend ignoriert, so dass 94 mittlere Cluster übrig blieben.

Da schließlich der globale Alignment-Algorithmus von Clustal Omega die Phylogenie nicht genau angibt oder die Struktur nicht nahelegt, wurden die Mehrfachsequenz-Alignments mithilfe von PROMALS89 weiter ausgerichtet, wobei zunächst Sequenzen basierend auf der Phylogenie gruppiert werden und dann ein lokales Alignment der erkannten Strukturdomänen durchgeführt wird. Die Qualität aller Clusterausrichtungen wurde visuell überprüft.

Die großen Cluster mit Tausenden von Sequenzen erforderten unterschiedliche Strategien, um eine Teilstichprobe zu generieren, die für weitere Sequenzanalysen geeignet war. Um Teilstichprobengrößen zu bestimmen, die die Sequenzzusammensetzung innerhalb von Clustern angemessen widerspiegeln, wurden drei unabhängige, zufällige Teilstichproben mit 1000 und 5000 Sequenzen aus dem FixJ-Cluster und drei 5000 Sequenz-Teilstichproben aus dem KdpE-Cluster extrahiert. Diese Teilproben wurden wie die mittleren Cluster (oben beschrieben) iterativem Culling und Alignment unterzogen.

Als nächstes wurden die Multiple Sequence Alignments (MSAs) dieser Teilproben auf ConSurf83 hochgeladen (https://consurf.tau.ac.il/consurf_index.php). Die resultierenden Ergebnisse wurden verglichen, um zu bestimmen, wie viele Sequenzen erforderlich waren, um konsistente Evolutionsraten zu erhalten. Die Ergebnisse zeigten, dass 5000 Sequenzen für eine angemessene Darstellung der FixJ- und KdpE-Cluster erforderlich waren. Die visuelle Untersuchung von Heatmaps, die aus Sequenzidentitätsmatrizen dieser Sequenzausrichtungen erstellt wurden, stützte die Schlussfolgerung, dass 5000 Sequenzen den Sequenzraum gleichmäßig abtasteten. Um die FixJ- und KdpE-Cluster darzustellen, haben wir daher zufällig einen seiner 5000 Teilproben-Sequenzsätze ausgewählt. Für 8 der 11 großen Cluster mit >5000 Sequenzen haben wir auf ähnliche Weise 5000 Sequenzen unterabgetastet. Die 3 großen Cluster mit <5000 Sequenzen wurden wie für die mittleren Cluster beschrieben kuratiert.

Die hohe Sequenzdiversität zwischen Clustern mit paarweise ausgerichteten Sequenzidentitäten über Cluster hinweg, die oft <24 % beträgt, behinderte den MSA-Zusammenbau der FixJ-KdpE-Superfamilie. Daher suchten wir nach Strategien, um Sequenzen aus den 94 mittleren Clustern, 11 großen Cluster-Unterproben und den 5000 Sequenzen umfassenden Unterproben der großen FixJ- und KdpE-Cluster zu einem kombinierten MSA zusammenzustellen. Zuerst haben wir die Cluster in zwei Halbfamilien klassifiziert, deren Sequenzen denen in den großen FixJ- oder KdpE-Clustern ähneln. Zu diesem Zweck haben wir Sequenzen aus jedem Cluster mit allen Sequenzen aus den großen FixJ- und KdpE-Clustern mit Protein BLAST abgeglichen. Sequenzen aus diesen Clustern stimmten tendenziell mit hoher statistischer Signifikanz mit einem der großen Cluster überein, nicht jedoch mit beiden, was die Clusterklassifizierung vereinfachte. Dieser Ansatz erwies sich als vielversprechend, da Sequenzen aus jedem Cluster mit Sequenzen aus anderen Clustern mit Identitäten von ≥ 38 % abgeglichen wurden, was zuverlässige Alignments förderte. Nach Abschluss aller BLAST-Suchen wurden 45 mittlere und 6 große Cluster der FixJ-Halbfamilie für insgesamt 13.006 Sequenzen und 49 mittlere und 5 große Cluster der KdpE-Halbfamilie für insgesamt 10.785 Sequenzen zugeordnet.

Trotz Probenahme und Kuratierung waren beide Halbfamilien zu groß, um mit herkömmlichen Werkzeugen ein MSA zu erstellen. Daher verwendeten wir einen alternativen Ansatz, bei dem zwei Referenz-Alignments mit Clustal Omega generiert wurden, um repräsentative Sequenzen aus jedem Cluster auszurichten (51 Sequenzen für FixJ und 54 für KdpE). PROMALS wurde dann verwendet, um die beiden Halbfamilien-Referenz-MSAs zu verfeinern. Bei der visuellen Inspektion wurden 7 Sequenzen aus dem KdpE-Referenz-MSA entfernt, da sie viele Lücken im Alignment erzeugten; Ihre Ursprungscluster wurden anschließend ignoriert. Die verbleibenden Sequenzen im KdpE-Referenz-MSA wurden mithilfe von Clustal Omega und PROMALS neu ausgerichtet. Schließlich wurden nach einer visuellen Inspektion die Register der Proline und geladenen Aminosäuren manuell bearbeitet, um in drei Sequenzen (PSQ94266, HBD38673 und KEZ75144) zwischen den Registern 225 und 270 im KdpE-Referenz-MSA übereinzustimmen. Im FixJ MSA war eine solche manuelle Kuration nicht erforderlich. Sequenzen innerhalb jedes der verbleibenden 98 Cluster wurden dann (i) unabhängig mit PROMALS abgeglichen und (ii) mithilfe von MARS (Maintainer of Alignments using Reference Sequences for Proteins90) in die entsprechende Halbfamilien-Referenz-MSA integriert. Das MARS-Programm ermöglicht die Zusammenführung kuratierter Sequenzausrichtungen mit mindestens einer gemeinsamen Sequenz, ohne dass der gesamte Sequenzsatz neu ausgerichtet werden muss. Mit diesem Programm wurden alle Sequenzen der 51 FixJ-passenden Cluster und die kuratierte Teilstichprobe des FixJ-Clusters zusammengeführt, wobei die FixJ-Halbfamilienreferenz MSA als Leitfaden diente. In ähnlicher Weise wurden alle Sequenzen der 47 KdpE-passenden Cluster zusammen mit der kuratierten Teilstichprobe des KdpE-Clusters zusammengeführt.

Die paarweisen Identitäten der Sequenzen über die beiden Halbfamilien hinweg waren zu gering, um zuverlässig eine MSA zu erstellen. Daher haben wir einen „transitiven Homologie“-Ansatz ausprobiert, um die Ausrichtungen der Halbfamilien zu einer Ausrichtung für die Überfamilie zu kombinieren. Zuerst identifizierten wir einen „Pfad“ verwandter Sequenzen91,92 und folgten dabei der Logik, dass, wenn die Sequenzen A und B homolog und die Sequenzen B und C homolog sind, eine Homologie zwischen den Sequenzen A und C über die „Brücken“-Sequenz B angenommen werden kann Um diese Strategie umzusetzen, verwendeten wir Protein BLAST, um nach der höchsten Sequenzidentitätsübereinstimmung zwischen den nicht abgetasteten FixJ- und den großen KdpE-Clustern (dh den Clustern mit >250.000 und >25.000 Sequenzen) zu suchen. Dieser Treffer wurde dann anhand der Datenbank der entgegengesetzten Falte usw. abgefragt, bis wir 7 Sequenzen mit paarweisen Sequenzausrichtungen mit jeweils ≥ 38 % Sequenzidentität identifizierten, die die FixJ-Sequenz mit der KdpE-Sequenz verbanden (Ergänzungstabelle 3). Beachten Sie, dass die „Brücken“-Sequenz TME68356 (Ergänzungstabelle 4) gut mit einer anderen Sequenz in beiden Halbfamilien übereinstimmen könnte, obwohl sie ursprünglich der KdpE-Halbfamilie zugeordnet war. Die oberen/untersten vier Sequenzen in der Ergänzungstabelle 3 wurden mit Clustal Omega mit den FixJ/KdpE-Halbfamilien abgeglichen. Als nächstes verwendeten wir MARS, um Halbfamilienausrichtungen zu kombinieren, wobei wir die Brückensequenz als Referenz verwendeten. Das resultierende MSA für die gesamte Familie enthielt 45.199 Sequenzen. Diese Sequenzen wurden mit CD-HIT auf 85 % Redundanz gefiltert, was letztendlich eine MSA mit 23.791 Sequenzen ergab. Als jedoch in IQ-Tree ein phylogenetischer Baum für diesen Sequenzsatz erstellt wurde, war seine Qualität schlecht (d. h. 140 Lücken/360 Positionen in der KdpEPDB-Sequenz) und konnte nach 3 Runden mit jeweils 1000 Bootstrapping-Iterationen nicht konvergieren.

Der oben identifizierte transitive Homologiepfad (Ergänzungstabelle 3) deutete auf die Existenz zusätzlicher Sequenzen hin, die die HTH4- und wH-Faltungen überbrücken könnten. Dementsprechend wurden die fünf/sechs zuvor zugewiesenen FixJ/KdpE-Sequenzcluster mit >4000 Sequenzen jeweils kombiniert und in zwei BLAST-Datenbanken konvertiert, die HTH4- (FixJ-ähnliche) und wH4- (KdpE-ähnliche) Sequenzen darstellen. Sequenzen innerhalb der kombinierten FixJ-Sequenzcluster wurden wie empfohlen mithilfe von CD-HIT93 mit einer Wortgröße von 2 auf 50 % Redundanz reduziert. Für jede der verbleibenden 4520 Sequenzen wurden Protein-BLAST-Suchen mit einem maximalen E-Wert von 1e–04 unter Verwendung der vollständigen KdpEPDB-Datenbank durchgeführt. Alle 8607 Alignments mit minimalen Sequenzidentitäten und -längen von 33 % bzw. 200 Resten wurden als signifikant angesehen. Um sicherzustellen, dass diese Alignments wirklich HTH4 mit wH-Sequenzen übereinstimmten, wurden NCBI-Datensätze von 1793 HTH4- und 4995 wH-Sequenzen mithilfe von NCBIs Efetch abgerufen. Jeder Datensatz wurde nach strukturellen Anmerkungen zu seiner CTD (HTH oder wH) durchsucht. Letztendlich wurden 3074 BLAST-Übereinstimmungen mit jeweils einem annotierten HTH und einem annotierten wH CTD beibehalten.

Um zusätzliche HTH-Sequenzen zu identifizieren, die möglicherweise mit wH-Sequenzen übereinstimmen, wurden zusätzliche BLAST-Suchen für alle 4 HTH4-Sequenzen in unserem Satz von 3074 Übereinstimmungen durchgeführt, die mit wH-Sequenzen mit einer paarweisen Identität von ≥ 38 % übereinstimmten. Diesmal umfasste die Datenbank alle 581.791 längenbegrenzten Sequenzen, die bei den ersten FixJ- und KdpE-BLAST-Suchen identifiziert wurden. Diese Suchvorgänge, die darauf abzielten, zusätzliche HTH4-Sequenzen unabhängig von ihrer Clusterung zu identifizieren, ergaben 66 mutmaßliche HTH-Sequenzen, die möglicherweise gut mit zusätzlichen wH-Sequenzen übereinstimmen. Schließlich wurden 66 zusätzliche Protein-BLAST-Suchen durchgeführt, indem jede der 66 mutmaßlichen HTH-Sequenzen mit allen Sequenzen aus den 47 zuvor identifizierten KdpE-Matching-Clustern abgefragt wurde. Die resultierenden 62 Übereinstimmungen mit minimalen Sequenzidentitäten und -längen von 33 % und 200 Resten sowie HTH/wH-Anmerkungen aus ihren wie zuvor identifizierten NCBI-Datensätzen wurden einbezogen, was insgesamt 3136 Übereinstimmungen zwischen 3203 Sequenzen ergibt. Als Referenz wurden auch die Sequenzen von FixJPDB und KdpEPDB einbezogen; Diese beiden Sequenzen hatten minimale ausgerichtete Identitäten und Längen von 32 % bzw. 198 zu Sequenzen, die die alternativen Faltungen codieren.

Die resultierenden 3205-Sequenzen wurden auf zwei Arten abgeglichen: mit Clustal Omega und mit MUSCLE49 Version 3 unter Verwendung des super5-Befehls. Spalten mit >75 % Lücken wurden für weitere Analysen mit Geneious Prime 2022.2.2 (https://www.geneious.com) aus beiden Alignments entfernt. Die endgültigen Ausrichtungen zeigten eine vollständige Überlappung zwischen der C-terminalen Helix des HTH4 und dem β-Haarnadelflügel des wH. Nachfolgende phylogenetische Analysen und die Rekonstruktion der Ahnensequenz wurden am Clustal Omega-Alignment durchgeführt.

Eine lokal ausführbare Version von ConSurf, Rate4Site 2.0194 (https://www.tau.ac.il/~itaymay/cp/rate4site.html), wurde auch zur Berechnung der Evolutionsraten für das vollständige Alignment von 3205-Sequenzen verwendet als separate HTH4- und wH-Unterfamilien (664 bzw. 2541 Sequenzen; ergänzende Abbildung 4). Dieses Programm benötigt eine MSA-Datei, um einen phylogenetischen Baum zu berechnen. Wir haben die empirische Bayes'sche Methode zur Generierung der Raten gewählt, was die Genauigkeit der Schätzungen der Erhaltungswerte im Vergleich zur Maximum-Likelihood-Methode94 deutlich verbessert. Die Ergebnisse werden als Noten dargestellt, die von konserviert (9) bis variabel (1) reichen.

Aus dem Alignment mit FastTree95,96 wurde ein phylogenetischer Baum mit maximaler Wahrscheinlichkeit (ML) abgeleitet, wobei die Jones-Taylor-Thorton/JTT97-Modelle der Aminosäureentwicklung und die CAT98-Näherung verwendet wurden, um die unterschiedlichen Entwicklungsraten zwischen den Standorten zu berücksichtigen. Dieser Baum wurde außerdem durch ultraschnelles Bootstrapping (UFBoot99) unterstützt, wie es in IQ-Tree282 implementiert ist. Wir haben ModelFinder100 verwendet, um das am besten angepasste Evolutionsmodell für den MSA zu identifizieren (ausgewähltes Modell – LG + F + R10) und dann die Zweigunterstützung mit 1000 UFBoot-Replikaten bewertet. Der minimale Korrelationskoeffizient für das Konvergenzkriterium wurde auf 0,99 festgelegt. Außerdem wurde ein Konsensbaum erstellt (ergänzende Abbildung 5).

Den von FastTree bzw. IQ-Tree2 generierten ML- und Konsensbäumen fehlten Informationen zur Wurzelplatzierung der geschätzten Phylogenie. Idealerweise werden externe Informationen – etwa eine Fremdgruppe – zum Rooten des Baums verwendet. Allerdings konnten wir keine Fremdgruppe verwenden, da es nicht möglich war, eine einzelne Sequenz außerhalb unseres Alignments zu identifizieren, die zu beiden Faltungen homolog war. Deshalb haben wir das nicht umkehrbare Modell mit einem Maximum-Likelihood-Modell101 kombiniert, um die logarithmische Wahrscheinlichkeit zu berechnen, dass die Bäume auf jedem Ast des Baumes Wurzeln schlagen. Um zuverlässige Ergebnisse zu erhalten, wurde ein Bootstrapping von 10.000 Replikaten durchgeführt. Die Methode gibt eine Liste von 6393 Bäumen zurück, die an jedem Knoten verwurzelt sind und in absteigender Reihenfolge nach Log-Likelihoods sortiert sind, zusammen mit anderen Bewertungen verschiedener Tests, wie folgt: bp-RELL: Bootstrap-Anteil unter Verwendung der RELL-Methode102, p-KH: p-Wert des einseitigen Kishino-Hasegawa-Tests103, p-SH: p-Wert des Shimodaira-Hasegawa-Tests104, c-ELW: Expected Likelihood Weight105 und der p- AU: p-Wert des annähernd unverzerrten (AU) Tests50.

Der AU-Test verwendet eine neu entwickelte Multiskalen-Bootstrapping-Technik, die entwickelt wurde, um Testverzerrungen zu reduzieren und einen zuverlässigen Satz statistisch signifikanter Bäume zu erhalten. Der AU-Test korrigiert wie der SH-Test die Auswahlverzerrung, die bei der Standardverwendung der Bootstrap-Wahrscheinlichkeits- und KH-Tests übersehen wird. Es beseitigt auch Verzerrungen, die durch den SH-Test50 entstehen können. Insgesamt hat sich gezeigt, dass der AU-Test in typischen Fällen der Baumauswahl weniger verzerrt ist als andere Methoden und wird für allgemeine Auswahlprobleme empfohlen50. Daher haben wir uns auf p-AU (p-Werte von AU) verlassen, um eine Liste der 18 am wahrscheinlichsten verwurzelten Bäume mit p-AU > 0,8 zu erhalten.

Die Rekonstruktion der Ahnensequenz wurde mithilfe von Maximum-Likelihood-Methoden durchgeführt, die in IQ-Tree2 implementiert sind und den in Yang et al.106 beschriebenen Algorithmus verwenden. Ahnensequenzen wurden für alle Knoten des Konsensbaums (ergänzende Abbildung 5) unter Verwendung der empirischen Bayes'schen Methode bestimmt. Posterior-Wahrscheinlichkeiten werden für jeden Zustand (Aminosäure) an jedem Knoten angegeben. Wir haben die Knoten in drei Schritten bewertet. Zuerst haben wir die durchschnittliche Wahrscheinlichkeit unter Berücksichtigung aller zugewiesenen Zustände am Knoten berechnet. Anschließend haben wir die Zustände durch die Aminosäuren in der Brückensequenz (TME68356.1) ersetzt und den gesamten p-Wert berechnet. Schließlich wird die paarweise Sequenzidentität zwischen der Ahnensequenz und der Brückensequenz berechnet. Unter Verwendung aller drei Kriterien haben wir 6 rekonstruierte Sequenzen mit niedrigen p-Werten in der Nähe der Brückensequenzen identifiziert. Diese Sequenzen wurden für die nachgelagerte Analyse und Modellbildung verwendet.

Die FASTA-Sequenzen der 6 rekonstruierten Vorfahren wurden zusammen mit den 12 Brückensequenzen als Eingabe für den vollständigen Aufbau des AlphaFold2.114-Strukturvorhersagemodells verwendet. MSAs wurden durch das Standardverfahren der Kombination von Sequenzsuchen in den Datenbanken BFD, MGnify und Uniref generiert. Vorhersagen wurden mithilfe von Vorlagen mit einem maximalen Datum vom 20.04.2022 erstellt. Strukturen mit Rang 0 wurden in Abb. 4 und S9 dargestellt. Um die Plausibilität der AF2-generierten Strukturen für die rekonstruierten Vorfahren- und Brückensequenzen zu testen, haben wir kürzlich veröffentlichte AF2-Vorhersagen für 338 HTH4- und 937 wH-Sequenzen untersucht107. Die AF2-Vorhersagen stimmten in jedem Fall mit den genomischen Annotationen überein. Die Vorhersagequalitäten waren unterschiedlich: Von 1275 vorhergesagten Strukturen wurden 29 % mit hohem Vertrauen vorhergesagt, 58 % hatten mäßiges Vertrauen und die restlichen 13 % hatten niedriges Vertrauen.

Die einzigartigen Nukleotidkontakte zwischen den Reaktionsregulatoren und ihren entsprechenden DNA-Sequenzen wurden mit Resmap108 identifiziert, einem Tool, das die Atomkoordinaten aus PDB-Dateien verwendet, um intraatomare Abstände für nichtkovalente Wechselwirkungen unter festgelegten Schwellenwerten zu berechnen. Die standardmäßigen Abstandsschwellenwerte für verschiedene Wechselwirkungstypen, die verwendet wurden, sind: (1) Wasserstoffbrückenbindungen – ≤3,5 Å, (2) Hydrophobe Wechselwirkungen – ≤4,5 Å, (3) Aromatische Wechselwirkungen – ≤4,5 Å, (4) Destabilisierende Kontakte – ≤ 3,5 Å, (5) Ionenpaare – ≤5,0 Å, (6) Andere Kontakte (einschließlich Van-der-Waals-Wechselwirkungen) – ≤3,5 Å. Da sich die Nomenklatur für DNA-Atome seit der Entwicklung von Resmap geändert hat, wurden die PDB-Dateien manuell bearbeitet, um sie mit den folgenden Änderungen an das Eingabeformat von Resmap anzupassen: (1) Symbolersetzungen von ' durch *, (2) die Nukleotidatome (A,C ,G oder T) wurden mit dem Präfix „D“ (DA, DC, DG, DT) angehängt, (3) den bearbeiteten Nukleotidatomen wurden auch eindeutige Atomidentifikationsnummern zugewiesen. Die PDB-Dateien mit diesen Änderungen wurden dann in Resmap eingegeben, um eindeutige Kontakte zwischen Atomen in den Proteinketten und Atomen in DNA-Ketten zu identifizieren.

Proteinzahlen wurden in PyMOL (The PyMOL Molecular Graphics System, Version 2.0 Schrödinger, LLC) (https://pymol.org/2/) generiert, Diagramme und Heatmaps in Matplotlib109 (https://matplotlib.org/stable/index). html) und seaborn110 (https://seaborn.pydata.org/). Phylogenetische Bäume wurden mit ggtree (https://guangchuangyu.github.io/ggtree-book/chapter-ggtree.html) visualisiert, das als R-Paket implementiert wurde111.

Weitere Informationen zum Forschungsdesign finden Sie in der mit diesem Artikel verlinkten Nature Portfolio Reporting Summary.

Die in dieser Studie generierten Daten, einschließlich Sequenzausrichtungen und -clustern, phylogenetischer Analysen und AlphaFold2-Modelle, wurden in der Zenodo-Datenbank unter dem Zugangscode https://doi.org/10.5281/zenodo.7837636 hinterlegt. Die in dieser Studie generierten unterstützenden Daten sind in den Zusatzinformationen und der Quelldatendatei enthalten. Die in dieser Studie verwendeten Strukturdaten sind in der Protein Data Bank (PDB) unter dem Zugangscode 5XSO, [https://doi.org/10.2210/pdb5SXO/pdb], Kette A (FixJPDB) 4KFC, [https:// doi.org/10.2210/pdb4KFC/pdb], Kette A (KdpEPDB), 1H0M [https://doi.org/10.2210/pdb1H0M/pdb], Kette D und 4HF1 [https://doi.org/10.2210/ pdb4HF1/pdb], Kette A. Die in dieser Studie verwendeten Strukturklassifikationen sind bei ECOD (http://prodata.swmed.edu/ecod/), SCOP (https://scop.mrc-lmb.cam.ac) verfügbar .uk) und Pfam (https://www.ebi.ac.uk/interpro/) Datenbanken. Quelldaten werden mit diesem Dokument bereitgestellt.

Der zur Generierung der in diesem Manuskript berichteten Ergebnisse verwendete Code ist verfügbar unter: https://doi.org/10.5281/zenodo.7837636 und https://github.com/ncbi/FixJ_KdpE.

Anfinsen, CB Prinzipien, die die Faltung von Proteinketten steuern. Wissenschaft 181, 223–230 (1973).

Artikel ADS CAS PubMed Google Scholar

Meinhardt, S., Manley, MW Jr., Parente, DJ & Swint-Kruse, L. Rheostate und Kippschalter zur Modulation der Proteinfunktion. PLoS ONE 8, e83502 (2013).

Artikel ADS PubMed PubMed Central Google Scholar

Markin, CJ et al. Aufdeckung der funktionellen Architektur von Enzymen durch mikrofluidische Enzymkinetik mit hohem Durchsatz. Wissenschaft https://doi.org/10.1126/science.abf8761 (2021).

Cole-Strauss, A. et al. Korrektur der Mutation, die für die Sichelzellenanämie verantwortlich ist, durch ein RNA-DNA-Oligonukleotid. Science 273, 1386–1389 (1996).

Artikel ADS CAS PubMed Google Scholar

Morral, N. et al. Der Ursprung der großen Mukoviszidose-Mutation (Delta F508) in europäischen Populationen. Nat. Genet. 7, 169–175 (1994).

Artikel CAS PubMed Google Scholar

Muller, PA & Vousden, KH p53-Mutationen bei Krebs. Nat. Zellbiol. 15, 2–8 (2013).

Artikel CAS PubMed Google Scholar

Bai, Y. & Englander, SW Zukünftige Richtungen in der Faltung: die Mehrzustandsnatur der Proteinstruktur. Proteins 24, 145–151 (1996).

3.0.CO;2-I" data-track-action="article reference" href="https://doi.org/10.1002%2F%28SICI%291097-0134%28199602%2924%3A2%3C145%3A%3AAID-PROT1%3E3.0.CO%3B2-I" aria-label="Article reference 7" data-doi="10.1002/(SICI)1097-0134(199602)24:23.0.CO;2-I">Artikel CAS PubMed Google Scholar

Jackson, SE & Fersht, AR Faltung des Chymotrypsin-Inhibitors 2. 1. Hinweise auf einen Übergang in zwei Zustände. Biochemistry 30, 10428–10435 (1991).

Artikel CAS PubMed Google Scholar

Orengo, CA, Pearl, FM & Thornton, JM Die CATH-Domänenstrukturdatenbank. Methoden Biochem. Anal. 44, 249–271 (2003).

CAS PubMed Google Scholar

Andreeva, A. et al. Datenwachstum und seine Auswirkungen auf die SCOP-Datenbank: neue Entwicklungen. Nukleinsäuren Res. 36, D419–D425 (2008).

Artikel CAS PubMed Google Scholar

Greene, LH et al. Die CATH-Domänenstrukturdatenbank: Neue Protokolle und Klassifizierungsebenen bieten eine umfassendere Ressource für die Erforschung der Evolution. Nukleinsäuren Res. 35, D291–D297 (2007).

Artikel CAS PubMed Google Scholar

Baek, M. et al. Genaue Vorhersage von Proteinstrukturen und -interaktionen mithilfe eines dreispurigen neuronalen Netzwerks. Wissenschaft 373, 871–876 (2021).

Artikel ADS CAS PubMed PubMed Central Google Scholar

Chowdhury, R. et al. Vorhersage der Proteinstruktur einzelner Sequenzen mithilfe eines Sprachmodells und Deep Learning. Nat. Biotechnologie. https://doi.org/10.1038/s41587-022-01432-w (2022).

Jumper, J. et al. Hochpräzise Vorhersage der Proteinstruktur mit AlphaFold. Natur 596, 583–589 (2021).

Artikel ADS CAS PubMed PubMed Central Google Scholar

Dishman, AF & Volkman, BF enthüllen die Geheimnisse der Proteinmetamorphose. ACS Chem. Biol. 13, 1438–1446 (2018).

Artikel CAS PubMed PubMed Central Google Scholar

Porter, LL & Looger, LL Vorhandene faltschaltbare Proteine ​​sind weit verbreitet. Proz. Natl Acad. Wissenschaft. USA 115, 5968–5973 (2018).

Artikel ADS CAS PubMed PubMed Central Google Scholar

Lei, X. et al. Die Krebsmutation D83V induziert in MEF2B einen Konformationswechsel von der Alpha-Helix zum Beta-Strang. J. Mol. Biol. 430, 1157–1172 (2018).

Artikel CAS PubMed Google Scholar

Chang, YG et al. Tagesrhythmus. Ein Proteinfaltenschalter verbindet den zirkadianen Oszillator mit der Taktausgabe in Cyanobakterien. Wissenschaft 349, 324–328 (2015).

Artikel ADS CAS PubMed PubMed Central Google Scholar

Alexander, PA, He, Y., Chen, Y., Orban, J. & Bryan, PN Ein minimaler Sequenzcode zum Schalten der Proteinstruktur und -funktion. Proz. Natl Acad. Wissenschaft. USA 106, 21149–21154 (2009).

Artikel ADS CAS PubMed PubMed Central Google Scholar

He, Y., Chen, Y., Alexander, PA, Bryan, PN & Orban, J. Mutationskipppunkte für die Änderung von Proteinfalten und -funktionen. Struktur 20, 283–291 (2012).

Artikel CAS PubMed PubMed Central Google Scholar

Porter, LL, He, Y., Chen, Y., Orban, J. & Bryan, PN Subdomäneninteraktionen fördern das Design von zwei Proteinpaaren mit etwa 80 % Sequenzidentität, aber unterschiedlichen Faltungen. Biophys. J. 108, 154–162 (2015).

Artikel ADS CAS PubMed PubMed Central Google Scholar

Ruan, B. et al. Design und Charakterisierung eines Proteinfaltungsnetzwerks. Nat. Komm. 14, 431 (2023).

Artikel ADS CAS PubMed PubMed Central Google Scholar

Solomon, TL et al. Reversibles Umschalten zwischen zwei gemeinsamen Proteinfaltungen in einem entworfenen System, das nur die Temperatur nutzt. Proz. Natl Acad. Wissenschaft. USA 120, e2215418120 (2023).

Artikel CAS PubMed Google Scholar

Alvarez-Carreno, C., Penev, PI, Petrov, AS & Williams, LD Fold Evolution vor LUCA: Gemeinsame Abstammung von SH3-Domänen und OB-Domänen. Mol. Biol. Entwicklung 38, 5134–5143 (2021).

Artikel CAS PubMed PubMed Central Google Scholar

Farias-Rico, JA, Schmidt, S. & Hocker, B. Evolutionäre Beziehung zweier alter Protein-Superfalten. Nat. Chem. Biol. 10, 710–715 (2014).

Artikel CAS PubMed Google Scholar

Kumirov, VK et al. Mehrstufige Mutationstransformation einer Proteinfalte durch strukturelle Zwischenprodukte. Proteinwissenschaft. 27, 1767–1779 (2018).

Artikel CAS PubMed PubMed Central Google Scholar

Newlove, T., Konieczka, JH & Cordes, MH Sekundärstrukturwechsel in der Evolution von Cro-Proteinen. Struktur 12, 569–581 (2004).

Artikel CAS PubMed Google Scholar

Roessler, CG et al. Transitive homologiegesteuerte Strukturstudien führten zur Entdeckung von Cro-Proteinen mit 40 % Sequenzidentität, aber unterschiedlichen Faltungen. Proz. Natl Acad. Wissenschaft. USA 105, 2343–2348 (2008).

Artikel ADS CAS PubMed PubMed Central Google Scholar

O'Leary, NA et al. Referenzsequenzdatenbank (RefSeq) am NCBI: aktueller Status, taxonomische Erweiterung und funktionale Annotation. Nukleinsäuren Res. 44, D733–D745 (2016).

Artikel PubMed Google Scholar

Berman, HM et al. Die Proteindatenbank. Acta Crystallogr. D Biol. Kristalllogr. 58, 899–907 (2002).

Artikel PubMed Google Scholar

Burley, SK et al. Proteindatenbank (PDB): das einzige globale makromolekulare Strukturarchiv. Methoden Mol. Biol. 1607, 627–641 (2017).

Artikel CAS PubMed PubMed Central Google Scholar

Koretke, KK, Lupas, AN, Warren, PV, Rosenberg, M. & Brown, JR Evolution der Zweikomponenten-Signaltransduktion. Mol. Biol. Entwicklung 17, 1956–1970 (2000).

Artikel CAS PubMed Google Scholar

Stock, AM, Mottonen, JM, Stock, JB & Schutt, CE Dreidimensionale Struktur von CheY, dem Reaktionsregulator der bakteriellen Chemotaxis. Nature 337, 745–749 (1989).

Artikel ADS CAS PubMed Google Scholar

Leonard, PG, Golemi-Kotra, D. & Stock, AM Phosphorylierungsabhängige Konformationsänderungen und Domänenumlagerungen bei der Aktivierung von Staphylococcus aureus VraR. Proz. Natl Acad. Wissenschaft. USA 110, 8525–8530 (2013).

Artikel ADS CAS PubMed PubMed Central Google Scholar

Wright, GSA et al. Architektur des vollständigen Zweikomponenten-Signalübertragungssystems FixL-FixJ zur Sauerstoffmessung. Wissenschaft. Signal. https://doi.org/10.1126/scisignal.aaq0825 (2018).

Gao, R., Mack, TR & Stock, AM Bakterielle Reaktionsregulatoren: vielseitige Regulierungsstrategien aus gemeinsamen Bereichen. Trends Biochem. Wissenschaft. 32, 225–234 (2007).

Artikel CAS PubMed PubMed Central Google Scholar

Galperin, MY Vielfalt der Struktur und Funktion der Ausgabedomänen des Reaktionsregulators. Curr. Meinung. Mikrobiol. 13, 150–159 (2010).

Artikel CAS PubMed PubMed Central Google Scholar

Galperin, MY Strukturelle Klassifizierung bakterieller Reaktionsregulatoren: Vielfalt der Ausgabedomänen und Domänenkombinationen. J. Bakteriol. 188, 4169–4182 (2006).

Artikel CAS PubMed PubMed Central Google Scholar

Aravind, L., Anantharaman, V., Balaji, S., Babu, MM & Iyer, LM Die vielen Gesichter der Helix-Turn-Helix-Domäne: Transkriptionsregulation und darüber hinaus. FEMS Mikrobiol. Rev. 29, 231–262 (2005).

Artikel CAS PubMed Google Scholar

Altschul, SF et al. Gapped BLAST und PSI-BLAST: eine neue Generation von Proteindatenbank-Suchprogrammen. Nukleinsäuren Res. 25, 3389–3402 (1997).

Artikel CAS PubMed PubMed Central Google Scholar

Kim, AK, Looger, LL & Porter, LL Eine Hochdurchsatz-Vorhersagemethode für sequenzähnliche Faltwechsler. Biopolymere https://doi.org/10.1002/bip.23416 (2021).

Porter, LL et al. Viele unterschiedliche NusG-Proteindomänen wechseln zwischen Alpha-Helix- und Beta-Faltblatt-Faltungen. Nat. Komm. 13, 3802 (2022).

Artikel ADS CAS PubMed PubMed Central Google Scholar

Wang, B., Gumerov, VM, Andrianova, EP, Zhulin, IB & Artsimovitch, I. Ursprünge und molekulare Entwicklung des NusG-Paralogs RfaH. mBio https://doi.org/10.1128/mBio.02717-20 (2020).

Kerfeld, CA & Scott, KM Verwendung von BLAST zur Vermittlung von „E-Wert-ionären“ Konzepten. PLoS Biol. 9, e1001014 (2011).

Artikel CAS PubMed PubMed Central Google Scholar

Gonzalez, MW & Pearson, WR Homologe Überdehnung: eine Herausforderung für iterative Ähnlichkeitssuchen. Nukleinsäuren Res. 38, 2177–2189 (2010).

Artikel CAS PubMed PubMed Central Google Scholar

Belogurov, GA et al. Strukturelle Grundlage für die Umwandlung eines allgemeinen Transkriptionsfaktors in einen operonspezifischen Virulenzregulator. Mol. Zelle 26, 117–129 (2007).

Artikel CAS PubMed PubMed Central Google Scholar

Eddy, SR Eine neue Generation von Homologiesuchwerkzeugen basierend auf probabilistischer Inferenz. Genom-Inf. 23, 205–211 (2009).

Google Scholar

Sievers, F. et al. Schnelle, skalierbare Generierung hochwertiger Protein-Mehrfachsequenz-Alignments mit Clustal Omega. Mol. Syst. Biol. 7, 539 (2011).

Artikel PubMed PubMed Central Google Scholar

Edgar, RC MUSCLE: Mehrfachsequenz-Alignment mit hoher Genauigkeit und hohem Durchsatz. Nukleinsäuren Res. 32, 1792–1797 (2004).

Artikel CAS PubMed PubMed Central Google Scholar

Shimodaira, H. Ein annähernd unvoreingenommener Test der phylogenetischen Baumauswahl. Syst. Biol. 51, 492–508 (2002).

Artikel PubMed Google Scholar

Chakravarty, D. & Porter, LL AlphaFold2 kann den Proteinfaltungswechsel nicht vorhersagen. Proteinwissenschaft. 31, e4353 (2022).

Artikel CAS PubMed Google Scholar

Rost, B. Dämmerungszone von Proteinsequenz-Alignments. Protein Eng. 12, 85–94 (1999).

Artikel CAS PubMed Google Scholar

Bateman, A. et al. Die Datenbank der Pfam-Proteinfamilien. Nukleinsäuren Res. 32, D138–D141 (2004).

Artikel CAS PubMed PubMed Central Google Scholar

Liberles, DA et al. Die Schnittstelle zwischen Proteinstruktur, Proteinbiophysik und molekularer Evolution. Proteinwissenschaft. 21, 769–785 (2012).

Artikel CAS PubMed PubMed Central Google Scholar

Yadid, I., Kirshenbaum, N., Sharon, M., Dym, O. & Tawfik, DS Metamorphe Proteine ​​vermitteln evolutionäre Strukturübergänge. Proz. Natl Acad. Wissenschaft. USA 107, 7287–7292 (2010).

Artikel ADS CAS PubMed PubMed Central Google Scholar

Alexander, PA, He, Y., Chen, Y., Orban, J. & Bryan, PN Das Design und die Charakterisierung von zwei Proteinen mit 88 % Sequenzidentität, aber unterschiedlicher Struktur und Funktion. Proz. Natl Acad. Wissenschaft. USA 104, 11963–11968 (2007).

Artikel ADS CAS PubMed PubMed Central Google Scholar

Dishman, AF et al. Evolution des Faltungswechsels in einem metamorphen Protein. Wissenschaft 371, 86–90 (2021).

Artikel ADS CAS PubMed PubMed Central Google Scholar

Alva, V., Soding, J. & Lupas, AN Ein Vokabular alter Peptide am Ursprung gefalteter Proteine. Elife 4, e09410 (2015).

Artikel PubMed PubMed Central Google Scholar

Kolodny, R., Nepomnyachiy, S., Tawfik, DS & Ben-Tal, N. Brückenthemen: kurze Proteinsegmente in verschiedenen Architekturen. Mol. Biol. Entwicklung 38, 2191–2208 (2021).

Artikel CAS PubMed PubMed Central Google Scholar

Nepomnyachiy, S., Ben-Tal, N. & Kolodny, R. Komplexe evolutionäre Fußabdrücke, die in einer Analyse wiederverwendeter Proteinsegmente unterschiedlicher Länge aufgedeckt wurden. Proz. Natl Acad. Wissenschaft. USA 114, 11703–11708 (2017).

Artikel ADS CAS PubMed PubMed Central Google Scholar

Qiu, K., Ben-Tal, N. & Kolodny, R. Ähnliche Proteinsegmente, die zwischen Domänen verschiedener Evolutionslinien geteilt werden. Proteinwissenschaft. 31, e4407 (2022).

Artikel CAS PubMed PubMed Central Google Scholar

Li, W., Kinch, LN, Karplus, PA & Grishin, NV ChSeq: eine Datenbank mit Chamäleonsequenzen. Proteinwissenschaft. Rev. 24, 1075–1086 (2015).

Artikel CAS PubMed PubMed Central Google Scholar

Minor, DL Jr. & Kim, PS Kontextabhängige Sekundärstrukturbildung einer entworfenen Proteinsequenz. Nature 380, 730–734 (1996).

Artikel ADS CAS PubMed Google Scholar

Alvarez-Carreno, C., Gupta, RJ, Petrov, AS & Williams, LD Kreative Zerstörung: Neues Protein faltet sich aus altem. Proz. Natl Acad. Wissenschaft. USA 119, e2207897119 (2022).

Artikel CAS PubMed PubMed Central Google Scholar

Liebau, J. et al. Enthüllung der Aktivierungsdynamik einer bakteriellen Glykosyltransferase mit Faltschalter durch (19)F-NMR. J. Biol. Chem. 295, 9868–9878 (2020).

Artikel CAS PubMed PubMed Central Google Scholar

Ugalde, JA, Chang, BS & Matz, MV Evolution von Korallenpigmenten nachgebildet. Wissenschaft 305, 1433 (2004).

Artikel CAS PubMed Google Scholar

Harms, MJ & Thornton, JW Historische Kontingenz und ihre biophysikalische Grundlage in der Evolution des Glukokortikoidrezeptors. Natur 512, 203–207 (2014).

Artikel ADS CAS PubMed PubMed Central Google Scholar

Tuinstra, RL et al. Umwandlung zwischen zwei nicht verwandten Proteinfalten im nativen Lymphotactin-Zustand. Proz. Natl Acad. Wissenschaft. USA 105, 5057–5062 (2008).

Artikel ADS CAS PubMed PubMed Central Google Scholar

Chakravarty, D., Schafer, JW & Porter, LL Unterscheidungsmerkmale faltungsschaltender Proteine. Proteinwissenschaft. 32, e4596 (2023).

Artikel CAS PubMed Google Scholar

Cordes, MH, Burton, RE, Walsh, NP, McKnight, CJ & Sauer, RT Eine evolutionäre Brücke zu einer neuen Proteinfaltung. Nat. Struktur. Biol. 7, 1129–1132 (2000).

Artikel CAS PubMed Google Scholar

Cordes, MH, Walsh, NP, McKnight, CJ & Sauer, RT Evolution einer Proteinfaltung in vitro. Science 284, 325–328 (1999).

Artikel ADS CAS PubMed Google Scholar

Sikosek, T., Krobath, H. & Chan, HS Theoretische Einblicke in die Biophysik der Proteinbistabilität und evolutionären Schalter. PLoS Comput. Biol. 12, e1004960 (2016).

Artikel ADS PubMed PubMed Central Google Scholar

Tian, ​​P. & Best, RB Erkundung der Sequenzfitnesslandschaft einer Brücke zwischen zwei Proteinfalten. PLoS Comput. Biol. 16, e1008285 (2020).

Artikel ADS CAS PubMed PubMed Central Google Scholar

Sikosek, T. & Chan, HS Biophysik der Proteinevolution und evolutionäre Proteinbiophysik. JR Soc. Schnittstelle 11, 20140419 (2014).

Artikel PubMed PubMed Central Google Scholar

Sikosek, T., Chan, HS & Bornberg-Bauer, E. Die Flucht vor adaptiven Konflikten erfolgt durch schwache funktionale Kompromisse und Mutationsrobustheit. Proz. Natl Acad. Wissenschaft. USA 109, 14888–14893 (2012).

Artikel ADS CAS PubMed PubMed Central Google Scholar

Morrison, AJ, Wonderlick, DR & Harms, MJ Ensemble-Epistase: thermodynamische Ursprünge der Nichtadditivität zwischen Mutationen. Genetik 219, iyab105 (2021).

Artikel PubMed PubMed Central Google Scholar

Ovchinnikov, S. et al. Bestimmung der Proteinstruktur anhand von Metagenomsequenzdaten. Wissenschaft 355, 294–298 (2017).

Artikel ADS CAS PubMed PubMed Central Google Scholar

Mirdita, M. et al. ColabFold: Proteinfaltung für alle zugänglich machen. Nat. Methoden 19, 679–682 (2022).

Artikel CAS PubMed PubMed Central Google Scholar

Rao, R., Meier, J., Sercu, T., Ovchinnikov, S. & Rives, A. Transformer-Protein-Sprachmodelle sind unbeaufsichtigte Strukturlerner. bioRxiv https://doi.org/10.1101/2020.12.15.422761 (2020).

Remmert, M., Biegert, A., Hauser, A. & Soding, J. HHblits: Blitzschnelle iterative Proteinsequenzsuche durch HMM-HMM-Alignment. Nat. Methoden 9, 173–175 (2011).

Artikel PubMed Google Scholar

Steinegger, M. & Soding, J. MMseqs2 ermöglicht die Suche nach sensiblen Proteinsequenzen für die Analyse umfangreicher Datensätze. Nat. Biotechnologie. 35, 1026–1028 (2017).

Artikel CAS PubMed Google Scholar

Nguyen, LT, Schmidt, HA, von Haeseler, A. & Minh, BQ IQ-TREE: ein schneller und effektiver stochastischer Algorithmus zur Schätzung von Maximum-Likelihood-Phylogenien. Mol. Biol. Entwicklung 32, 268–274 (2015).

Artikel CAS PubMed Google Scholar

Ashkenazy, H. et al. ConSurf 2016: eine verbesserte Methodik zur Schätzung und Visualisierung der evolutionären Erhaltung in Makromolekülen. Nukleinsäuren Res. 44, W344–W350 (2016).

Artikel CAS PubMed PubMed Central Google Scholar

Kabsch, W. & Sander, C. Wörterbuch der Proteinsekundärstruktur: Mustererkennung von wasserstoffgebundenen und geometrischen Merkmalen. Biopolymers 22, 2577–2637 (1983).

Artikel CAS PubMed Google Scholar

Mistry, J. et al. Pfam: Die Proteinfamilien-Datenbank im Jahr 2021. Nucleic Acids Res. 49, D412–D419 (2021).

Artikel CAS PubMed Google Scholar

Cheng, H. et al. ECOD: eine evolutionäre Klassifizierung von Proteindomänen. PLoS Comput. Biol. 10, e1003926 (2014).

Artikel PubMed PubMed Central Google Scholar

Wang, Y., Wu, H. & Cai, Y. Eine Benchmark-Studie zu Sequenz-Alignment-Methoden für die Proteinclusterung. BMC Bioinform. 19, 529 (2018).

Artikel CAS Google Scholar

Cock, PJ et al. Biopython: frei verfügbare Python-Tools für computergestützte Molekularbiologie und Bioinformatik. Bioinformatik 25, 1422–1423 (2009).

Artikel CAS PubMed PubMed Central Google Scholar

Pei, J. & Grishin, NV PROMALS: Auf dem Weg zu präzisen Mehrfachsequenz-Alignments entfernt verwandter Proteine. Bioinformatik 23, 802–808 (2007).

Artikel CAS PubMed Google Scholar

Parente, DJ, Ray, JCJ & Swint-Kruse, L. Aminosäurepositionen, die mehreren koevolutionären Einschränkungen unterliegen, können anhand ihrer Eigenvektor-Netzwerkzentralitätswerte zuverlässig identifiziert werden. Proteine ​​83, 2293–2306 (2015).

Artikel CAS PubMed PubMed Central Google Scholar

Bolten, E., Schliep, A., Schneckener, S., Schomburg, D. & Schrader, R. Clustering von Proteinsequenzen – Strukturvorhersage durch transitive Homologie. Bioinformatik 17, 935–941 (2001).

Artikel CAS PubMed MATH Google Scholar

Gerstein, M. Messung der Wirksamkeit des transitiven Sequenzvergleichs durch eine dritte „Zwischen“-Sequenz. Bioinformatik 14, 707–714 (1998).

Artikel CAS PubMed Google Scholar

Fu, L., Niu, B., Zhu, Z., Wu, S. & Li, W. CD-HIT: beschleunigt für die Clusterung der Sequenzierungsdaten der nächsten Generation. Bioinformatik 28, 3150–3152 (2012).

Artikel CAS PubMed PubMed Central Google Scholar

Mayrose, I., Graur, D., Ben-Tal, N. & Pupko, T. Vergleich ortsspezifischer Rateninferenzmethoden für Proteinsequenzen: empirische Bayes'sche Methoden sind überlegen. Mol. Biol. Entwicklung 21, 1781–1791 (2004).

Artikel CAS PubMed Google Scholar

Price, MN, Dehal, PS & Arkin, AP FastTree: Berechnung großer Bäume mit minimaler Evolution mit Profilen anstelle einer Distanzmatrix. Mol. Biol. Entwicklung 26, 1641–1650 (2009).

Artikel CAS PubMed PubMed Central Google Scholar

Price, MN, Dehal, PS & Arkin, AP FastTree 2 – ungefähr Maximum-Likelihood-Bäume für große Ausrichtungen. PLoS ONE 5, e9490 (2010).

Artikel ADS PubMed PubMed Central Google Scholar

Jones, DT, Taylor, WR & Thornton, JM Die schnelle Generierung von Mutationsdatenmatrizen aus Proteinsequenzen. Berechnen. Appl. Biowissenschaften. 8, 275–282 (1992).

CAS PubMed Google Scholar

Stamatakis, A. In Proceedings 20. IEEE International Parallel & Distributed Processing Symposium. P. 8 (2006).

Hoang, DT, Chernomor, O., von Haeseler, A., Minh, BQ & Vinh, LS UFBoot2: Verbesserung der ultraschnellen Bootstrap-Näherung. Mol. Biol. Entwicklung 35, 518–522 (2018).

Artikel CAS PubMed Google Scholar

Kalyaanamoorthy, S., Minh, BQ, Wong, TKF, von Haeseler, A. & Jermiin, LS ModelFinder: schnelle Modellauswahl für genaue phylogenetische Schätzungen. Nat. Methoden 14, 587–589 (2017).

Artikel CAS PubMed PubMed Central Google Scholar

Naser-Khdour, S., Quang Minh, B. & Lanfear, R. Bewertung des Vertrauens in die Wurzelplatzierung in Phylogenien: eine empirische Studie mit nicht reversiblen Modellen für Säugetiere. Syst. Biol. 71, 959–972 (2022).

Artikel CAS PubMed Google Scholar

Kishino, H., Miyata, T. & Hasegawa, M. Maximum-Likelihood-Schlussfolgerung der Proteinphylogenie und des Ursprungs von Chloroplasten. J. Mol. Entwicklung 31, 151–160 (1990).

Artikel ADS CAS Google Scholar

Kishino, H. & Hasegawa, M. Auswertung der Maximum-Likelihood-Schätzung der evolutionären Baumtopologien aus DNA-Sequenzdaten und der Verzweigungsreihenfolge bei Hominoidea. J. Mol. Entwicklung 29, 170–179 (1989).

Artikel ADS CAS PubMed Google Scholar

Shimodaira, H. & Hasegawa, M. Mehrere Vergleiche von Log-Likelihoods mit Anwendungen auf phylogenetische Inferenz. Mol. Biol. Entwicklung 16, 1114 (1999).

Artikel CAS Google Scholar

Strimmer, K. & Rambaut, A. Ableitung von Konfidenzsätzen möglicherweise falsch spezifizierter Genbäume. Proz. Biol. Wissenschaft. 269, 137–142 (2002).

Artikel PubMed PubMed Central Google Scholar

Yang, Z., Kumar, S. & Nei, M. Eine neue Methode zum Rückschluss auf angestammte Nukleotid- und Aminosäuresequenzen. Genetics 141, 1641–1650 (1995).

Artikel CAS PubMed PubMed Central Google Scholar

Varadi, M. et al. AlphaFold-Proteinstrukturdatenbank: Erweitert die strukturelle Abdeckung des Proteinsequenzraums massiv mit hochpräzisen Modellen. Nukleinsäuren Res. 50, D439–D444 (2021).

Artikel PubMed Central Google Scholar

Swint-Kruse, L. & Brown, CS Resmap: Automatisierte Darstellung makromolekularer Grenzflächen als zweidimensionale Netzwerke. Bioinformatik 21, 3327–3328 (2005).

Artikel CAS PubMed Google Scholar

Hunter, JD Matplotlib: eine 2D-Grafikumgebung. Computerwissenschaft. Ing. 9, 90–95 (2007).

Artikel Google Scholar

Waskom, ML Seaborn: Statistische Datenvisualisierung. J. Open Source Softw. https://doi.org/10.21105/joss.03021 (2021).

Yu, G., Smith, DK, Zhu, H., Guan, Y. & Lam, TT ggtree: ein R-Paket zur Visualisierung und Annotation phylogenetischer Bäume mit ihren Kovariaten und anderen zugehörigen Daten. Methoden Ecol. Entwicklung 8, 28–36 (2017).

Artikel Google Scholar

Referenzen herunterladen

Wir danken Carolyn Ott für hilfreiche Diskussionen und Loren Looger für die kritische Lektüre dieses Manuskripts. Diese Arbeit nutzte den NIH HPS Biowulf-Cluster (http://hpc.nih.gov). Es wurde teilweise durch Mittel des Intramural Research Program der National Library of Medicine, National Institutes of Health (LM202011, LLP), des National Institute of General Medical Sciences, National Institutes of Health (GM118589 bis LS-K.) und unterstützt der WM Keck Stiftung (LS-K.).

National Center for Biotechnology Information, National Library of Medicine, National Institutes of Health, Bethesda, MD, 20894, USA

Devlina Chakravarty und Lauren L. Porter

Abteilung für Biochemie und Molekularbiologie, The University of Kansas Medical Center, Kansas City, KS, 66160, USA

Shwetha Sreenivasan & Liskin Swint-Kruse

Zentrum für Biochemie und Biophysik, National Heart, Lung, and Blood Institute, National Institutes of Health, Bethesda, MD, 20892, USA

Lauren L. Porter

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Konzeptualisierung: LLP und LSK Methodik: LLP, DC, LSK und SS Software: DC, LLP und SS Untersuchung: LLP, DC, LSK und SS Datenkuration: SS, DC und LLP Visualisierung: LLP, DC und SS Schreiben – Originalentwurf: LLP, DC und SS. Schreiben – Überprüfung und Bearbeitung: LLP, LSK, DC und SS. Aufsicht: LLP und LSK. Projektverwaltung: LLP. Finanzierungseinwerbung: LLP und LSK

Korrespondenz mit Lauren L. Porter.

Die Autoren geben an, dass keine Interessenkonflikte bestehen.

Nature Communications dankt Nir Ben-Tal, Hue Sun Chan und den anderen anonymen Gutachtern für ihren Beitrag zum Peer-Review dieser Arbeit. Eine Peer-Review-Datei ist verfügbar.

Anmerkung des Herausgebers Springer Nature bleibt hinsichtlich der Zuständigkeitsansprüche in veröffentlichten Karten und institutionellen Zugehörigkeiten neutral.

Open Access Dieser Artikel ist unter einer Creative Commons Attribution 4.0 International License lizenziert, die die Nutzung, Weitergabe, Anpassung, Verbreitung und Reproduktion in jedem Medium oder Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle angemessen angeben. Geben Sie einen Link zur Creative Commons-Lizenz an und geben Sie an, ob Änderungen vorgenommen wurden. Die Bilder oder anderes Material Dritter in diesem Artikel sind in der Creative Commons-Lizenz des Artikels enthalten, sofern in der Quellenangabe für das Material nichts anderes angegeben ist. Wenn Material nicht in der Creative-Commons-Lizenz des Artikels enthalten ist und Ihre beabsichtigte Nutzung nicht gesetzlich zulässig ist oder über die zulässige Nutzung hinausgeht, müssen Sie die Genehmigung direkt vom Urheberrechtsinhaber einholen. Um eine Kopie dieser Lizenz anzuzeigen, besuchen Sie http://creativecommons.org/licenses/by/4.0/.

Nachdrucke und Genehmigungen

Chakravarty, D., Sreenivasan, S., Swint-Kruse, L. et al. Identifizierung eines verdeckten Evolutionswegs zwischen zwei Proteinfalten. Nat Commun 14, 3177 (2023). https://doi.org/10.1038/s41467-023-38519-0

Zitat herunterladen

Eingegangen: 07. Dezember 2022

Angenommen: 03. Mai 2023

Veröffentlicht: 01. Juni 2023

DOI: https://doi.org/10.1038/s41467-023-38519-0

Jeder, mit dem Sie den folgenden Link teilen, kann diesen Inhalt lesen:

Leider ist für diesen Artikel derzeit kein Link zum Teilen verfügbar.

Bereitgestellt von der Content-Sharing-Initiative Springer Nature SharedIt

Durch das Absenden eines Kommentars erklären Sie sich damit einverstanden, unsere Nutzungsbedingungen und Community-Richtlinien einzuhalten. Wenn Sie etwas als missbräuchlich empfinden oder etwas nicht unseren Bedingungen oder Richtlinien entspricht, kennzeichnen Sie es bitte als unangemessen.