Ihr DNS ist ein Single Point of Failure. Hier ist das Multi‑DNS‑Playbook für 2026

Von Diogo Hudson Dias
Network engineer in a São Paulo office reviewing DNS failover plans with latency graphs visible on a secondary monitor.

Kostenlos ist nicht gleich ausfallsicher. Bunny hat DNS gerade kostenlos gemacht, um das Web zu beschleunigen. Gut so. Aber wenn Sie Ihre Produktionsdomain weiterhin bei einem einzigen DNS‑Provider betreiben – kostenlos oder bezahlt –, lassen Sie einen Single Point of Failure in der einzigen Control Plane bestehen, die jede Anfrage zuerst trifft.

DNS‑Ausfälle sind hässlich, weil sie binär und unmittelbar sind: Wenn Ihr Resolver‑Pfad bricht, sind Sie nicht nur degradiert – Sie sind weg. Steigt der TTFB Ihrer Homepage um 200 ms, behalten Sie Umsatz. Wenn Ihre Domain 5 Minuten lang nicht auflöst, nicht. Fragen Sie alle, die den Dyn‑DDoS 2016 oder jüngere Registrar‑Sperren und Provider‑Outages mitgemacht haben. In 2026, mit KI‑Agenten, die Ihre Endpunkte fluten, und Mobilnetzen mit zusätzlichem Jitter, ist Ihre Fehlermarge bei DNS noch dünner.

Dieser Beitrag liefert Ihnen ein pragmatisches, herstellerneutrales Multi‑DNS‑Playbook: wie Sie entscheiden, ob Sie es brauchen, wie Sie es bauen (ohne maßgeschneiderten Glue‑Code), welche Records und Features jetzt zählen (DNSSEC, SVCB/HTTPS, ECH, Apex‑Flattening) und wie Sie es wie ein SRE betreiben und testen – nicht wie ein Hobbyprojekt.

Warum jetzt: Performance ist billig, autoritatives DNS nicht

Bunnys Schritt zu kostenlosem DNS ist Teil eines größeren Trends: Anycast‑Performance ist Commodity. Auf einem ordentlichen Anycast‑Netz liegt die mediane Zeit von rekursiv zu autoritativ in North America/Europe bei 12–25 ms; in Brazil und Mexico sind 35–60 ms typisch. Das Problem ist nicht die rohe Geschwindigkeit – es ist das Abhängigkeitsrisiko. Zwei Ausfallmodi, die Sie mit einem einzelnen Anbieter nicht wegkaufen können:

  • Provider‑weite Ausfälle und Route Leaks: Selbst Tier‑1‑Anycast‑Netze werden getroffen. Ein fehlerhaftes Deploy, ein Route Leak oder ein großer Angriff kann Ihr NS‑Set für für Sie relevante Regionen ins Schwarze Loch schicken.
  • Account‑ und Registrar‑Probleme: Kompromittierte Zugangsdaten, deaktivierte 2FA oder ein Abrechnungsfehler können Ihre Zone oder Ihren Registrar pausieren. Wenn Sie NS oder DS nicht schnell ändern können, schauen Sie Ihren fallenden Graphen nur zu.

Gleichzeitig entwickelt sich der Stack weiter. SVCB/HTTPS‑Records liefern Protokollhinweise (ALPN, H3) und ECH‑Konfigurationen vorab, sodass Clients zusätzliche Round‑Trips überspringen. Richtig eingesetzt spart das 1–2 RTTs – im Realbetrieb auf dem Smartphone sind das 30–120 ms. Aber nicht alle Provider implementieren diese Records konsistent, und manche verstecken Features hinter proprietären Knöpfen. Multi‑DNS geht teils um Redundanz, teils um die Portabilität moderner DNS‑Features.

Eine einfache Entscheidungsregel: Brauchen Sie wirklich Multi‑DNS?

Führen Sie DNS mit zwei Providern ein, wenn mindestens eines davon zutrifft:

  • Ihre Ausfallkosten liegen bei >$5.000 pro Minute (typisch für B2C‑Commerce, Fintech oder werbefinanzierte Medien).
  • Globale Audience mit signifikantem LATAM/APAC‑Traffic (20%+), wo regionale Routing‑Vorfälle häufig sind.
  • Sie betreiben Multi‑CDN oder Active‑Active‑Regionen und steuern per DNS. Diese Steuerlogik ist wertlos, wenn DNS selbst down ist.
  • Compliance‑ oder Audit‑Druck verlangt nach nachweisfähigem Failover der „Control‑Plane“‑Systeme.

Wenn nichts davon zutrifft und Sie ein US‑only‑Startup mit <$50M GMV sind, können Sie es aufschieben – aber bereiten Sie sich vor: DNS as Code, DNSSEC an, Registrar‑Lock und eine getestete Migration zu einem zweiten Provider in Staging.

Architekturen, die 2026 funktionieren (und die, die es nicht tun)

1) Primary/Secondary mit AXFR/IXFR und Dual‑Signing

Pattern: Ein Provider ist Primary. Sie pflegen die Zone dort und pushen per AXFR/IXFR über TSIG zu einem Secondary. Beide bedienen Ihr NS‑Set. Sie aktivieren auf beiden DNSSEC und veröffentlichen mehrere DS‑Records beim Registrar (oder nutzen einen koordinierten KSK).

Pros: Einfaches mentales Modell; gute Provider‑Unterstützung; kleine Betriebsoberfläche. Cons: Feature‑Mismatch (z. B. GEO/Health‑Checks) und DNSSEC‑Schlüsselmanagement kann knifflig werden. Manche Provider unterstützen Secondary DNS mit DNSSEC noch immer nicht korrekt.

2) Dual‑Primary via IaC (das „declare once, render twice“-Modell)

Pattern: Behandeln Sie DNS wie Code. Source of Truth ist eine einzelne Zonenspezifikation (Terraform, dnscontrol oder Ihr eigener Generator). CI rendert und applyt zu zwei unabhängigen Providern. Keine Zonentransfers; beide sind autoritativ.

Pros: Keine AXFR‑Limitierungen; leichter, Feature‑Parität zu halten; kein Vendor‑Lock‑in bei Health‑Checks. Cons: Erfordert gute Tests, um Drift zu verhindern; Provider‑APIs unterscheiden sich; Sie müssen eigene Validierung und Rollout‑Gates implementieren.

3) Split Delegation für komplexe Stacks (sparsam einsetzen)

Pattern: Behalten Sie Apex und E‑Mail (MX/TXT) bei Provider A; delegieren Sie app.example.com, api.example.com und media.example.com an Provider B mit eigenen NS‑Sets.

Pros: Begrenzter Blast‑Radius und weniger Feature‑Kopplung. Cons: Operativ lauter; erzeugt zusätzliche NS‑Lookups; bricht naives Failover, sofern nicht sorgfältig geplant.

Wovon Sie 2026 die Finger lassen sollten: Proprietäres Failover eines einzelnen Vendors, das nur innerhalb dessen Zone umschaltet, und alles, was erfordert, Apex‑TTLs auf 30 Sekunden zu senken, um wackelige Automatisierung zu kaschieren. Wenn Ihr Failover Notfall‑TTL‑Hacks braucht, haben Sie keinen Plan – Sie haben Hoffnung.

Die 9 Features, die wirklich zählen

  • DNSSEC richtig umgesetzt: ECDSAP256SHA256, automatischer ZSK‑Roll, sicherer KSK‑Roll. Multi‑Provider‑Dual‑Signing mit zwei DS‑Records beim Registrar ist ideal. Testen Sie „DS remove“ und „DS add“ in Staging, bevor es in Prod geht.
  • Secondary DNS mit DNSSEC: Wenn Sie Primary/Secondary wählen, bestehen Sie auf IXFR + TSIG und validiertem DNSSEC auf dem Secondary. Manche Provider signieren nur auf dem Primary; das reicht nicht.
  • Apex‑CNAME‑Flattening/ANAME: Sie werden den Apex auf ein CDN/Edge zeigen lassen. Stellen Sie sicher, dass beide Provider Flattening so implementieren, wie es Ihr CDN unterstützt.
  • SVCB/HTTPS‑Records: Vorab ALPN=h3, Alt‑Svc und ECH‑Konfiguration veröffentlichen. Chrome/Firefox unterstützen es bereits; iOS/macOS holen auf. Messen Sie die gesparte RTT.
  • IPv6‑Parität: AAAA veröffentlichen. Die Hälfte Ihrer Nutzer ist inzwischen auf IPv6, und einige Mobil‑ASNs bevorzugen es. Lassen Sie www nicht vom Apex abweichen.
  • Geo/Latenz‑Steering mit Standards: EDNS Client Subnet ist Legacy; moderne Provider leiten Steering aus Resolver‑Telemetrie ab. Bevorzugen Sie Steering, das an klar definierte Policies gebunden ist und sich vendorübergreifend replizieren lässt.
  • Vorhersagbare APIs und Rate Limits: Sie werden Bulk‑Änderungen durchführen (DKIM‑Rotationen, Wildcard‑Zertifikatserneuerungen). Klären Sie früh Burst‑Limits und 429‑Verhalten.
  • Registrar‑Unabhängigkeit: Halten Sie Registrar und DNS‑Hosts getrennt. Domains sperren, Registry‑Locks wo verfügbar aktivieren und Auth‑Codes offline aufbewahren.
  • Audit‑Hooks: Jede Änderung sollte mit Record‑Level‑Diffs in Ihr SIEM fließen. DNS ist sicherheitskritisch; behandeln Sie es wie Firewall‑Change‑Control.

Performance: Wo 2026 die echten Gewinne liegen

Auf modernen Mobilgeräten sind Round‑Trips Ihr Feind. SVCB/HTTPS ermöglicht es, Protokolldetails vorab zu liefern, damit der Client direkt zu H3 gehen oder den richtigen Alt‑Svc ohne Trial wählen kann. In der Praxis sehen wir:

  • 1–2 RTT gespart bei kalten Page‑Loads, wenn HTTPS‑RR beachtet wird – das entspricht 30–120 ms realem Gewinn auf 4G/5G‑Verbindungen.
  • 5–15% geringerer TTFB bei der ersten Anfrage in Kombination mit autoritativem Anycast und einem starken CDN, das Ihre Hinweise honoriert.
  • 20–40 ms niedrigere p50‑Auflösungszeit für Nutzer in Brazil, Colombia und Mexico beim Umstieg von einem einzelnen US‑zentrierten DNS auf zwei Anycast‑Netze mit regionalen PoPs.

Das sind keine Fantasiezahlen. Messen Sie Vorher/Nachher mit synthetischen Probes in São Paulo, Bogotá, Mexico City und Miami. Wenn 20–30% Ihres Umsatzes LATAM berühren, sehen Sie den Lift.

Der Implementierungs‑Blueprint (90 Tage, wenig Drama)

Tag 0–15: Provider auswählen und DNS code‑definiert machen

  • Wählen Sie zwei Anbieter, die Ihre Must‑haves abdecken: DNSSEC‑Dual‑Signing, Apex‑Flattening, SVCB/HTTPS, brauchbare APIs und entweder robustes Secondary DNS oder solide Terraform‑Provider. Kombinationen, die wir funktionsfähig gesehen haben: Route 53 + Cloudflare, DNS Made Easy + Bunny, NS1 + Azure DNS. Das ist keine Empfehlung; es ist ein Kompatibilitätshinweis.
  • Richten Sie ein Zonen‑Repository ein (Terraform oder dnscontrol). Deklarieren Sie alle Records, einschließlich E‑Mail (SPF, DKIM), Verifizierungs‑TXT (Google, Apple) und ACME‑Challenges.
  • Schreiben Sie einen Zonen‑Validator, der CI fehlschlagen lässt, wenn Record‑Sets zwischen Anbietern divergieren (case‑insensitive Vergleiche, identische TTL‑Policies dort, wo es zählt).

Tag 16–45: Signieren, synchronisieren, stagen

  • Aktivieren Sie auf beiden DNSSEC, generieren Sie KSK/ZSK und veröffentlichen Sie staging‑DS bei Ihrem Staging‑Registrar. Üben Sie den KSK‑Roll.
  • Wählen Sie Ihre Topologie: Bei Primary/Secondary AXFR/IXFR mit TSIG aktivieren und signierte Secondaries bestätigen. Bei Dual‑Primary CI so verdrahten, dass auf beide Provider angewendet wird – mit Canary‑Teilmengen von Records.
  • Veröffentlichen Sie SVCB/HTTPS und AAAA in Staging. Verifizieren Sie, dass Clients (Chrome/Firefox/Safari) sie berücksichtigen. Messen Sie RTT‑Einsparungen und Verbindungswiederverwendung.
  • Fahren Sie Last und Chaos: Synthetische Checks von 10+ Vantage‑Points (US/EU/LATAM/APAC) für 7 Tage. Injizieren Sie Negativtests: NXDOMAIN, SERVFAIL, abgelaufene RRSIG und stale DS – und vergewissern Sie sich, dass Alerts feuern.

Tag 46–75: Produktion ohne SEO‑ oder E‑Mail‑Bruch umstellen

  • Fügen Sie das zweite NS‑Set in Produktion hinzu, während das erste bestehen bleibt. Bei Dual‑Signing beide DS‑Records veröffentlichen. Andernfalls ein KSK‑Swap‑Fenster mit 48‑stündiger Beobachtung koordinieren.
  • Bewahren Sie konservative TTLs dort, wo es zählt: 300–600 Sekunden für App‑ und CDN‑Records, 3600–86400 für MX, DKIM und Verifizierungs‑TXT. Setzen Sie SOA Negative Caching (MINIMUM) auf 300–600, damit vertippte DNS‑Updates Caches nicht stundenlang vergiften.
  • Apex sorgfältig flatten: Verifizieren Sie, dass beide Provider über ANAME/Flattening weltweit bei p95 dieselben A/AAAA für Ihr CDN‑Edge erzeugen.
  • GSuite/Microsoft 365‑E‑Mail 72 Stunden nach MX/DKIM‑Änderungen auf Zustellbarkeit monitoren. Postmaster‑Tools finden Fehler früher als Kunden.

Tag 76–90: In den Betrieb überführen

  • Access und Auth: Hardware‑Keys für DNS‑Admins, kurzlebiger Zugriff (1–8 Stunden) und Change‑Fenster. Registrar‑Lock und Registry‑Lock aktivieren. Domain‑Auth‑Codes offline lagern.
  • Runbooks: Eine Seite für DS entfernen/hinzufügen, eine für NS entfernen/hinzufügen, eine zum Deaktivieren eines fehlerhaften Record‑Sets. Auf 15‑minütige Aktionen begrenzen. Vierteljährlich üben.
  • Observability: p95‑Lookup‑Zeit nach Region tracken (Ziele: <50 ms US/EU, <80 ms LATAM), DNS‑Verfügbarkeit (99,99%+), Fehlerrate signierter Abfragen (<0,1%). Alarmieren bei RRSIG‑Ablauf und DS/RRSIG‑Mismatch.

Records, an denen Teams sich die Zähne ausbeißen (und wie man sie zähmt)

  • SPF/DKIM‑Bloat: SPF‑Lookups sind auf 10 begrenzt. Includes zusammenfassen. DKIM‑Keys vierteljährlich rotieren; mit IaC automatisieren und ausgehende E‑Mails vor dem Flip testen.
  • Wildcard‑Cert‑ACME‑Challenges: Wenn Ihre CA DNS‑01 nutzt, muss Ihre IaC _acme-challenge‑TXT‑Records auf beiden Providern atomar anlegen und aufräumen. Stale TXT ist eine häufige Ursache für Erneuerungsfehler.
  • Apex‑ und www‑Drift: Wenn Sie SVCB/HTTPS auf www veröffentlichen, spiegeln Sie es am Apex (oder umgekehrt). Drift hier neutralisiert die Gewinne durch Protokollhinweise.
  • Health‑Checks: Bevorzugen Sie externe Health‑Checks (eigene oder neutrale Drittanbieter), die einfache Record‑Toggles steuern. Verlassen Sie sich nicht auf die proprietäre Health‑Logik eines einzelnen Vendors.

Security: DNS ist jetzt Teil Ihres Zero‑Trust‑Perimeters

  • Change‑Evidence: Jede DNS‑Änderung sollte einen strukturierten Diff (wer, wann, alt/neu) erzeugen und an Ihr SIEM senden. 1‑jährige Aufbewahrung sicherstellen.
  • TSIG‑Key‑Hygiene: AXFR‑TSIG‑Keys alle 90 Tage rotieren. In einem Secrets‑Manager speichern, nie im Klartext in CI‑Variablen.
  • Registrar‑Kompromittierungen sind real: Nutzen Sie Registry‑Lock, wo verfügbar (Verisign für .com), was Out‑of‑Band‑Genehmigung durch Menschen für NS/DS‑Änderungen erfordert. Ja, es ist langsamer. Genau darum geht es.

Kosten und Trade‑offs (seien Sie ehrlich zu sich selbst)

Modernes DNS ist günstig – bis es das nicht mehr ist:

  • Nutzung: Commodity‑Preise liegen grob bei $0,40–$0,60 pro Million Queries bei Hyperscalern; Geo/Latenz‑Policies können für diese Records 2–3x addieren. Kleinere Provider verkaufen Plan‑Tiers ($30–$300/Monat) mit großzügigen Query‑Limits.
  • Ingenieurszeit: Rechnen Sie mit 4–6 Engineer‑Stunden/Monat, um Dual‑Provider‑DNS gesund zu halten (Reviews, Rotationen, Tests). Im ersten Quartal investieren Sie 20–30 Stunden in Setup und Übungen.
  • Kostenlos vs. bezahlt: Kostenloses DNS (wie bei Bunny) ist exzellent für Performance und als zweites Bein. Aber nehmen Sie bei „free“ niemals Support‑SLAs an. Balancieren Sie mit einem Provider, der explizite SLAs und Support‑Kanäle für Eskalationen bietet.

Der Upside ist quantifizierbar. Wenn Ihr gemischter Umsatz $8.000/Minute beträgt und Dual‑DNS einmal im Jahr einen 20‑minütigen Total‑Resolution‑Outage verhindert, sind das $160.000 geschützt. Ihre jährliche DNS‑Rechnung und Ingenieurszeit liegen bei einem Bruchteil davon.

So testen Sie Failover, ohne die Produktion zu gefährden

  • „Serve stale“ by design: Wählen Sie einen unkritischen Record (staging-echo.yourdomain.com) mit TTL=300 und flippen Sie ihn nur auf Provider A. Verifizieren Sie, dass 50% der rekursiven Resolver zu erwarteten Zeiten weiterhin über Provider B auflösen.
  • NS‑Blackhole‑Drills: Null‑routen Sie temporär die NS eines Providers in Ihren synthetischen Test‑Agents, um sicherzustellen, dass die Verfügbarkeit über den anderen Provider bei 100% bleibt.
  • DNSSEC Break‑Glass: Lassen Sie in einer nicht kundenwirksamen Zone RRSIG ablaufen und beobachten Sie die Alerts. Üben Sie das Entfernen und erneute Hinzufügen von DS beim Registrar.
  • Protokollhinweise: Entfernen Sie HTTPS/SVCB bei einem Provider für 24 Stunden. Messen Sie die TTFB‑Regression dort, wo Clients dieses NS‑Set treffen. So quantifizieren Sie den Wert, Protokollhinweise synchron zu halten.

Regionaler Realitätscheck: Brazil und LATAM sind keine Randfälle

  • Wählen Sie Provider mit PoPs in São Paulo, Santiago, Bogotá und Mexico City. Das sind 20–40 ms p50 Vorteil bei der Auflösung gegenüber US‑only‑Anycast‑Footprints.
  • Testen Sie aus echten ISP‑ASNs, nicht nur aus Cloud‑Regionen. Vivo, Claro, TIM, Telmex und Tigo haben anderes Peering‑Verhalten als AWS/GCP‑Regionen.
  • Liefern Sie IPv6‑AAAA überall aus. Viele Mobil‑ASNs in Brazil bevorzugen IPv6. Verschlechtern Sie diese Nutzer nicht, indem Sie sie auf v4‑Fallbacks zwingen.

Ein Wort zu KI‑Agenten und DNS‑Last

Agent‑Traffic neigt zu Burst‑Spitzen und kommt aus diversen ASNs, mit denen Sie nicht gerechnet haben. Das ist gut fürs Business und schlecht für naive DNS‑Konfigurationen. Beobachten Sie das Query‑Volumen rund um Modell‑Launches oder Marketing‑Peaks. Stellen Sie sicher, dass die Per‑Zone‑ und Per‑Second‑Rate‑Limits Ihrer Provider Sie nicht drosseln. Cache‑Preload mit wenig‑churnenden Records ist Ihr Freund; drehen Sie die TTLs nicht auf 30 Sekunden hoch in der Hoffnung, „agil zu bleiben“. Agilität gehört in CI, nicht in Resolver.

Fazit

DNS schneller (und günstiger) zu machen, ist willkommen. Aber Performance‑Verbesserungen adressieren nicht das grundlegende Control‑Plane‑Risiko eines einzelnen Providers. Multi‑DNS ist 2026 nichts Exotisches. Mit DNSSEC‑Dual‑Signing, SVCB/HTTPS, Apex‑Flattening‑Parität und sauberem IaC können Sie ein Ausfallszenario im siebenstelligen Bereich für ein paar hundert Dollar im Monat und wenige SRE‑Stunden deutlich entschärfen.

Kernaussagen

  • Führen Sie DNS mit zwei Providern ein, wenn Ihre Ausfallkosten >$5k/Minute liegen, Sie Multi‑CDN/Active‑Active betreiben oder 20%+ Ihrer Nutzer außerhalb der US sind.
  • Wählen Sie Provider mit DNSSEC‑Dual‑Signing, Apex‑Flattening, SVCB/HTTPS, sinnvollen APIs und entweder Secondary DNS oder starkem Terraform‑Support.
  • Nutzen Sie entweder Primary/Secondary mit AXFR/IXFR+TSIG oder Dual‑Primary via IaC. Vermeiden Sie proprietäres Failover eines einzelnen Vendors.
  • Halten Sie TTLs vernünftig: 300–600 s für App/CDN, 1–24 h für MX/DKIM. Setzen Sie SOA Negative Caching auf 300–600.
  • Messen Sie echte Gewinne: 1–2 RTT gespart mit HTTPS/SVCB (30–120 ms auf Mobil), 20–40 ms geringere p50‑Auflösung in LATAM mit zwei Anycast‑Netzen.
  • Operationalisieren: Hardware‑Keys, Registrar/Registry‑Lock, CI‑Validierung und Quartals‑Drills (NS‑Blackhole, DS hinzufügen/entfernen).
  • Rechnen Sie mit 4–6 Engineer‑Stunden/Monat für Multi‑DNS; im ersten Setup‑Quartal 20–30 Stunden. Der vermiedene Ausfall zahlt das mehrfach zurück.

Ready to scale your engineering team?

Tell us about your project and we'll get back to you within 24 hours.

Start a conversation