Her til formiddag var onx.dk nede i godt to en halv time. Det er en meget lang nedetid og jeg kan kun beklage. Jeg vil her forklare lidt om hvad der gik galt. ONX hostes på en server i et datacenter i Roubaix i Frankrig ejet og drevet af firmaet OVH. OVH er et kæmpe selskab der har mere end 260.000 servere fordelt på 20 datacentre og hoster 18 millioner hjemmesider.

Datacenteret i Roubaix er forbundet med omverdenen via seks optiske fibre. Hver fiber har en kapacitet på 8 x 100 Gbit/s. Kablerne kommer ind i datacenteret på to forskellige steder for skabe redundans overfor kabelbrud. Klokken 8.01 forsvandt samtlige 44 styk 100 Gbit-forbindelser samtidig. Et kabelbrud var udelukket, da det kun ville berøre halvdelen. Da samtlige forbindelser var røget var det også umuligt at at få fjernadgang for at fejlsøge.

Der blev derfor sendt teknikkere til datacenteret. De afmonterede alle kabler og genstartede udstyret for at finde fejlen i samarbejde med netværksproducenten. Det viste sig at konfigurationsindstillingerne i de store transponder-kort (en slags store fibermodems) var forsvundet. Hvorfor er stadig uklart. Efter indlæsning af en backup af konfigurationen kom systemet op at køre igen klokken 10.38.

For at undgå lignende problemer fremover, vil der blive lavet et setup hvor konfigurationen gemmes to forskellige steder. Skulle den ene gå ned, er det kun 50% af kapaciteten der ryger og ikke som i dag hvor det var 100% af kapaciteten der forsvandt på grund af en enkelt fejl.