Affected
Operational from 6:00 AM to 6:00 AM
Operational from 6:00 AM to 6:00 AM
Operational from 6:00 AM to 6:00 AM
Operational from 6:00 AM to 6:00 AM
- ResolvedResolved
English version below
Det var igen i år en begivenhedsrig Black Week. Hvor vi igen i år slog rekord for antal transaktioner både set over måned, uge og selve dagene individuelt.
Hverken torsdag eller fredag forløb dog uden problemer, og derfor vil vi gerne komme med en kort evaluering.
Torsdag
Allerede kort efter Black Friday sidste år, rullede vi fix ud, så problemerne fra sidste år ikke skulle gentage sig. Og med de nye og forbedrede processer, var vi i denne del af platformen ikke i nærheden af max kapacitet.
Men igen i år oplevede vi et ekstraordinært tryk på vores systemer lige efter kl. 19.00 om torsdagen. Et usædvanligt højt antal kunder forsøgte i samme minut at åbne vores betalingsvindue, og dette gjorde desværre, at vores cache-systemer for selve branding filerne af betalingsvinduet ikke kunne følge med.
Dette betød at vi mellem 19.02 og 19.05 ikke kunne modtage betalinger gennem vores betalingsvindue, selvom selve vores API kørte upåvirket.
De første forbedringer er allerede rullet i løbet af weekenden, og vi vil i den kommende tid arbejde videre på at sikre dette problem ikke sker igen.
Fredag
Efter en transaktion er processeret gennem Quickpay, leverer vi et såkaldt “callback” til shopsystemet. Per design er vores callback service asynkron. I korte træk betyder det, at vi helt bevidst kan sætte callbacks i en kø, og ved højt load fokusere på at modtage betalinger, og så levere callbacks med en lille forsinkelse.
I løbet af fredag eftermiddag får en relateret intern service problemer. Dette påvirker ikke processeringen af betalinger, og håndteres af vores redundante setup. Kl. 19:30 eskalerer dette problem dog til at vores callback system helt stopper med at afvikle callbacks.
Da vores callbacks netop er designet til at kunne være forsinket, bliver dette ikke automatisk meldt ud på vores status side, da vi opdager forsinkelserne på callbacks. Det blev derfor først meldt ud på vores statusside kl. 20.05,
I alt tog det desværre over en time, før vi fik lokaliseret det strukturelle problem, som giver de forsinkede, callbacks, rullet et fix ud samt og afviklet den store kø af callbacks.
Ingen callbacks blev tabt, men “blot” leveret med betydelig forsinkelse. Og betalinger bliver processeret gennem hele perioden.
Vi er i gang med at sikre at lignende problemer ikke igen eskalerer til at påvirke vores callbacks, samt forbedre vores overvågning, så vi i fremtiden hurtigere kan lokalisere lignende problemer..
Opsummering
Den netop overståede Black Week har hos Quickpay betydet en rekord i antal af transaktioner gennem vores platform, men det skete ikke uden uforudsete driftsforstyrrelser.
Torsdag har vores cache-systemer, som henter branding filerne af betalingsvinduet, lang loadtid, som ender med ikke at kunne følge med. Vores API kørte dog upåvirket samtidigt. Loadtidproblemet var gældende i 3 minutter.
Fredag aften ser vi ca en times tids forsinkelse på callbacks, hvilket er usædvanligt lang tid, men forsinkelserne er per design for netop at kunne tage trykket af systemerne skulle det være nødvendigt.
Begge udfordringer er i gang med at blive adresseret, så vi ikke ser sådanne uhensigtsmæssigheder igen.
English
The recent surpassed Black Week resulted in the most transactions ever processed through Quickpay, but sadly it didn’t occur without unpredicted disturbances.
Thursday evening our cache system that handles loading of payment window branding had longer loadtimes than usual for 3 minutes. Our API did not experience any issues.
Friday evening we experienced an unusually long delay in sending out callbacks. Our callbacks are per design asynchron, but callbacks were delayed for more than an hour straight, which is not the standard we’d like to live up to. Our API ran without any issue simultaneously, so all the merchants relaying on this had no issues. All payments were handled without any disturbance, as it was only the callbacks (post payments) that was affected.
Both issues are about to be addressed and should no longer be an issue.