Archiwa: error analysis - Next Level BI Blog

Katastrofa: cluster działał ponad 24h

22 września, 202522 września, 2025 Rafał Gogłoza

Problem:

Ładowanie rozpoczęło się w weekend a w poniedziałek rano stwierdziliśmy, że cluster wciąż działa. Ładowanie, które rozpoczęło się w niedzielę rano, trwało ponad 24h i w poniedziałek rano ładowanie wciąż było w trakcie. W sumie ładowanie powinno trwać 3h, trwało ponad 21h dłużej i nie zakończyło się sukcesem. Pociągnęło to za sobą duże koszty i nasunęło dwa pytania: co się stało, dlaczego cluster działa tak długo? Co zrobić, żeby to się więcej nie powtórzyło.

Rozwiązanie (a raczej przyczyna)

Spojrzenie w szczegóły ładowania pokazały, że był jeden notebook, gdzie ładowanie trwało ponad 21h i wciąż trwało. Jeżeli właśnie pomyślałeś, że to duplikaty to masz rację. Dane zostały zwielokrotnione. Dla niektórych rekordów z tabeli źródłowej było 32 768 rekordów. Nie spowodowało to wywrócenia procesu i błędu wskazującego na nie wystarczającą pamięć (out of memory exception). Ładowanie trwało ale trzeba było je przerwać, nie chcieliśmy go kontynułować, gdyż nie zawierało poprawnych danych.

Dobrze wiemy już co się stało, w takim razie jak przeciwdziałać takim sytuacjom w przyszłości?

Streamlit: Jak edytować dane?

25 maja, 202425 maja, 2024 Rafał Gogłoza

Problem:

Porównujesz dwa zbiory danych: przed i po migracji. Wkraczasz w fazę budowania zaufania i wiarygodności. Okazało się, że nie wszystkie dane są jednakowe. Niektóre wymagają dodatkowej analizy i poprawek, a niektóre wyglądają lepiej w zmigrowanym datasecie. Na tyle lepiej, że trzeba je przedstawić biznesowi i pokazać na przykładach, że po migracji wyniki są lepsze.
W jaki sposób opisać te dane?

Rozwiązanie:

Jednym z pomysłów na rozwiązanie może być Streamlit. Przy jego pomocy dodasz komentarze, które potem będą służyły jako:
1. Punkt do analizy i późniejszego ponownego sprawdzenia
2. Przedstawisz je biznesowi jako dowód na poprawę jakości danych.

Tag: error analysis

Katastrofa: cluster działał ponad 24h

Problem:

Rozwiązanie (a raczej przyczyna)

Streamlit: Jak edytować dane?

Problem:

Rozwiązanie:

Zapisz się na newsletter!

Archiwa

Problem:

Rozwiązanie (a raczej przyczyna)

Problem:

Rozwiązanie:

Problem

Propozycje rozwiązań

Zapisz się na newsletter!

Tagi

Archiwa