Archiwa: Databricks - Next Level BI Blog

Databricks clusters: Dwa antywzorce, do zastosowania na produkcji

26 marca, 2026 Rafał Gogłoza

Problem:

Działasz w dużej organizacji ale pracujesz w jednym z projektów rozwijających rozwiązanie w oparciu o Databricks. Organizacja narzuca dwie dobre praktyki projektowe: stosowanie job clusters do wywołania jobów oraz nie używania spot instances w ładowaniach produkcyjnych. Jakich argumentów użyjesz, żeby przekonać, że w Twoim przypadku użycie interactive cluster i spot instance jest optymalnym rozwiązaniem

Rozwiązanie:

Przedstawimy kontekst decyzji w oparciu o scenariusz, który mamy. W przetwarzaniu ETL ładującym dane do wszystkich warstw Brązowej, Srebrnej i Złotej (Bronze Silver i Gold – Medalion Architecture) stworzone jest 35 (!) jobów. Nie jest to jeden duży job ładujący wszystko ale w celu zwiększenia odporności na błędy, elastyczności, łatwości debugowania i zrównoleglenia przetwarzań. Dodatkowo ładowanie ma być optymalne kosztowo dlatego używamy spot instance. Pójdziemy dzisiaj pod prąd rekomendacjom Databricks. Zacznijmy jednak od początku.

Jak automatycznie startować Databricks job po załadowaniu danych do tabel źródłowych?

29 listopada, 202525 maja, 2026 Rafał Gogłoza

Problem:

Pracujemy na Unity Catalog. Dane z systemu źródłowego zapisywane są do warstwy RAW. Zapisywane są dane z kilku tabel, nie wiemy znamy dokładnie kolejności w jakiej dane są zapisywane. Po załadowaniu danych do tych wszystkich tabel chcemy wyzwolić uruchamianie joba i ładowanie danych do warstwy BRONZE. Jak to zrobić bez uruchamiania clustra? Czy jest jakiś feature w DBX, który pozwoli nam wykonać to efektywnie kosztowo i czasowo?

Rozwiązanie:

Databricks posiada możliwość wyzwalania joba, gdy tabele źródłowe zostaną doświerzone:

https://learn.microsoft.com/en-us/azure/databricks/jobs/trigger-table-update

Uwaga: Ta opcja działa tylko dla tabel znajdujących się w Unity Catalog. Więc jeżeli masz tabele, które operują na legacy hive metastore, wtedy nie będziesz mógł skorzystać z tej opcji.

Jak zintegrować Azure DevOps z Databricks?

30 października, 202530 października, 2025 Rafał Gogłoza

Problem:

Przy uruchamianiu job’a w Databricks dostajemy błąd, że nie można połączyć się z Azure DevOps repository. Błąd występuje losowo. Czasami są tygodnie, że nie występuje. Wystarczy uruchomić ponownie job, żeby wszystko wróciło do normy i ładowanie było kontynuowane. Niestety wymagana jest interwencja człowieka a niestety czasami człowieka nie ma w okolicy. Istnieje potrzeba, żeby w inny sposób skonfigurować uruchamianie jobów.

Rozwiązanie:

A właściwie dwa, które można zastosować. Pull albo push. Czyli albo wysyłamy z Azure DevOps kod do Azure Databricks workspace albo z Databricksów przy użyciu REST API ciągniemy kod z repozytorium. Oba rozwiązania mają swoje zalety i wady i przyjrzymy im się szczegółowo.

Katastrofa: cluster działał ponad 24h

22 września, 202522 września, 2025 Rafał Gogłoza

Problem:

Ładowanie rozpoczęło się w weekend a w poniedziałek rano stwierdziliśmy, że cluster wciąż działa. Ładowanie, które rozpoczęło się w niedzielę rano, trwało ponad 24h i w poniedziałek rano ładowanie wciąż było w trakcie. W sumie ładowanie powinno trwać 3h, trwało ponad 21h dłużej i nie zakończyło się sukcesem. Pociągnęło to za sobą duże koszty i nasunęło dwa pytania: co się stało, dlaczego cluster działa tak długo? Co zrobić, żeby to się więcej nie powtórzyło.

Rozwiązanie (a raczej przyczyna)

Spojrzenie w szczegóły ładowania pokazały, że był jeden notebook, gdzie ładowanie trwało ponad 21h i wciąż trwało. Jeżeli właśnie pomyślałeś, że to duplikaty to masz rację. Dane zostały zwielokrotnione. Dla niektórych rekordów z tabeli źródłowej było 32 768 rekordów. Nie spowodowało to wywrócenia procesu i błędu wskazującego na nie wystarczającą pamięć (out of memory exception). Ładowanie trwało ale trzeba było je przerwać, nie chcieliśmy go kontynułować, gdyż nie zawierało poprawnych danych.

Dobrze wiemy już co się stało, w takim razie jak przeciwdziałać takim sytuacjom w przyszłości?

Ładowanie danych z Databricks do Azure Synapse Analytics

25 maja, 2025 Rafał Gogłoza

Problem:

Zadanie zostało zdefiniowane przez managera w ten sposób:
– Dane z Databricks mają zostać przesłane na Azure Synapse
– Security utworzyło i otworzyło odpowiednie private endpointy.
– Dostałeś też namiary na service principala, którego wykorzystasz do zapisywania danych z Databricks na Azure Synapse.

Będziesz używał sparka, żeby od razu stworzył tabelę i dane. Będzie to szczególnie pomocne gdyż danych nie jest zbyt dużo. Nie powinno być żadnych problemów wydajnościowych.
Niestety pojawiają się problemy zupełnie innej natury. Przy próbie wstawienia danych dostajesz błąd:

„com.microsoft.sqlserver.jdbc.SQLServerException: The statement failed. Column 'drone_spec_key’ has a data type that cannot participate in a columnstore index.”

Rozwiązanie:

Spark wysyłał do Synapsa create i insert statement w tym samym czasie. Błąd wynikał z tego, że Synapse przy próbie stworzenia tabeli jednocześnie próbuje stworzyć custered index. Niestety ograniczenie, które posiada to brak możliwości stworzenia indeksu na kolumnach, gdzie typ danych zdefiniowany jest jako: VARCHAR(max), NVARCAHR(MAX) a to się dzieje, gdy spark próbuje stworzyć tabelę.
Jako rozwiązanie zastosowano:
1. Najpierw została tworzona tabela po stronie Azure Synapse Analytics
2. Dopiero później zostały wstawione do niej dane

Szczegóły kodu oraz alternatywne, dające więcej możliwości, rozwiązanie poniżej.

Qualify w Databricks

19 marca, 202519 marca, 2025 Rafał Gogłoza

Problem:

Działasz na tabeli opisującej procesy produkcji. Jeden proces może występować więcej niż jeden raz w tabeli. Nas interesuje tylko ostatnia data zakończenia procesu. Użyjemy funkcji okienkowej, row_number, żeby oznaczyć proces, który zakończył się jako ostatni. W jaki sposób w tym samy zapytaniu wybrać ten wiersz, bez używania dodatkowych podzapytań lub CTE?

Rozwiązanie:

Użyjemy Qualify! Qualify w Databricks filtruje wyniki zapytania funkcji okienkowej. Możesz myśleć o nim jak warunku zakładanym na wyniku funkcji okienkowej. Upraszcza to znakomicie składnie.

Jak go zastosować:

select process_id, process_name, process_start_date, process_end_date , row_number() over(partition by process_id order by process_end_date desc) as rn from d_process qualify rn = 1

Databricks: Jak znaleźć wolno działający notebook?

31 grudnia, 20244 stycznia, 2025 Rafał Gogłoza

Problem:

Czas procesowania danych w Databricks zwiększył się dwukrotnie. Poprzednio wynosił 3 godziny teraz wynosi 6. Zanim podejmiesz proces naprawy trzeba sprawdzić który notebook spowodował aż tak duży spadek wydajności. Czy spadek wydajności rozlał się równomiernie pomiędzy wszystkie notebooki? Czy dotyczy tylko części? Możemy wykluczyć, że ktoś inny pracował na platformie w tym samym czasie i wpływał na wydajność. Cluster jest dedykowany do przetwarzań batchowych i nikt inny nie ma do niego dostępu.

Rozwiązanie:

Użyjemy Databricks rest API, żeby przeszukać wszystkie joby i znaleźć ten, który trwał najdłużej w porównaniu z poprzednim ładowaniem. Gdy znajdziemy, który to job, wtedy przeszukamy wszystkie taski i sprawdzimy czy są jacyś pojedynczy kandydaci, których wydajność zdecydowanie spadła i znajdziemy wolno działający notebook.

Azure storage file datalake do pobierania plików?

31 października, 20249 listopada, 2024 Rafał Gogłoza

Problem:

Masz dostępne Databricks, Pythona i Azure Storage Account. Potrzebujesz pobrać raport Power BI umieszczony na Azure Storage account przy pomocy Pythona.
Potem ten plik należy opublikować w serwisie Power BI.
Nie możesz tego zrobić przy użyciu Sparka, albo Pandas. To się nie uda i jednocześnie, to nie jest to zadanie.
Możesz instalować bilbioteki na clustrze. Najlepiej, żeby ich autorem był Microsoft.

Rozwiązanie:

Microsoft udostępnia bibliotekę: azure.storage.filedatalake przy pomocy której można przeczytać plik z landing zone w formacie binarnym a potem opublikować go w portalu Power BI.

Wystarczy z kontenera przeczytać plik. Ta zawartość zostanie wczytana w formacie binarnym:
file_content = file_container.download_file()

A potem opublikować go w Power BI portalu:
publish_powerbi_report(PBI_WORKSPACE_ID, PBI_REPORT_NAME, file_content)

Databricks: Jak pobrać pliki binarne z Azure Storage Account używając Pythona?

30 września, 202424 października, 2024 Rafał Gogłoza

Problem:

Masz dostępne Databricks, Pythona i Azure Storage Account. Potrzebujesz pobrać plik z Azure Storage account przy pomocy Pythona w formacie binarnym. Jeżeli chcesz zrobić to przy użyciu Sparka, albo Pandas to nie jest to zadanie.
Dane masz pobrać z pliku binarnego.
Trzeba użyć modułów Pythona do wczytywania plików.
W dokumentacji piszą, że taka operacja jest „not supported”. (Stan na 15.10.2024)
Nie chcesz też robić „mount” zdalnego systemu plików. Taka operacja jest nie polecana przez Databricks.

Rozwiązanie:

W Databricks z Pythona NIE można czytać plików ze zdalnego systemu plików. Można za to czytać pliki z lokalnego file systemu. Obejście problemu przedstawionego powyżej to:
1. Przy użyciu dbutils.fs albo %fs skopiować pliki ze zdalnego filesystemu do lokalnego.
2. Przeczytać pliki z lokalnego systemu plików przy użyciu Pythona.
Skasować skopiowany plik z lokalnego filesystemu.

Databricks: Jak nie przechowywać sekretów?

31 sierpnia, 20245 września, 2024 Rafał Gogłoza

Problem: Robisz audyt konfiguracji Databricks klastra stworzonego w Twojej organizacji. Przechowywanie sekretu do Azure storage account znajdujesz w spark configu. Jest tam zapisana taka właśnie konfiguracja:

fs.azure.account.oauth2.client.secret.storageaccountname.dfs.core.windows.net xsda33jncsax-secretinplaintext
Sekret jest przechowywane w czystym tekście.

Rozwiązanie: Akurat w tym przypadku autentykacja wykonywana jest przy pomocy service principala. Wszystkie sekrety przechowywane są w Key Vault a w Databricks stworzony jest secret scope. W konfiguracji sparka na poziomie klastra wystarczy ustawić wystarczy więc zrobić tylko tak:

fs.azure.account.oauth2.client.secret.storageaccountname.dfs.core.windows.net secrets/secret-scope/sp-app-secret

I wszystko działa 🙂

Kategoria: Databricks

Databricks clusters: Dwa antywzorce, do zastosowania na produkcji

Problem:

Rozwiązanie:

Jak automatycznie startować Databricks job po załadowaniu danych do tabel źródłowych?

Problem:

Rozwiązanie:

Jak zintegrować Azure DevOps z Databricks?

Problem:

Rozwiązanie:

Katastrofa: cluster działał ponad 24h

Problem:

Rozwiązanie (a raczej przyczyna)

Ładowanie danych z Databricks do Azure Synapse Analytics

Problem:

Rozwiązanie:

Qualify w Databricks

Problem:

Rozwiązanie:

Databricks: Jak znaleźć wolno działający notebook?

Problem:

Rozwiązanie:

Azure storage file datalake do pobierania plików?

Problem:

Rozwiązanie:

Databricks: Jak pobrać pliki binarne z Azure Storage Account używając Pythona?

Problem:

Rozwiązanie:

Databricks: Jak nie przechowywać sekretów?

Zapisz się na newsletter!

Archiwa

Problem:

Rozwiązanie:

Problem:

Rozwiązanie:

Problem:

Rozwiązanie:

Problem:

Rozwiązanie (a raczej przyczyna)

Problem:

Rozwiązanie:

Problem:

Rozwiązanie:

Problem:

Rozwiązanie:

Problem:

Rozwiązanie:

Problem:

Rozwiązanie:

Zapisz się na newsletter!

Tagi

Archiwa