Problem:
Działasz w dużej organizacji ale pracujesz w jednym z projektów rozwijających rozwiązanie w oparciu o Databricks. Organizacja narzuca dwie dobre praktyki projektowe: stosowanie job clusters do wywołania jobów oraz nie używania spot instances w ładowaniach produkcyjnych. Jakich argumentów użyjesz, żeby przekonać, że w Twoim przypadku użycie interactive cluster i spot instance jest optymalnym rozwiązaniem
Rozwiązanie:
Przedstawimy kontekst decyzji w oparciu o scenariusz, który mamy. W przetwarzaniu ETL ładującym dane do wszystkich warstw Brązowej, Srebrnej i Złotej (Bronze Silver i Gold – Medalion Architecture) stworzone jest 35 (!) jobów. Nie jest to jeden duży job ładujący wszystko ale w celu zwiększenia odporności na błędy, elastyczności, łatwości debugowania i zrównoleglenia przetwarzań. Dodatkowo ładowanie ma być optymalne kosztowo dlatego używamy spot instance. Pójdziemy dzisiaj pod prąd rekomendacjom Databricks. Zacznijmy jednak od początku.
Read More