Next Level BI Blog

Zalety chmury w rozwiązaniach data

8 lipca, 2022 Rafał Gogłoza

Pracowałeś już z chmurą przy projekcie hurtowni danych albo data lake?

Masz już zapewne wyrobione zdanie: Co Ci się podoba, a co jest chwytem marketingowym, co wymaga dopracowania, gdzie czekasz na kolejną wersję, gdzie przydałoby się lepsze API zamiast interfejsu graficznego albo odwrotnie, bardziej wolałbyś interfejs graficzny zamiast pisania kodu.

Zrozumienie chmury to nie jest proces do ogarnięcia w czasie przerwy na kawę.

Ale jeżeli masz tylko tyle czasu, wtedy należy mieć nadzieję, że masz bogatego klienta.

Dla bogatego klienta, przesuwasz suwak maksymalnie w prawo i już nigdy nie martwisz się o wydajność. Tacy klienci, to niestety miejska legenda.

Większość klientów patrzy uważnie, ile chmura kosztuje i czy to się opłaca.

Jeżeli szukasz argumentów, jak rozmawiać o chmurze, zapraszam.

Dzisiaj o tej jasnej stronie chmury, na przykładzie Azure.

Power BI: pytania na rozmowę kwalifikacyjną

5 czerwca, 202224 stycznia, 2023 Rafał Gogłoza

Power BI pytania na rozmowę kwalifikacyjną.

DAX:
1. Co to jest 'Tabular Object Model’ (TOM)?
2. Jaka jest różnica między Power Query (m) i DAX?
3. Czym różni się SUM od SUMX?
4. Jak policzyć sumę tylko dla wybranych wartości? (używając filtra)
5. Czym się różni ROWCONTEXT od FILTERCONTEXT w DAX?
6. Jak sprawdzić czy kolumna jest filtrowana po konkretnej wartości w raporcie?

SQL IN – dla dociekliwych

22 maja, 202222 maja, 2022 Rafał Gogłoza

Wyrażenie IN w SQL’u pozwala uprościć przekazywanie do zapytania listy warunków.

Wyobraź sobie, że tabele z markami samochodów. Do głowy powinny Ci przyjść nazwy najbardziej popularnych producentów: Volvo, Tesla, Audi, Volkswagen, Ford, Toyota, Honda itd. Chciałbyś ograniczyć listę wyników tylko do trzech najbardziej popularnych w Polsce marek: Toyota, Volkswagen i Audi.

Zwinna hurtownia danych

12 kwietnia, 202212 kwietnia, 2022 Rafał Gogłoza

Przenosząc rozwiązanie hurtowni danych do chmury, masz gotowy ból głowy.

Jak się odnaleźć w nowym środowisku? Jak dostarczyć tam dane? Jaką usługę wybrać? Jak przechowywać dane? Jak przetwarzać dane? Jak ustawić model dostępu do danych?

I jeszcze jedno wielkie pytanie:

Jak nie zbankrutować?

W niektórych przypadkach rozwiązaniem jest zwinna hurtownia danych.

Zwinna hurtownia danych to taka, która nie opiera się o bazę danych. Dane przechowuje w systemie plików, może to być na przykład Data Lake w chmurze (np. Azure Data Lake Gen 2 [nazewnictwo aktualne na kwiecień 2022]).

Zdecydowaną zaletą takiego rozwiązania jest niska cena.

Jak określić, czy taka hurtownia będzie dobra właśnie dla Ciebie?

Dobre praktyki SQL: select * w produkcyjnym kodzie?

28 marca, 202228 marca, 2022 Rafał Gogłoza

Jakie są dobre praktyki SQL? Co jest ważne, gdy zaczynasz pisać kod SQL?

Wyobraź sobie swoje pierwsze zapytanie zapytanie SQL albo pierwszy kod który ujrzy produkcyjne światło:

Jako świeżo mianowany data engineer: Na potrzeby projektu data.

Na potrzeby testowania i sprawdzania jakości danych.

Na potrzeby analizy i przygotowywania wymagań dla nowych zmian.

Niektóre dobre praktyki, na które warto zwrócić uwagę na początku. Poznanie ich pozwoli Ci pisać lepszy i bardziej odporny na zmiany kod. Będzie on też lepiej przystosowany do późniejszych zmian albo udostępnienia członkom zespołu.

SELECT * – czy to na pewno dobry pomysł

Aliasy – jak, kiedy dlaczego

Next Level SQL

17 lutego, 202228 marca, 2022 Rafał Gogłoza

Zdecydowałeś o podjęciu kroków zmierzających do nauki SQL’a, pora na ułożenie agendy.

Naukę podzieliłbym na trzy segmenty. Podstawowy, środnio zaawansowany i zaawansowany.

W zależności od Twojego stopnia zaawansowania, możesz przejść do odpowiedniego poziomu.

Next Level SQL to odpowiedź na obecne potrzebny. Chcesz podnieść wiedzę dotyczącą SQL’a szybko albo odpowiedzieć na najbardziej palące problemy i przygotować się do rozmowy o pracę.

Agenda jest szczególnie przydatna, jeżeli pracujesz na co dzień z danymi. Jesteś Testerem, Business Analitykiem, Data Scientistem. Albo zmierzasz wielkimi krokami w stronę Data Engineera lub Data Analysta,

Daj mi proszę znać w komentarzu, czy którymś modułem jesteś szczególnie zainteresowany. Postaram się wtedy potraktować go priorytetowo.

Czym zajmuje się Data Engineer i Data Analyst?

23 stycznia, 202224 stycznia, 2022 Rafał Gogłoza

W dużej organizacji systemów przechowujących dane jest wiele.

Użytkowników korzystających z tych systemów jest jeszcze więcej.

Użytkownicy mają wiele potrzeb i problemów, które dane mogą rozwiązać.

Ale tutaj uwaga. Nie patrz na dane pod kątem jednego systemu.

On znajdują się w wielu systemach i dopiero, gdy uzupełnimy jedne dane drugimi możemy uzyskać pełniejszy obraz.

Jeden system prezentuje wąski wycinek rzeczywistości – możesz powiedzieć jeden piksel.

Bardziej to zaciemnia, niż umożliwia na odpowiedź na kluczowe pytania. Potrzebujesz zobaczyć szerszy kontekst i zobaczyć dane i systemy holistycznie.

Do skomplikowanej pracy z danymi do ich integracji i potem analizy, odpowiedzi na kluczowe pytania, potrzebni są specjaliści.

I to właśnie o bohaterowie dzisiejszego odcinka:

Data Engineer i Data Analyst, tworzą pełniejszy obraz świata.

Czym zajmuje się Data Engineer?

4 ways to improve Impala performance

29 grudnia, 2021 Rafał Gogłoza

Useful Impala commands that you can use to improve queries performance are:

COMPUTE STATS

SET MEM_LIMIT

CREATING TEMP TABLE

Those statements will make your code smarter.

Performance will be greater and your managers, users and DB’s will be happy to work with you.

INSERT OVERWRITE – will make your life much easier when handling deletes.

Continue reading to know when it is good to apply those statements.

How to delete small portion of data from BIG table?

15 listopada, 2021 Rafał Gogłoza

You have a big table. The biggest in your system.

You may say big table, big fun but also in some situation a big challenge.

The manager gives you a task:

Delete a small portion of data from this table. Only about 1% of rows need to be removed.

How would you approach this task?

What query will you build? How would you minimize logical reads? Would you approach this task differently if it was a one time activity or task executed on a regular basis?

Consider: is this table used exclusively used by you? Maybe in parallel, some other process execute inserts into this table?

Continue reading to see how to delete data in batch on SQL Server.

How to remove duplicates using window function?

31 października, 202131 października, 2021 Rafał Gogłoza

Removing duplicates, is a challenging task.

Sometimes you need something special. Using DISTINCT/ GROUP BY / UNION is not enough.

You need to remove duplicates is some other way: using window function:

You can do it using following query:

WITH loc_dim AS (
SELECT 
  ROW_NUMBER() OVER (PARTITION BY u.Location ORDER BY u.Id) AS RowNumber, u.Location
FROM dbo.Users u
)
SELECT loc.Location FROM loc_dim loc
WHERE loc.RowNumber = 1

If you would like to see how input data looks like. What is the expected result. When this approach might not be a good idea. Please continue reading.