Streamlit: Jak edytować dane?

Problem:

Porównujesz dwa zbiory danych: przed i po migracji. Wkraczasz w fazę budowania zaufania i wiarygodności. Okazało się, że nie wszystkie dane są jednakowe. Niektóre wymagają dodatkowej analizy i poprawek, a niektóre wyglądają lepiej w zmigrowanym datasecie. Na tyle lepiej, że trzeba je przedstawić biznesowi i pokazać na przykładach, że po migracji wyniki są lepsze.
W jaki sposób opisać te dane?

Rozwiązanie:

Jednym z pomysłów na rozwiązanie może być Streamlit. Przy jego pomocy dodasz komentarze, które potem będą służyły jako:
1. Punkt do analizy i późniejszego ponownego sprawdzenia
2. Przedstawisz je biznesowi jako dowód na poprawę jakości danych.

Read More

Czym zajmuje się Data Engineer i Data Analyst?

czym zajmuje się data engineer

W dużej organizacji systemów przechowujących dane jest wiele.

Użytkowników korzystających z tych systemów jest jeszcze więcej.

Użytkownicy mają wiele potrzeb i problemów, które dane mogą rozwiązać.

Ale tutaj uwaga. Nie patrz na dane pod kątem jednego systemu.

On znajdują się w wielu systemach i dopiero, gdy uzupełnimy jedne dane drugimi możemy uzyskać pełniejszy obraz.

Jeden system prezentuje wąski wycinek rzeczywistości – możesz powiedzieć jeden piksel.

Bardziej to zaciemnia, niż umożliwia na odpowiedź na kluczowe pytania. Potrzebujesz zobaczyć szerszy kontekst i zobaczyć dane i systemy holistycznie.

Do skomplikowanej pracy z danymi do ich integracji i potem analizy, odpowiedzi na kluczowe pytania, potrzebni są specjaliści.

I to właśnie o bohaterowie dzisiejszego odcinka:

Data Engineer i Data Analyst, tworzą pełniejszy obraz świata.

Czym zajmuje się Data Engineer?

Read More

Pandas can do THIS? Data Engineer perspective on pandas

We all work with data.

Amount of data is growing fast, in the business setup or daily life. There is a need to extract them from different places, marge it, filter and send it to someone.

And do it AS FAST AS POSSIBLE.

Probably you also have a lot of data to be analyzed.

Most likely, you don’t like to repeat this operations over and over again. Doing everything manually is a tedious task.

Python and pandas might be the tools that you need.

Pandas gives you possibility to:
– read it from heterogeneous data sources: (CSV, Excel, Database, Parquet etc)
– analyze the data,
– operate on a data,
– manipulate the data,
– supplement it with another data,
– filter and sort.

After you are done with your operations, pandas gives you a possibility to store it in your favorite format: Excel, CSV, Parquet. Whatever you like.

Read More