ETL (Extract, Transform, Load) to zbiorcza nazwa narzędzi służących do transformacji danych, które pozwalają na integrację wielu niejednorodnych źródeł (pliki tekstowe, excele, bazy relacyjne itp) oraz ich przetwarzanie/wzbogacenie w celu uzyskania jednolitego zbioru danych spełniającego szereg uprzednio zdefiniowanych kryteriów dotyczących ich jakości (tzw. data quality). Jeszcze do niedawna byliśmy w tym zakesie skazani na rozmaite narzędzia third party (np. Alteryx, Informatica czy Pentaho). W chwili obecnej producenci Tableau wyszli na przeciw naszym oczekiwaniom i zaoferowali nam rozwiązanie w pełni zintegrowane z Tableau Desktop. Co więcej, już na pierwszy rzut oka widać, że podobnie jak w ich pierwszym projekcie, interfejs jest bardzo przejrzysty, a samo narzędzie nie przytłacza użytkownika przy pierwszym kontakcie.
Pierwsza beta oferowała jedynie podstawową funkcjonalność z zakresu przetwarzania danych (filtrowanie, kalkulacje, splity, joiny, uniony, agregacje, itp). Przyznam szczerze, że potraktowałem to jako przystawkę przed głównym daniem, które producent obiecał dostarczyć w późniejszym terminie.
Wraz z drugą fazą programu Beta, twórcy oddali w nasze ręce kilka nowych możliwości, np. wildcard union, znaną z Tableau funkcję data interpreter oraz popularne pivoty, których tak bardzo brakowało mi w pierwszym buildzie!
Tuż po połączeniu się z wybranym plikiem ujrzymy pierwszy ekran, który pozwala na zapoznanie się ogólną strukturą analizowanych danych (liczba kolumn, wierszy, typy danych, etc). Na tym etapie możemy wykorzystać dodatkowe filtry i obejrzeć dowolny sample danych (można użyć opcji random).
![]() |
Pierwszy ekran, który zobaczymy po wczytaniu dowolnego pliku z danymi |
Na pierwszym etapie mamy również możliwość zmiany defaultowych typów danych wykrytych przez program. Po dodaniu kolejnego "stepu" w naszym workflow pojawia się szereg opcji dotyczących jakości oraz czyszczenia danych. Muszę przyznać, że widziałem już niejedno narzędzie ETL, i nigdzie informacje te nie były podane w tak przejrzysty sposób. Widać, że twórcy Tableau inspirowali się najlepszymi pomysłami swoich konkurentów (Alteryx, to znowu ty?).
![]() |
Kolejny etap, który pozwoli nam lepiej zrozumieć nasze dane |
Na tym etapie możeny dokładnie zapoznać się ze wszystkimi danymi. W bardzo prosty sposób usuniemy irytujące literówki oraz pogrupujemy te same serie danych. O wszystkich dokonanych zmianach jesteśmy informowani w lewej górnej częsci ekranu (screen).
![]() |
Wszystkie dokonane zmiany zostaną zapamiętane przez program |
Project Maestro korzysta również z dobrodziejstw machine learningu i jest w stanie samodzielnie grupować podobne wartości w ramach pojedynczego wymiaru (zazwyczaj są to po prostu irytujące literówki czy też różnice w kodowaniu znaków). Ten efekt możemy uzyskać - uwaga - za pomocą jednego kliknięcia! (Group and Replace-Pronunciation). Jest również możliowość manualnego wskazania wartości, które zostaną "zmergowane".
![]() |
Opcja pozwalająca na oczyszczenie danych przy wykorzystaniu machine learningu |
Nie zabrakło również rozbudowanych opcji dotyczących delimitowania długich ciągów wyrażeń, co bardzo przydaje sie w trakcie pracy z plikami tekstowymi.
Moim abolutnym faworytem są jednak stare dobre pivoty, których tak bardzo brakowało w pierwszej wersji bety. Teraz nawet najgorzej sformatowany excel może zostać "spłaszczony" za pomocą dosłownie kilku kliknięć!
Ostateczny efekt naszych prac możemy wyeksportować do jednego z trzech formatów:
![]() |
Splity, czyli jedna z najprzydatniejszych umiejętności w Maestro |
![]() |
Dobry pivot potrafi uratować życie analityka |
Ostateczny efekt naszych prac możemy wyeksportować do jednego z trzech formatów:
- Tableau Data Extract (.hyper)
- Tableau Data Extract (.tde)
- Plik tekstowy .csv - bardzo przydatne - nie każdy na świecie korzysta z Tableau :)
![]() |
Eksportowanie danych do pliku .tde |
Jak na wczesną betę Maestro wygląda naprawdę nieźle. Oczywiście ma sporo problemów ze stabilnością, a także brakuje mu wielu podstawowych funkcjonalności, które są dostępne "out of the box" np. w takim Alteryxie, jednak już teraz widać, że producenci Tableau zmierzają w dobrym kierunku. Osobiście traktuję Project Maestro w kategoriach fajnej ciekawostki oraz porgramu "ETL lite" jednak niewykluczone, że już za kilkanaście miesięcy o tym produkcie będzie naprawdę głośno, bo przejrzyste i wydajne narzędzia do transformacji danych są zawsze w cenie.
Brak komentarzy:
Prześlij komentarz