poniedziałek, 22 stycznia 2018

Project Maestro Beta 2 - moje wrażenia

Jakiś czas temu pisaliśmy o nowym przedsięwzięciu producentów Tableau - innowacyjnym narzędziu ETL o nazwie kodowej Project Maestro. Prawdopodobnie każdy, kto pracuję z dużo ilością danych (szczególnie, analitycy, deweloperzy) zgodzi się z tym, że w większości przypadków to właśnie przygotowanie danych stanowi największe wyzwanie we współczesnych projektach IT (niezależnie od ich wielkości). Niektóre badania mówią nawet, że na ten etap tracimy około 80% naszego czasu, a sama wizualizacja danych to tylko 20% całkowitego czasu trwania projektów. Oczywiście sprawa jest dużo bardziej złożona i wszystko zależy tak naprawdę od wielu czynników, jednak jako doświadczony konsultant Tableau, który brał udział w kilkunastu projektach wdrożeniowych różnej wielkości, niestety muszę się zgodzić z tym stwierdzeniem :)

ETL (Extract, Transform, Load)
 to zbiorcza nazwa narzędzi służących do transformacji danych, które pozwalają na integrację wielu niejednorodnych źródeł (pliki tekstowe, excele, bazy relacyjne itp) oraz ich przetwarzanie/wzbogacenie w celu uzyskania jednolitego zbioru danych spełniającego szereg uprzednio zdefiniowanych kryteriów dotyczących ich jakości (tzw. data quality). Jeszcze do niedawna byliśmy w tym zakesie skazani na rozmaite narzędzia third party (np. Alteryx, Informatica czy Pentaho). W chwili obecnej producenci Tableau wyszli na przeciw naszym oczekiwaniom i zaoferowali nam rozwiązanie w pełni zintegrowane z Tableau Desktop. Co więcej, już na pierwszy rzut oka widać, że podobnie jak w ich pierwszym projekcie, interfejs jest bardzo przejrzysty, a samo narzędzie nie przytłacza użytkownika przy pierwszym kontakcie.

Pierwsza beta oferowała jedynie podstawową funkcjonalność z zakresu przetwarzania danych (filtrowanie, kalkulacje, splity, joiny, uniony, agregacje, itp). Przyznam szczerze, że potraktowałem to jako przystawkę przed głównym daniem, które producent obiecał dostarczyć w późniejszym terminie.

Wraz z drugą fazą programu Beta, twórcy oddali w nasze ręce kilka nowych możliwości, np. wildcard union, znaną z Tableau funkcję data interpreter oraz popularne pivoty, których tak bardzo brakowało mi w pierwszym buildzie!


Tuż po połączeniu się z wybranym plikiem ujrzymy pierwszy ekran, który pozwala na zapoznanie się ogólną strukturą analizowanych danych (liczba kolumn, wierszy, typy danych, etc). Na tym etapie możemy wykorzystać dodatkowe filtry i obejrzeć dowolny sample danych (można użyć opcji random).

Pierwszy ekran, który zobaczymy po wczytaniu dowolnego pliku z danymi

Na pierwszym etapie mamy również możliwość zmiany defaultowych typów danych wykrytych przez program. Po dodaniu kolejnego "stepu" w naszym workflow pojawia się szereg opcji dotyczących jakości oraz czyszczenia danych. Muszę przyznać, że widziałem już niejedno narzędzie ETL, i nigdzie informacje te nie były podane w tak przejrzysty sposób. Widać, że twórcy Tableau inspirowali się najlepszymi pomysłami swoich konkurentów (Alteryx, to znowu ty?).

Kolejny etap, który pozwoli nam lepiej zrozumieć nasze dane

Na tym etapie możeny dokładnie zapoznać się ze wszystkimi danymi. W bardzo prosty sposób usuniemy irytujące literówki oraz pogrupujemy te same serie danych. O wszystkich dokonanych zmianach jesteśmy informowani w lewej górnej częsci ekranu (screen).

Wszystkie dokonane zmiany zostaną zapamiętane przez program

Project Maestro korzysta również z dobrodziejstw machine learningu i jest w stanie samodzielnie grupować podobne wartości w ramach pojedynczego wymiaru (zazwyczaj są to po prostu irytujące literówki czy też różnice w kodowaniu znaków). Ten efekt możemy uzyskać - uwaga - za pomocą jednego kliknięcia! (Group and Replace-Pronunciation). Jest również możliowość manualnego wskazania wartości, które zostaną "zmergowane".
Opcja pozwalająca na oczyszczenie danych przy wykorzystaniu machine learningu

Nie zabrakło również rozbudowanych opcji dotyczących delimitowania długich ciągów wyrażeń, co bardzo przydaje sie w trakcie pracy z plikami tekstowymi.

Splity, czyli jedna z najprzydatniejszych umiejętności w Maestro
Moim abolutnym faworytem są jednak stare dobre pivoty, których tak bardzo brakowało w pierwszej wersji bety. Teraz nawet najgorzej sformatowany excel może zostać "spłaszczony" za pomocą dosłownie kilku kliknięć!

Dobry pivot potrafi uratować życie analityka

Ostateczny efekt naszych prac możemy wyeksportować do jednego z trzech formatów:
  • Tableau Data Extract (.hyper)
  • Tableau Data Extract (.tde)
  • Plik tekstowy .csv - bardzo przydatne - nie każdy na świecie korzysta z Tableau :)
Eksportowanie danych do pliku .tde
Cały proces eksportu trwa dosłownie kilka-kilkanaście sekund w zależności od wielkości naszego zbioru danych oraz ilości wukonywanych operacji. Na pewno jest to mechanizm dużo wydajniejszy, niż ten zastosowany w Tableau, bo te same operacje w Maestro były wykonywane zdecydowanie szybciej. To zapewne zasługa nowego mechanizmu hyper oraz lepszej optymalizacji zapytań.

Jak na wczesną betę Maestro wygląda naprawdę nieźle. Oczywiście ma sporo problemów ze stabilnością, a także brakuje mu wielu podstawowych funkcjonalności, które są dostępne "out of the box" np. w takim Alteryxie, jednak już teraz widać, że producenci Tableau zmierzają w dobrym kierunku. Osobiście traktuję Project Maestro w kategoriach fajnej ciekawostki oraz porgramu "ETL lite" jednak niewykluczone, że już za kilkanaście miesięcy o tym produkcie będzie naprawdę głośno, bo przejrzyste i wydajne narzędzia do transformacji danych są zawsze w cenie.

Brak komentarzy:

Publikowanie komentarza