czwartek, 8 lutego 2018

Ruszyła kolejna beta Project Maestro!

Z kronikarskiego obowiązku wypadałoby wspomnieć, że właśnie ruszyła trzecia faza betatestów Project Maestro - czyli narzędzia ETL prosto od producentów Tableau. Trzeba przyznać, że pracę nad tym projektem nabierają tempa. W wersji Beta 3 przetestujecie między innymi:

  • czyszczenie pól tekstowych: upper/lower case, usuwanie znaków interpunkcyjnych i spacji
  • więcej opcji filtrowania dat (w tym tzw. "relative date filters")
  •  zmiana nazwy kolumn na etapie inputu
  • usprawnienia joinów i pivotów (podgląd mismatched values, smart default names)
  • łatwiejsze dodawanie kolejnch połączeń (drag and drop)
  • operacje na kilku "stepach" jednocześnie (bulk operations)
  • łatwiejsze debugowanie data flow (go to error)

Trzeba przyznać, że w porównaniu do poprzedniej wersji Beta 2, zmian jest naprawdę sporo. Niektóre z nich, takie jak łatwiejsze debugowanie i "bulk operations" to na pewno ważny krok w stronę pełnoprawnego narzędzia ETL. Jeszcze niedawno złośliwi mówili, że to co dostaliśmy do tej pory można było nazwać co najwyżej aplikacją typu "ETL lite", której daleko do rozwiązań takich jak Alteryx czy Informatica. Być może już za kilka lat to własnie Maestro będzie wyznacznikiem najwyższej jakości w przetwarzaniu i transformacji danych. Na pewno warto śledzić ten bardzo dynamicznie rozwijający się projekt :)

niedziela, 4 lutego 2018

Rusza Tableau 2018.1 Beta 1

Tableau zaczyna rok bardzo intensywnie - właśnie ruszyła kolejna Beta o zupełnie nowym oznaczeniu 2018.1 (przypominam, że dosłownie przed kilkoma tygodniami na naszych dyskach twardych gościliśmy wersję o numerze 10.5). Czyżby to zapowiedź jeszcze większej ilości programów beta w 2018? Już teraz producenci przyznają, że kolejny build Beta 2 będzie zawierał dużo więcej nowości. A co przygotowano dla nas juz teraz?



  • Step and Jump lines - funkcja pozwalająca na łatwiejsze wyświetlanie danych typu discrete
  • Analytic object guidance - coś w stylu "Show Me" tylko dostępne w zakładce Analytics
  • Easier connector driver installation - teoretycznie Tableau powinno samo rozpoznać, jakich sterowników potrzebujesz w celu podłączenia się z danym data source
Zestawienie nowych funkcjonalności Tableau 10.5 Beta 2 (v2018.1)

poniedziałek, 22 stycznia 2018

Project Maestro Beta 2 - moje wrażenia

Jakiś czas temu pisaliśmy o nowym przedsięwzięciu producentów Tableau - innowacyjnym narzędziu ETL o nazwie kodowej Project Maestro. Prawdopodobnie każdy, kto pracuję z dużo ilością danych (szczególnie, analitycy, deweloperzy) zgodzi się z tym, że w większości przypadków to właśnie przygotowanie danych stanowi największe wyzwanie we współczesnych projektach IT (niezależnie od ich wielkości). Niektóre badania mówią nawet, że na ten etap tracimy około 80% naszego czasu, a sama wizualizacja danych to tylko 20% całkowitego czasu trwania projektów. Oczywiście sprawa jest dużo bardziej złożona i wszystko zależy tak naprawdę od wielu czynników, jednak jako doświadczony konsultant Tableau, który brał udział w kilkunastu projektach wdrożeniowych różnej wielkości, niestety muszę się zgodzić z tym stwierdzeniem :)

ETL (Extract, Transform, Load)
 to zbiorcza nazwa narzędzi służących do transformacji danych, które pozwalają na integrację wielu niejednorodnych źródeł (pliki tekstowe, excele, bazy relacyjne itp) oraz ich przetwarzanie/wzbogacenie w celu uzyskania jednolitego zbioru danych spełniającego szereg uprzednio zdefiniowanych kryteriów dotyczących ich jakości (tzw. data quality). Jeszcze do niedawna byliśmy w tym zakesie skazani na rozmaite narzędzia third party (np. Alteryx, Informatica czy Pentaho). W chwili obecnej producenci Tableau wyszli na przeciw naszym oczekiwaniom i zaoferowali nam rozwiązanie w pełni zintegrowane z Tableau Desktop. Co więcej, już na pierwszy rzut oka widać, że podobnie jak w ich pierwszym projekcie, interfejs jest bardzo przejrzysty, a samo narzędzie nie przytłacza użytkownika przy pierwszym kontakcie.

Pierwsza beta oferowała jedynie podstawową funkcjonalność z zakresu przetwarzania danych (filtrowanie, kalkulacje, splity, joiny, uniony, agregacje, itp). Przyznam szczerze, że potraktowałem to jako przystawkę przed głównym daniem, które producent obiecał dostarczyć w późniejszym terminie.

Wraz z drugą fazą programu Beta, twórcy oddali w nasze ręce kilka nowych możliwości, np. wildcard union, znaną z Tableau funkcję data interpreter oraz popularne pivoty, których tak bardzo brakowało mi w pierwszym buildzie!


Tuż po połączeniu się z wybranym plikiem ujrzymy pierwszy ekran, który pozwala na zapoznanie się ogólną strukturą analizowanych danych (liczba kolumn, wierszy, typy danych, etc). Na tym etapie możemy wykorzystać dodatkowe filtry i obejrzeć dowolny sample danych (można użyć opcji random).

Pierwszy ekran, który zobaczymy po wczytaniu dowolnego pliku z danymi

Na pierwszym etapie mamy również możliwość zmiany defaultowych typów danych wykrytych przez program. Po dodaniu kolejnego "stepu" w naszym workflow pojawia się szereg opcji dotyczących jakości oraz czyszczenia danych. Muszę przyznać, że widziałem już niejedno narzędzie ETL, i nigdzie informacje te nie były podane w tak przejrzysty sposób. Widać, że twórcy Tableau inspirowali się najlepszymi pomysłami swoich konkurentów (Alteryx, to znowu ty?).

Kolejny etap, który pozwoli nam lepiej zrozumieć nasze dane

Na tym etapie możeny dokładnie zapoznać się ze wszystkimi danymi. W bardzo prosty sposób usuniemy irytujące literówki oraz pogrupujemy te same serie danych. O wszystkich dokonanych zmianach jesteśmy informowani w lewej górnej częsci ekranu (screen).

Wszystkie dokonane zmiany zostaną zapamiętane przez program

Project Maestro korzysta również z dobrodziejstw machine learningu i jest w stanie samodzielnie grupować podobne wartości w ramach pojedynczego wymiaru (zazwyczaj są to po prostu irytujące literówki czy też różnice w kodowaniu znaków). Ten efekt możemy uzyskać - uwaga - za pomocą jednego kliknięcia! (Group and Replace-Pronunciation). Jest również możliowość manualnego wskazania wartości, które zostaną "zmergowane".
Opcja pozwalająca na oczyszczenie danych przy wykorzystaniu machine learningu

Nie zabrakło również rozbudowanych opcji dotyczących delimitowania długich ciągów wyrażeń, co bardzo przydaje sie w trakcie pracy z plikami tekstowymi.

Splity, czyli jedna z najprzydatniejszych umiejętności w Maestro
Moim abolutnym faworytem są jednak stare dobre pivoty, których tak bardzo brakowało w pierwszej wersji bety. Teraz nawet najgorzej sformatowany excel może zostać "spłaszczony" za pomocą dosłownie kilku kliknięć!

Dobry pivot potrafi uratować życie analityka

Ostateczny efekt naszych prac możemy wyeksportować do jednego z trzech formatów:
  • Tableau Data Extract (.hyper)
  • Tableau Data Extract (.tde)
  • Plik tekstowy .csv - bardzo przydatne - nie każdy na świecie korzysta z Tableau :)
Eksportowanie danych do pliku .tde
Cały proces eksportu trwa dosłownie kilka-kilkanaście sekund w zależności od wielkości naszego zbioru danych oraz ilości wukonywanych operacji. Na pewno jest to mechanizm dużo wydajniejszy, niż ten zastosowany w Tableau, bo te same operacje w Maestro były wykonywane zdecydowanie szybciej. To zapewne zasługa nowego mechanizmu hyper oraz lepszej optymalizacji zapytań.

Jak na wczesną betę Maestro wygląda naprawdę nieźle. Oczywiście ma sporo problemów ze stabilnością, a także brakuje mu wielu podstawowych funkcjonalności, które są dostępne "out of the box" np. w takim Alteryxie, jednak już teraz widać, że producenci Tableau zmierzają w dobrym kierunku. Osobiście traktuję Project Maestro w kategoriach fajnej ciekawostki oraz porgramu "ETL lite" jednak niewykluczone, że już za kilkanaście miesięcy o tym produkcie będzie naprawdę głośno, bo przejrzyste i wydajne narzędzia do transformacji danych są zawsze w cenie.

sobota, 13 stycznia 2018

Tableau 10.5 już jest!

Przed kilkoma dniami pojawiła się długo wyczekiwana wersja Tableau opatrzona numerem 10.5:

O najważniejszych zmianach w tej wersji pisaliśmy już w trakcie pierwszej fazy beta. Największą nowością jest oczywiście Hyper, który według producenta ma zapewnić pięciokrotny wzrost wydajności w zapytaniach i trzy razy szybszy proces tworzenia ekstraktów danych. W najbliższym czasie postaram się sprawdzić, ile w tym prawdy :)

Tradycyjnie już zamieszczam link do pelnej listy zmian zamieszczonej na stronie producenta.

wtorek, 2 stycznia 2018

Tableau vs Power BI - ciekawe porównanie od DataSelf BI

Witam wszystkich w Nowym Roku! Power BI z każdym miesiącem staje się coraz ciekawszą alternatywą dla Tableau - pisaliśmy o tym już kilkukrotnie. Ostatnio natknąłem się w sieci na bardzo ciekawy kanał DataSelf BI, którego autor pokusił się o kompleksowe porównanie obecnych możliwości Tableau i PowerBI. To prawdziwa skarbnica wiedzy dla tych, którzy ciągle zastanawiają się nad wyborem optymalnego narzędzia BI dla swojej organizacji!

Polecam zapoznanie się z całą serią, która przedstawia wiele aspektów, o których często zapomniamy podczas wyboru pomiędzy Tableau a PowerBI (performance, product support, integracja z innymi systemami, model licencjonowania). Przed podjęciem finalnej decyzji warto również oszacować całkowity koszt inwestycji oraz zbadać dostępność specjalistów, którzy pomogą Wam wycisnąć jak najwięcej z wybranego narzędzia. Jeszcze w tym kwartale powinniśmy dostać kolejną odsłonę prestiżowego rankingu Gartnera, która na pewno rzuci nieco więcej światła na obecną sytuację na rynku narzędzi Business Intelligence.

czwartek, 28 grudnia 2017

Tworzenie dashboardów w Tableau - 13 najważniejszych zasad

W tym artykule chciałbym podzielić się z Wami moją subiektywną listą 13 najważniejszych zasad, które musicie wziąć pod uwagę podczas tworzenia dashboardów w Tableau. Owe 13 przykazań jest oparte na obecnych best practices stosowanych w branży i z pewnością warto się z nimi zapoznać niezależnie od tego czy właśnie pracujesz nad dużym komercyjnym projektem, czy też stawiasz dopiero pierwsze kroki w świecie Tableau i szukasz po prostu wskazówek odnośnie obecnych standardów w tworzeniu współczesnych raportów.


  1. Pomyśl o swoich odbiorcach na etapie planowania - nigdy nie zaczynaj procesu tworzenia raportu bez wcześniejszego zdefiniowania docelowej grupy odbiorców (top management, dyrektorzy operacyjni, analitycy finansowi, itp.) oraz ich potrzeb. Idealnym rozwiązaniem byłoby poznanie konkretnych pytań, na jakie Twój dashboard będzie musiał odpowiedzieć. Jeżeli to niemożliwe, zbierz jak najwięcej wytycznych, aby dostosować kontent do potrzeb swoich głównych odbiorców. Pamiętaj, że w praktyce mogą to być grupy o zupełnie innych oczekiwaniach - warto zastanowić się nad tym jeszcze na etapie planowania (szkice koncepcyjne, diagramy use case).
  2. Dobierz adekwatną rozdzelczość dashboardu - jak najszybciej rozpoznaj dominującą platformę, z której będą korzystać twoi userzy i wykorzystaj odpowiednią rozdzielczość ekranu zapewniająca wysoki komfort pracy. W przypadku istnienia kilku wiodących platform w firmie (desktopy, laptopy, iPady i inne urządzenia mobilne) pomyśl o zdefiniowaniu kilku wersji layoutu w zależności od platformy docelowej. Unikniesz w ten sposób frustracji wielu użytkowników i oszczedzisz sobie dodatkowej pracy. Najczęściej stosowane rozdzelczości dla użytkowników desktopów u laptopów to odpowiednio 1000x800 i 800x600. Nigdy nie zakładaj, że wszyscy dysponują zewnętrzym monitorem o przekątnej min. 27'' :)
  3. Zawsze staraj się dzielić swój dashbord na 4 główne sekcje podobnej wielkości - to optymalne rozwiązanie które ułatwi korzystanie z Twojego rozwiązania mniej doświadczonym użytkowikom. Umieść najważniejsze informacje w lewym górnym rogu - w naszym zachodnim społeczeństwie naturalnym jest czytanie informacji od strony lewej do prawej przy wykorzystania charakterystycznego "zygzaka". Miej to na uwadze planując "flow" informacji wystwietlanych na dashboardzie.
    Standardowy four-pane design oraz naturalny kierunek czytania informacji
  4. Używaj dashboard actions zamiast quick filters - duża liczba dropdownów (filtrów, parametrów) potrafi znacznie spowolnić każdy dashboard - wygenerowanie takiej listy wymaga skanowania całego źródła danych przy każdorazowym uruchomieniu raportu. Dużo lepszym rozwiązaniem jest użycie istniejących wizualizacji bądź tabel danych jako naturalny filtr, który zostanie uruchomiony po kliknięciu na konkretną serię danych. To rozwiązanie dużo bardziej estetyczne niż dziesiątki filtrów renderowanych na defaultowej stronie (vide prompty ze starej szkoły BI)
  5. Zastosuj kaskadowy dashboard design - czyli zacznij od przedstawienia globalnych, zagregowanych danych w lewym górnym panelu i pozwól użytkownikowi na swobodne "drillowanie" do bardziej szczegółowych subsetów danych w kolejnych krokach (punkty 2,3,4 na powyższym rysunku). Poza zachowaniem naturalnego kierunku eksploracji danych ograniczysz również w ten sposób ilość danych wyświetlanych przy renderowaniu dashboardu, co znacznie poprawi jego wydajność (oczywiście w dużym uproszczeniu, bo temat "dashboard performance" jest nieco bardziej złożony i zależy od wielu czynników opisanych w poprzednich artykułach).
  6. Ogranicz liczbę wykorzystywanych kolorów - w praktyce najcześciej stosuję się jedną, dominującą paletę o stonowanych barwach do podkreślenia najważniejszych informacji, które powinny przykuć uwagę odbiorcy. Jeśli przesadzisz z ilością użytych barw, żadna z informacji nie bedzię się wybijać na pierwszy plan - osiągniesz w ten sposób efekt odwrotnie proporcjonalny do zamierzonego!
  7. Nie eksperymentuj z czcionkami - stosuj znane, czytelne czcionki takie jak Arial, Verdana czy Times New Roman. W tooltipach i nagłówkach możesz się pokusić o wykorzystanie czegoś mniej tradycyjnego np. bardzo ładny Trebuchet MS. Unikaj jak ognia wszystkiego, co może sprawić userowi trudności w odczytaniu najprostszego komunikatu.
  8. Nie zapomnij o dodaniu krótkiej instrukcji odnośnie korzystania z nawigacji - nie wszystkie dashbard actions są oczywiste dla przeciętnego usera. Wykorzystaj nagłówki i tooltipy do przekazania podstawowych informacji na temat zasad poruszania się po dashboardzie, celu analizy oraz znaczenia użytych metryk/ pojęć biznesowych. Twoi użytkownicy będą Ci za to bardzo wdzięczni, a ty ograniczysz w ten sposób ilość otrzymywanych pytań na temat poszczególnych funkcjonalności.
  9. Zawęź rezultaty pokazywane w crosstabach - unikaj gigantycznych tabel zawierających dziesiątki kategorii i metryk. Staraj się zawęzić kontekst analizy/ umożliwić swobodne filtrowanie, aby łatwiej odnaleźć interesujące "patterny" i trendy w zbiorze analizowanych danych.
  10. Usuń wszystkie zbędne elementy - bez zastanowienia eliminuj tzw. "non-data-ink elements", które nie wnoszą żadnej wartości dodanej do analizy a jedynie pochłaniają cenne miejsce. Dotyczy to wszystkich opcjonalnych obiektów, takich jak: tekst, linie czy zbędne formatowanie (shading, kolory). Twój dashboard będzie idealny dopiero wtedy, gdy nie będziesz już w stanie rozpoznać żadnych elementów, które jesteś w stanie usunać bez wpływu na kontekst wyświetlanych informacji.
  11. Responsywność jest podstawą dobrego UX - nikt z nas nie chcę już dzisiaj korzystać z narzędzi, które każą nam czekać więcej niż kilka sekund na wyświetlenie interesujących nas informacji. Jeśli nie jesteś w stanie osiągnąc takiego rezultatu, pomyśl nad redesignem raportu albo całkowitym przemodelowaniem danych.
  12. "Less is More" - prosta zasada, która powinna Ci przyświecać podczas pracy nad każdym dashboardem. Unikaj pokusy pokazywania wszystkich informacji na jednym widoku - skup się na tym, co najistotniejsze z perspektywy end-usera, ewentualnie podziel dashboard na kilka odrębnych stron.
  13. Tworzenie pofesjonalnych dashboardów to proces iteracyjny - nie zapominaj o tym, że nawet najlepszy deweloper nie jest w stanie dostarczyć perfekcyjnego dashboardu wyłącznie w oparciu o stos zebranych wymagań. Zazwyczaj potrzeba wielu godzin konsultacji z użytkownikiem biznesowym, aby dojść do satysfakcjonującego rozwiązania dla obu stron. Postaraj się jak najszybciej dostarczyć pierwsze techniczne demo, żeby wyznaczyć ogólny kierunek działań. Nie wahaj się zadawać dodatkowych pytań w celu doprecyzowania wymagań!
Każdy projekt ma swoją specyfikę, jednak warto pamiętać o tych 13 złotych zasadach, które pozwolą Ci oszczędzić wiele czasu, a także uniknąć frustracji ze strony potencjalnego odbiorcy. Pamiętaj, że praktyka czyni mistrza :) Korzystając z okazji chciałbym Wam życzyć samych sukcesów w nadchodzącym 2018 roku!



środa, 13 grudnia 2017

Tableau Desktop Certified Professional - nie taki diabeł straszny, jak go malują

W ubiegłym miesiącu pisałem o nowych zasadach zdawania egzaminów Tableau Qualfied Associate i Tableau Certified Professional. Było też trochę informacji o samym egzaminie Desktop 10 Certified Professional i o tym, jak się do niego przygotować. Mam nadzieję, że nikogo z Was nie zniechęciłem do spróbowania swoich sił swoim dośc krytycznym spojrzeniem na cały proces egzaminacyjny, dlatego chciałbym potwierdzić, że nie jest to walka z góry skazana na porażkę jeśli weźmiecie sobie do serca kilka rad, o których wspomniałem.

Właśnie otrzymałem wyniki mojego listopadowego egzaminu i ku mojej uciesze tym razem wszystko poszło zgodnie z planem :) Poniżej przedstawiam jak prezentuje się nowy, pozbawiony numeru wersji certyfikat Tableau Desktop Certified Professional, który zgodnie z tym co wcześniej mówiono jest ważny równe 3 lata od dnia samego egzaminu (2 lata w przypadku stopnia QA).