Data Voodoo, czyli dlaczego maszyna wybrałaby Fiata Multiplę
Idealny samochód, prawda? Tylko dlaczego tak rzadko widujemy go na ulicach? Jego przykład może się okazać bardzo pomocny w zrozumieniu, czym zajmują się analitycy dużych zbiorów danych.
O pracy wśród danych, opowiadaniu historii i błędach poznawczych rozmawiam z Tomkiem Jamińskim z OLX.
Karol Kopańko, Spider's Web: Big Data, to mówiąc inaczej ogromny zbiór danych, który może być pomocny w podejmowaniu decyzji, ale do sformułowania na jego podstawie wartościowych wniosków cały czas potrzebny jest człowiek. Dlaczego algorytmy same jeszcze sobie nie radzą?
Tomek Jamiński, OLX: Odpowiem przykładem. Jakie cechy samochodu są dla ciebie najważniejsze?
Cena, spalanie…
Pewnie jeszcze koszty eksploatacji, pojemność bagażnika czy też ilość miejsca w środku?
Oczywiście.
Jeśli nakarmisz algorytm wyłącznie tymi racjonalnymi kryteriami, prawdopodobnie wskaże, że idealnym samochodem dla ciebie będzie Fiat Multipla (śmiech). W końcu idealnie spełnia wszystkie te mierzalne oczekiwania, które przed chwilą wymieniłeś. Nie tego się spodziewałeś, prawda?
Multipli bym raczej nie kupił.
Bo nie jest w twoim guście?
Nie podoba mi się.
Tak właśnie dochodzimy do sedna tego, co kieruje naszymi decyzjami. W odróżnieniu od maszyn, nasz ludzki proces decyzyjny opiera się w dużej mierze na emocjach, chociaż wolimy sami o sobie myśleć, że jesteśmy w swoich wyborach w pełni racjonalni.
Dane też nie mają emocji.
Dlatego niezbędny jest analityk, który będzie w stanie te dane poprawnie zinterpretować. Big Data daje ci możliwość dostępu do ogromnych strumieni danych. Będziesz dzięki temu wiedział, co ludzie robili, ale z samych danych nie dowiesz się, dlaczego to robili. Do tego potrzebujesz między innymi dobrego zrozumienia kontekstu, w którym porusza się użytkownik. A jeśli brakuje ci tego kontekstu, to zawsze możesz sięgnąć po badanie użyteczności.
Tak, czy inaczej, konieczne jest wejście w buty użytkownika i zrozumienie, jaki ciąg zdarzeń doprowadził do wygenerowania tego strumienia danych. Wszystko po to, aby osoby decydujące o rozwoju produktu, jakim też jest OLX, mogły podjąć jak najlepszą decyzję w oparciu o twoje wnioski i rekomendacje.
Rozumiem. Big Data można wyobrażać sobie, jako ogromny arkusz kalkulacyjny, ale na końcu musi być człowiek, który będzie w stanie za pomocą danych opowiedzieć jakąś historię.
Pierwiastek ludzki jest niezbędny, aby nadać surowym danym właściwe znaczenie. Niezależnie od tego, czy twój zbiór mieści się w jednej zakładce arkusza kalkulacyjnego, czy też na ogromnym klastrze w chmurze, w analityce zawsze chodzi o to, aby dobrze rozumieć dane, a nie uprawiać Data Voodoo.
Niestety ostatnio dość często obserwuję takie „czary z danych”, zarówno w Polsce, jak i za naszą zachodnią granicą. Polega to na tym, że wiele osób potrafi przygotować dość złożone, kolorowe i dynamiczne wizualizacje, ale nie jest w stanie wyciągnąć prawidłowych wniosków na podstawie tego, co przed chwilą stworzyli. Rozwój i automatyzacja narzędzi analitycznych sprawiły, że bardzo łatwo jest wpaść w pułapkę bezrefleksyjnego cytowania tego, co „wypluje” automat.
Naprawdę chciałbym częściej spotykać dociekliwych analityków, którzy oprócz świetnej znajomości narzędzi (takich jak np. Jupyter Notebook, Tableau czy też Superset) potrafią przede wszystkim prawidłowo zinterpretować dane, wyciągnąć właściwe wnioski z kontekstu i umiejętnie opowiedzieć historię, która za tymi danymi się kryje. Dobry analityk to prawdziwy skarb.
Wydaje mi się, że teraz bardzo łatwo można się bawić w analityka. Wystarczy, że na Facebooku mamy na jakiejś stronie kilka tysięcy lajków i już można próbować wyciągać pewne wnioski.
Dotykasz tutaj bardzo ważnej kwestii tego, co uznajemy, za nasze kluczowe wskaźniki. Z lajkami jest o tyle ciekawa kwestia, że to metryka, która sprawia, że możemy się poczuć lepiej. Klasyczna vanity metric. Fanpage rośnie? Rośnie! Więc idziemy do przodu, podczas gdy w rzeczywistości może to mieć niewielkie przełożenie na biznes. Lajków nie da się wprost powiązać z monetyzacją.
Tu się nie zgodzę. Nawet w przypadku Spider’s Web więcej lajków oznacza więcej osób, które zobaczy post i przejdzie na stronę.
Tak, ale zauważ proszę, że to zasięg jest w tym przypadku właściwą metryką opisową, która ma realne przełożenie na twój biznes. Dlatego właśnie do celów biznesowych powinno się analizować liczbę użytkowników konwertujących z Facebooka, a nie lajki per se.
Czyli chodzi o to, ile osób średnio przechodzi na stronę spośród tych, które zobaczyły post?
Tak, choć osobiście jestem za tym, aby nie polegać wyłącznie na średnich wartościach. Na przestrzeni lat szkoła i media przyzwyczaiły nas do tego pojęcia, serwując nam średnią z ocen lub statystyki na temat spożycia etanolu w społeczeństwie. Jednakże średnia potrafi bardzo fałszować obraz, dlatego że skrajnie różne rozkłady statystyczne mogą charakteryzować się taką samą średnią. Porównujesz ze sobą dwa zbiory i na podstawie średniej masz wrażenie, że widzisz to samo, podczas gdy pod spodem kryją się zupełnie odmienne historie.
Innym ciekawym przykładem jest paradoks Simpsona, gdzie łączny wynik dla połączonych grup wydaje się odwrócony względem wyników dla grup analizowanych osobno. Jeśli popatrzysz na łączne wartości w tym przykładzie, to szybko dojdziesz do wniosku, że w grupie mężczyzn konwersja była większa. Natomiast jeśli popatrzysz na te same dane w rozbiciu na poszczególne kategorie, to odkryjesz, że dla większości z nich zdecydowanie większą konwersję zaobserwowano w przypadku kobiet. Zbyt powierzchowna analiza zaprowadziła cię na manowce. Dlatego poprzestanie wyłącznie na średniej lub zbyt ogólnych agregatach realnie zmniejsza szansę na odkrycie prawdy i podjęcie właściwej decyzji.
Domyślam się, że to akurat przykład, który jest bardzo blisko rzeczywistości OLX.
W OLX Big Data pomaga nam na wielu frontach. Niemniej czasami docieramy do granic możliwości, które oferują metody ilościowe. Tak było chociażby w trakcie prac nad głównym ekranem aplikacji, na którym prezentowaliśmy spersonalizowane ogłoszenia przemieszane z kaflami, które kierowały do popularnych kategorii.
Z danych widzieliśmy różnice w sposobie użytkowania różnych wersji tego ekranu, ale nie byliśmy w stanie zrozumieć, dlaczego jest tak mało kliknięć w kafle, skoro są tam wyraźnie obecne. Same dane nie były w stanie tego wytłumaczyć. Sięgnęliśmy więc po badanie użyteczności UX. To pozwoliło nam lepiej zrozumieć kontekst użytkownika i powód takiego, a nie innego zachowania.
Czyli braliście pod uwagę to, czego wcześniej szukali ci użytkownicy?
Nie tylko. Zawartość ekranu była tworzona również na podstawie tego, czego szukały inne osoby oglądające podobne przedmioty, tak aby możliwie przybliżyć prezentowane ogłoszenia do preferencji danego użytkownika. Polega to na tym, że jeśli ostatnio oglądałeś rowery, a inni oprócz rowerów oglądali w przeszłości też kaski lub sakwy, to pokażemy tobie również takie ogłoszenia, ponieważ mogą cię zainteresować.
W trakcie testów okazało się, że różnice obserwowane w danych wynikały z dość emocjonalnego podejścia użytkowników do tego, co widzieli na ekranie. W momencie, gdy ogłoszenia nie były dopasowane do ich oczekiwań, przewijali dość energicznie ekran pod wpływem braku zainteresowania i szybko przechodzili do wyszukiwarki. W takim układzie dodatkowe kafle nie miały praktycznie żadnych szans na przyciągnięcie uwagi użytkownika.
Co zmieniliście?
Wiemy, że sugestie powinny być odpowiednią mieszanką tego, co może być dla ciebie ważne, jak i tego, czego pewnie nie szukasz, ale zainteresujesz się tym, jak tylko to zobaczysz. Trudność polega jednak na tym, że nie posiadamy stałego asortymentu ani katalogu produktów, bo OLX to nieustannie zmieniającą się paleta ogłoszeń dodawanych przez naszych użytkowników. To tworzy wiele wyzwań chociażby w zakresie określenia skuteczności wyszukiwania.
Czyli musicie być bardzo elastyczni.
Tak i w pełni skupieni na użytkowniku. Takie badania i późniejsza analiza otrzeźwiają – pokazują, że to, co wydaje się najlepsze na etapie projektowania, wcale nie musi takim być w oczach użytkowników.
A chodzi o to, aby cała platforma była dla nich jak najwygodniejsza.
Po to na nią pracujemy wspierając się cały czas danymi. Muszę jednak otwarcie przyznać, że tak, jak wszyscy jesteśmy też podatni na błędy poznawcze i skróty myślowe. Kiedy długo pracujesz z dużą ilością danych dochodzisz w pewnym momencie do wniosku, że znasz je tak dobrze, że nie potrzebujesz drobiazgowej analizy, aby wiedzieć, jaki będzie efekt wdrożenia takiej, czy innej zmiany. Zbyt duża pewność siebie prowadzi do tego, że przestajemy podejmować decyzje bazując na danych, zastępując je przeczuciami i niepoprawną intuicją. Warto być tego świadomym.
Możesz podać przykład?
Wyobraź sobie, że poświęciłeś sporo czasu i pracy całego zespołu na stworzenie nowej funkcji, która ma ułatwić wyszukiwanie przedmiotów. Robisz A/B test i na podstawie danych okazuje się, że twoja funkcja nie ma żadnego istotnego wpływu na skuteczność wyszukiwania. Jednak pomimo twardego werdyktu starasz się na siłę znaleźć inne argumenty za tym, aby ją utrzymać i ogłosić sukces. Podpierasz się przeczuciem, że jeśli więcej osób się z nią zapozna, to w końcu zacznie ona działać. W poszukiwaniu jakichkolwiek różnic mogących świadczyć na plus twojej metody próbujesz kopać głębiej w danych, które już wcześniej wykazały brak istotności, bo wiesz, że tam na pewno coś musi być.
Niestety jest to daremny trud. Cenny czas mija, a w wynikach nadal nic się nie zmienia… Wszyscy, w tym i ja sam, miewamy skłonności do popełniania takich lub innych błędów poznawczych. Wynika to po prostu z naszej ludzkiej natury.
Poniekąd łączy się to z tzw. opinią najlepiej zarabiającej osoby, prawda?
Pojęcia “HiPPO” (Highest Paid Person’s Opinion) zwykło się używać w odniesieniu do osób postawionych najwyżej w hierarchii. Ja bym jednak to zjawisko uogólnił, ponieważ może ono dotyczyć każdej osoby, która jest liderem projektu lub właścicielem danego obszaru, niezależnie od umiejscowienia w organizacji. Jeśli dane nie wspierają tezy forsowanej przez takie osoby, tym gorzej dla danych.
Dlatego dobry analityk musi być też adwokatem w sprawie swoich obserwacji. Musi być słyszalny i sprawić, aby fakty wygrywały w zderzeniu z siłą autorytetu.
Co więc decyduje o tym, czy organizacja oparta na danych odnosi sukces?
Do tego, żeby być organizacją opartą na danych nie wystarczy sam fakt posiadania ich w ogromnej ilości. Owszem sprawna technologia i dobre źródła są niezbędne, ale nade wszystko potrzebna jest kultura organizacyjna, w której proces podejmowania decyzji i nadawania kierunku rozwoju jest oparty o wnioski wyciągane z tych danych.
Dane są surowcem. Przyjemnie jest się chwalić tym, ile to ma się dysków twardych w Hadoop’ie lub jak wielki klaster dzierżawi się w chmurze, ale nie to jest najważniejsze. W OLX każdego dnia zbieramy 1,5 mld rekordów, ale to nie będzie miało żadnego znaczenia, jeśli z tej surowej rudy nie wydobędziemy esencji w postaci informacji.
Finalnie liczy się tylko to, jaki mamy wpływ na funkcjonowanie całej organizacji. Dlatego tak istotne jest to, aby informacje i sygnały płynące od analityków były właściwie konsumowane na poziomie decyzyjnym w organizacji.
Czy OLX może w tej dziedzinie ogłosić sukces?
Budowa i rozwój organizacji opartej o dane jest ciągłym procesem, a nie projektem. To nie jest tak, że zrobisz to raz, a potem odpalisz fajerwerki i spoczniesz na laurach opalając się w blasku swego samozadowolenia. Poruszamy się w bardzo dynamicznym środowisku, które stale się zmienia. W OLX jest tak, że to, co dzisiaj jest sufitem, jutro staje się podłogą.
Owszem, bardzo hucznie świętujemy sukcesy, które osiągamy, ale mamy pełną świadomość tego, że musimy wciąż się rozwijać i patrzeć w przyszłość. Poprzeczka stale się podnosi, a każdy dzień jest okazją do tego, żeby nauczyć się czegoś nowego i zacząć robić coś lepiej. To pomaga utrzymać kontakt z rzeczywistością i daje niezłego kopa do działania.
Czyli w waszym przypadku chodzi np. o wejście Facebook Marketplace.
Tak. Uważam, że zdrowa konkurencja jest motorem innowacji. To jest zdecydowanie jeden z elementów tej zmiennej rzeczywistości, o której wspominałem.
Raporty pokazują, że analiza danych to jeden z najbardziej perspektywicznych rynków dla pracowników. Jak mają się oni wyróżnić, aby dostać pracę np. w OLX?
W ludziach szukam generalnie tego, co dobre. Uwagę przykładam głównie do czterech cech. Po pierwsze talentu - czy są świadomi swoich silnych stron i czy bazują na nich w pracy. Po drugie ciekawości oraz nastawienia na rozwój i poszerzanie horyzontów. Po trzecie staranności i pracowitości, bo przecież chodzi o to, aby przynosić dobre owoce. Czwartym elementem jest znajomości warsztatu i narzędzi - nie trzeba znać wszystkich, ale dobrze być wirtuozem przynajmniej jednego z nich.
Oprócz tego trzeba być komunikatywnym, ponieważ na co dzień opiekujemy się całym europejskim regionem OLX, w skład którego wchodzi Polska, a także Ukraina, Kazachstan, Uzbekistan, Portugalia, Rumunia i Bułgaria. Pracujemy też z kolegami i koleżankami z innych serwisów OLX Group z najróżniejszych zakątków świata, takich jak Południowa Afryka, Filipiny, Indie, Ameryka Południowa, czy też Bliski Wschód.
Ważnym czynnikiem jest też otwartość, bo naszą kulturę pracy określiłbym jako plemienną.
Chodzi o pracę w małych zespołach i ich przenikanie się?
To też, ale bardziej o to, że w OLX nie ma jednej osoby, która wie wszystko. Każdy z nas wie dużo, ale tylko polegając na sobie nawzajem jesteśmy w stanie zbudować coś nowego. To oznacza, że trzeba być świadomym tego, co się wie i tego, czego się nie wie, aby umieć otwarcie prosić o innych o wsparcie. Taka prośba zawsze spotyka się z życzliwą odpowiedzią i jest doskonałą okazją do nauki.
Warto też wspomnieć o tym, że w OLX pomimo bycia sporą organizacją nadal mamy dużo startupowej swobody, co pozwala nam skupiać się przez większość czasu na użytkowniku, a nie na wewnętrznych sprawach. Myślę, że brak korporacyjnej sztywności i duża elastyczność to coś, co ludzie zdecydowanie preferują na rynku pracy.
Po tym można odróżnić korporację od startupu. Korporacja 90% czasu poświęca samej sobie. Startup w 90% skupia się na swoich klientach i produkcie.
Dokładnie tak. Wydaje mi się, że w kulturze pracy OLX unikatem jest też otwartość na porażkę. Każdego dnia eksperymentujemy z technologiami i narzędziami testując nowe metody i pomysły, bez żadnej gwarancji sukcesu. Czasami wszystko idzie idealnie, a czasami nie. Z porażki można wyciągnąć bardzo wiele wniosków i przekuć je w sukces. Co prawda w OLX nie jest to tak spektakularne, jak praca przy rakietach kosmicznych, ale przynajmniej mamy ogłoszenia z autami, które te rakiety transportują - i jak pewnie wiesz, nie chodzi o Multiplę (śmiech).