Mamy prawdziwy boom na Data Scientistów na całym świecie
Informacje są paliwem czwartej rewolucji przemysłowej, której obecnie jesteśmy świadkami. Nad sprawnym naoliwieniem algorytmów czuwają mechanicy od danych, czyli Data Scientiści.
Kim jest Data Scientist? W skrócie to osoba, która pisze kod, aby analizować dane, a przynajmniej takiej definicji użyła platforma Kaggle, która udostępniła raport o tej branży w Polsce. Wynika z niego, że naukowcy od danych są obecnie jedną z najlepszych działek, gdzie mogą pracować młodzi ludzie. Mediana zarobków już teraz wynosi bowiem ok. 7 tys. zł. Choć nie mamy informacji czy jest to kwota netto czy brutto, to i tak jak na polskie warunki jest to bardzo atrakcyjna pensja.
Podobne trendy kształtują obecnie światowy rynek, gdzie Data Scientiści należą do jednych z najlepiej opłacanych zawodów w IT.
Jak zacząć z Data Science?
Z roku na rok rośnie zapotrzebowanie na przetwarzanie i analizę danych, a co za tym idzie – na profesjonalistów, którzy potrafią te dane zrozumieć i wykorzystać w projektowaniu nowoczesnych rozwiązań biznesowych.
Jak wejść do tej branży? Świetna okazja szykuje się już w połowie marca za sprawą Kodołamacza. Ta polska firma już 17 marca startuje z programem bootcampów dla Data Scientistów w Krakowie. Po szczegóły odsyłam na stronę Kodołamacza.
Czy warto uczyć się przetwarzania danych?
Po odpowiedź udałem się do Norberta Ryciaka, opiekuna bootcampu Data Science, który na Politechnice Warszawskiej prowadzi także zajęcia z obszaru Data Science na kierunku Big Data – przetwarzanie i analiza dużych zbiorów danych. Norbert w ramach doktoratu prowadzi badania nad metodami głębokiego uczenia w zastosowaniu analizy tekstu oraz pracuje przy rozwijaniu infrastruktury do przetwarzania języka naturalnego CLARIN-PL współtworzonej przez Instytut Podstaw informatyki Polskiej Akademii Nauk.
Karol Kopańko, Spider’s Web: Dlaczego data science?
Norbert Ryciak: Data Science poznałem na studiach matematycznych i to dopiero wtedy, gdy pod koniec studiów licencjackich musiałem wybrać dalszy kierunek rozwoju. Moją specjalizacją została statystyka matematyczna i analiza danych. Zacząłem zgłębiać ten temat i bardzo mi się spodobał. Z perspektywy czasu muszę przyznać, że była to bardzo dobra decyzja.
A czym dokładnie się zajmujesz?
Machine Learning, czyli po polsku – uczenie maszynowe. To również jest bardzo szeroka dziedzina. Mówiąc ogólnie, zajmuje się ona metodami analizy danych, które służą do wykrywania w danych zależności niewidocznych dla człowieka. W mojej pracy naukowej skupiam się na rozwoju tych metod, a konkretnie pracuję nad metodami głębokiego uczenia w zastosowaniu do przetwarzania języka naturalnego.
Brzmi skomplikowanie - a w praktyce?
Rozwijam modele sieci neuronowych, które służą do analizy wydźwięku tekstu. Mówiąc prościej – pracuję nad algorytmami, które próbują rozpoznać, czy tekst (np. opinia o produkcie) jest pozytywny, negatywny czy neutralny.
Czyli rzecz bardzo przydatna markom działającym w internecie. Powiedz mi proszę, czy studia w kierunku nauk ścisłych są tu wymagane?
Nie są, programiści po kierunkach nietechnicznych czy humanistycznych są równie dobrzy, jak osoby z wykształceniem ścisłym. Obecnie o wiele łatwiej jest zdobyć wiedzę i warsztat.
A czy np. ja dałbym radę się przekwalifikować?
Zasadniczo tak, chociaż oczywiście wszystko w dużej mierze zależy od indywidualnych predyspozycji. Jak z wieloma innymi dziedzinami, tak i z Data Science jest tak, że nie każdy się w tym odnajdzie. Jednak akurat brak doświadczenia czy styczności z tą branżą absolutnie nie przekreśla szans na zostanie Data Scientist, bo przecież każdy musi kiedyś zacząć.
Programiście jest pewnie łatwiej…
Oczywiście, ponieważ zaawansowana analiza danych odbywa się głównie poprzez programowanie. Dlatego właśnie tempo rozwoju w zakresie programowania silnie wpływa na tempo rozwoju w analizie danych. Łatwiej może być również osobom, które ukończyły jakiekolwiek studia techniczne lub dowolne inne, na których pojawiła się matematyka - ułatwią nam one wejście w branżę Data Science.
A jak długo zdobywa się niezbędne umiejętności badacza danych?
Osobiście znam osoby, które nigdy wcześniej nie miały styczności z programowaniem, ale szybko zaczęły sobie z tym radzić. Dużo zależy od ambicji, motywacji i celu. Nawiązując do Bootcampu Data Science, który w wersji weekendowej trwa pół roku, to w takim czasie można zdobyć naprawdę solidne umiejętności. Co więcej, część absolwentów kończy kurs z kompetencjami, które pozwalają robić ciekawsze rzeczy niż na zwykłym stanowisku juniorskim.
Jak w takim razie nauczyć się Data Science na tyle, by móc starać się o stanowisko juniorskie?
Można oczywiście próbować uczyć się z tutoriali czy kursów online, ale niestety często mają one bardzo szkolny charakter: wyjaśniają zasadę działania algorytmu, pokazują, jak go użyć, ale zupełnie nie uczą praktycznego zastosowania. Uczą za to postępowania według schematu, co nie jest równoznaczne z umiejętnością stosowania danych rozwiązań w realnych problemach. Dlatego moim zdaniem nauka online jest z reguły płytka. W praktyce bardzo często bywa tak, że wykorzystujemy jakiś algorytm, ale nie daje on pożądanego rezultatu. Wtedy trzeba umieć sobie z tym poradzić, ale żeby to zrobić, trzeba rozumieć, dlaczego stało się tak, a nie inaczej.
A skąd czerpać inspiracje, co doradziłbyś początkującym i obecnym badaczom danych?
Warto śledzić profile i blogi ludzi, którzy mocno propagują analizę danych. Takie osoby często opowiadają o swoich analizach czy zrealizowanych projektach. Wiele ciekawych informacji znajdziemy też pośród społeczności.
A czym konkretnie zajmujesz się w pracy naukowej?
Jednym z podstawowych elementów pracy badawczej w obszarze Machine Learning jest praca z literaturą. Trzeba być na bieżąco z najnowszymi badaniami i dokonaniami naukowymi z tego obszaru, ponieważ dziedzina ta rozwija się bardzo szybko. Poza tym jest to praca w dużej mierze programistyczna, ponieważ wszelkie metody wymagają oprogramowania i testowania.
Bywa tak, że oprócz czasu poświęconego na wdrażanie rozwiązania dużo planujesz?
Tak, bo większość mojej pracy to tak naprawdę realizowanie pomysłów, które chcę sprawdzić. Kolejną składową jest oczywiście praca umysłowa. Zresztą to akurat dotyczy nie tylko Machine Learning, ale ogólnie pracy badawczej. Często trzeba naprawdę dużo główkować, jak rozwiązać dany problem albo jak zrobić coś lepiej.
Wygląda na to, że Data Scientist musi mieć wiele różnych talentów.
Fundamentalną cechą jest zdolność analitycznego myślenia. W pewnym sensie można by na tym poprzestać, ale myślę, że warto zwrócić uwagę także na inne rzeczy, typu smykałka do komputera, bo Data Science to praca w dużej mierze informatyczna. Dlatego właśnie nie powinno się mieć awersji do pracy z komputerami. Analogicznie jest z matematyką – jeśli ktoś już w szkole nie znosił tego przedmiotu, to Data Science może niekoniecznie być dla niego.
Dobrze, a na co trzeba zwrócić uwagę przy nauce Data Science?
Na początku nauki przydaje się umiejętność stawiania na jakość, a nie na ilość. Zamiast powierzchownie uczyć się mnóstwa metod analizy, lepiej nauczyć się mniej, ale głębiej - zrozumieć zachowanie danego algorytmu w zależności od sytuacji, w jakiej chcemy go wykorzystać. Bardzo ważna jest praca z prawdziwymi danymi, bo dopiero wtedy uczymy się, jak radzić sobie w realnym świecie. Dlatego właśnie zajęcia w obszarze analizowania i modelowania danych powinny możliwie najlepiej odzwierciedlać realia pracy w tej branży. Powinny skupiać się na głębokiej nauce metod analizy, pracować na realnych problemach – wówczas mamy możliwość nauczyć się, jak praktycznie wykorzystać te metody.
Gdzie możemy zdobyć taką praktykę, prawdziwe dane?
Podczas bootcampu wykorzystujemy właśnie takie podejście, np. dlaczego dana metoda zwraca takie, a nie inne wyniki albo dlaczego dana metoda w ogóle nie działa w tym przypadku i jakiej innej metody powinno się użyć, jaki wpływ na wyniki mają pozostałe elementy całego procesu, jak dobrać metody do konkretnego celu biznesowego, co można zrobić, żeby otrzymać lepsze wyniki itd.
Czyli zostanie Data Scientistem jest ekscytujące?
Wyjątkowo, jest to możliwość pracy w tym obszarze IT, który najbardziej obecnie zmienia otaczający nas świat. Internet rzeczy, autonomiczne samochody, systemy komunikujące się z nami w języku naturalnym - to jest przyszłość, która dzieje się już teraz, a narzędzia, które pozwalają na zmierzenie się z tymi problemami, są na wyciągnięcie ręki.