Co to jest Big Data?

Szybki rozwój Internetu sprawił, że ilość informacji, które wytwarzamy, gromadzimy i do których mamy dostęp jest tak wielka, że przekracza możliwości tradycyjnych narzędzi do ich przetwarzania i analizowania.

Technologią dzięki której możemy dokonywać takich analiz jest Big Data.

Jak szacuje firma IBM, aż 90% z wszystkich istniejących na świecie danych powstało w ciągu ostatnich dwóch lat. Przyczynia się do tego wzrost znaczenia multimediów, rozwój mediów społecznościowych, powstawanie coraz nowszych technologii umożliwiających tworzenie, zapisywanie i przesyłanie danych.

Rodzi się tu jednak pytanie w jaki sposób możemy skutecznie zarządzać i wykorzystywać tą nieustannie powiększającą się i czerpiącą z wielu odmiennych źródeł bazą danych. Jak przeanalizować tak dużą ilość niezwykle zróżnicowanych danych, jak oddzielić informacje ważne od nieistotnych, wyciągnąć prawidłowe wnioski, i wreszcie, jak efektywnie przełożyć tą wiedzę na realizację swoich celów biznesowych? Odpowiedzią na te pytania jest właśnie Big Data.

Firmy gromadzą i przetwarzają ogromne ilości informacji. Dane te są często liczone w terabajtach lub petabajtach. Jak wskazuje sama nazwa, Big Data dotyczy właśnie dużych zbiorów danych. Nie każde miejsce gdzie zgromadzone są wielkie ilości danych zaliczamy jednak do Big Data. Kluczowe są tu bowiem, poza rozmiarem, także ich różnorodność, wartość, szybkie napływanie oraz zaawansowane przetwarzanie i analizowanie. Big Data pozwala na analizowanie i wyciąganie wniosków z takich właśnie zbiorów informacji.

Zgodnie z definicją firmy Forrester na Big Data składają się cztery wymiary, są to tzw. 4V:

– volume – ilość danych

– variety – różnorodność danych

– velocity – szybkość napływania nowych danych i ich analizy

– value – wartość danych

Volume

Według McKinsey Global Institute pojęcie Big Data odnosi się do zbiorów danych, których rozmiary przekraczają zdolności zwyczajnych narzędzi do ich gromadzenia, przechowywania, zarządzania i analizowania. Warto zwrócić uwagę na płynność tej definicji – nie określa ona konkretnych rozmiarów danych, lecz odnosi się do technologicznych możliwości zarządzania nimi.

Variety

Dane wykorzystywane z Big Data pochodzą z wielu różnych źródeł, takich jaki systemy transakcyjne, serwisy społecznościowe czy serwisy webowe. Są to dane różnorodne, dynamicznie się zmieniające, nieprzystosowane do tradycyjnych form analizy i nieustrukturyzowane (zaliczają się do nich materiały video, obrazy, treści z serwisów społecznościowych – wszelkie informacje nie dające się ująć w prosty sposób w tradycyjnych bazach danych).

Velocity

Nowe dane napływają i zmieniają się nieustannie. Aby wyciągnąć z nich prawidłowe wnioski należy je też na bieżąco analizować, dlatego analiza Big Data przeprowadzana jest w czasie zbliżonym do rzeczywistego.

Value

Analiza Big Data ma na celu doprowadzenie do wniosków, które w efekcie pozwolą na podjęcie w danej sprawie najlepszej możliwej decyzji. Istotne jest tu wyodrębnienie z masy informacji tego, co najistotniejsze. Uzyskane dzięki Big Data wyniki mają odzwierciedlać rzeczywiste uwarunkowania i prowadzić do podjęcia korzystnych biznesowo działań.

Big Data pozwala na analizowanie danych na bardziej zaawansowanym poziomie niż robiły to tradycyjne narzędzia. Technologia ta znajduje już zastosowanie w takich dziedzinach, jak bankowość, logistyka, telekomunikacja, rozrywka, motoryzacja, czy marketing (również marketing automation). Dane zgromadzone w wielu niekompatybilnych ze sobą systemach, bazach i serwisach internetowych zostają przetworzone i połączone, dając spójny obraz badanej sytuacji, firmy czy osoby.

Jednym z przykładów może być opracowany przez Forda nowoczesny samochód hybrydowy Fusion, który przetwarza ponad 25 GB danych na godzinę. Na informacje te składają się dane dotyczące samego pojazdu (m.in. jego szybkości, przyspieszenia, odchylenia od kursu), działań podejmowanych przez kierowcę (m.in. kąt skręcenia kierownicy), otoczenia (m.in. natężenie ruchu, warunki podłoża), a także dane biometryczne kierowcy (m.in. tętno, częstotliwość oddechów) Dane te pozwalają na lepsze zrozumienie zachowań kierowców na drodze, przyczyniają się do uniknięcia wypadkowi, dają wiedzę na temat poziomu eksploatacji samochodu.

Różnorodne, wiarygodne informacji o życiu klienta są skutecznie wykorzystywane przez instytucje finansowe. Przy podejmowaniu decyzji o możliwości udzielenia kredytu mogą mieć znaczenie, poza informacjami na temat zarobków czy wykształcenia, również dane dotyczące trybu życia, zainteresowań, czy znajomości zawieranych przez potencjalnego klienta. Dokładniejsze poznanie klienta pozwala firmom finansowym na zminimalizowanie podejmowanego ryzyka, dając przy tym możliwość zaoferowania mu najlepiej dostosowanej do jego potrzeb usługi.

Dostarczone przez Big Data informacje o klientach mają też olbrzymie znaczenie dla marketingu. Czego potrzebują, jakimi usługami są najbardziej zainteresowani, jakie są ich oczekiwania? Wnioski uzyskane dzięki analizie pozwalają na wyznaczenie charakterystycznych wzorów zachowań klientów, dostosowanie oferty do ich oczekiwań czy też wyodrębnienie odpowiedniej grupy docelowej i zaoferowanie jej konkretnych rozwiązań w najbardziej dogodnym momencie. Zrozumienie potrzeb, zainteresowań i odczuć potencjalnych klientów pozwala na podejmowanie właściwych decyzji biznesowych.

Korzyści płynące z Big Data zastają dostrzeżone także przez instytucje samorządowe i państwowe. Burmistrz Nowego Jorku, Mike Bloomberg, stworzył nawet specjalną jednostkę, której zadaniem jest ulepszenie funkcjonowania miasta poprzez wykorzystanie Big Data. Jak podaje New York Times efektami zastosowania tego systemu było m.in. podwojenie skuteczności w wykrywaniu sklepów sprzedających nielegalny tytoń, przyspieszenie procesu usuwania drzew zniszczonych przez huragan Sandy i skierowanie inspektorów budowlanych w miejsca, gdzie istniało największe prawdopodobieństwo wystąpienia tragicznych w skutkach pożarów.

Jak wynika z powyższych przykładów Big Data znajduje skuteczne zastosowanie w bardzo wielu odmiennych od siebie branżach. Nic więc dziwnego, że zgodnie z prognozami firmy IDC rynek Big Data urośnie z poziomu 3,2 mld dolarów w roku 2010 do 16,9 mld w 2015.

Data Science - jak zacząć? Umiejętności i wymagania w pracy Data Scientist

Data Science to branża, która w ostatnich latach doskonale się rozwija. Nic więc dziwnego, że coraz więcej osób jest zainteresowanych zawodem Data Scientist

Przyszłych specjalistów kuszą ciekawe projekty, atrakcyjne zarobki i bardzo rozwojowy sektor IT. W tym artykule postaramy się odpowiedzieć na pytanie: jak zacząć pracę w data science? Pochylimy się nad oczekiwanymi przez pracodawców umiejętnościami i kompetencjami Data Scientistów. Poruszymy także temat studiowania Data Science i możliwości pracy w Data Science bez studiów, tj. przygotowaniem do zawodu za pośrednictwem kursów i szkoleń dla IT.

Jakie umiejętności powinien mieć Data Scientist?

Data Scientist może pracować w wielu dziedzinach i branżach - np. finansach, marketingu, e-commerce - jest to też często praca z klientem indywidualnym, dlatego jego kompetencje muszą znacznie wykraczać poza umiejętność analizy danych. Jeśli nie wiesz, co robi osoba na tym stanowisku, koniecznie zajrzyj do artykułu Łukasza Kobylińskiego: Kim jest Data Scientist, czym się zajmuje i jak nim zostać.

Czego oczekują pracodawcy? Aby odpowiedzieć na to pytanie, przeanalizowaliśmy wymagania zawarte w ogłoszeniach o pracę na stanowiska Data Scientist dostępne na popularnych portalach. Poniżej przedstawiamy wymagania, które pojawiały się najczęściej w ofertach pracy w data science. Sprawdź, co trzeba umieć.

Wśród podstawowych umiejętności Data Scientist należy wymienić:

umiejętność logicznego myślenia

umiejętność analizy dużych zbiorów danych / umiejętności analityczne

umiejętność kreatywnego rozwiązywania problemów

bardzo dobre umiejętności komunikacyjne - ze względu na konieczność pracy w zespole i kontakty z klientami

umiejętność przełożenia potrzeb biznesowych na rozwiązania w IT

Wymagania:

Dobra znajomość SQL, Python - Pandas, R.

Wiedza w zakresie Big Data Ecosystems: Hadoop, Azure, Spark (PySpark/Scala, MLlib, GraphX);

Technologie Cloud: Google Cloud and BigQuery, AWS

Dobra znajomość relacyjnych baz danych

Doświadczenie z narzędziami klasy Power BI

Doświadczenie w metodach uczenia maszynowego

Znajomość podstawowych zagadnień statystycznych

Znajomość angielskiego na poziomie B2

Wykształcenie zbliżone do matematycznego

Mile widziane:

Doświadczenie w pracy z bazami danych PySpark i NoSQL

Doświadczenie w przetwarzaniu dużych zbiorów danych

Doświadczenie w przetwarzaniu języka naturalnego

Doświadczenie w wizualizacji danych i wyciąganiu wniosków

Doświadczenie w kontaktach B2B

Umiejętność kwestionowania decyzji

Podstawowa wiedza z zakresu administracji biznesowej

Jak widać, kandydaci muszą wykazać się umiejętnościami programistycznymi, analitycznymi, a także predyspozycjami biznesowymi i umiejętnością rozwiązywania problemów.

Więcej o tym, jak sprostać oczekiwaniom pracodawców, znajdziecie w artykule: Praktyczne porady, jak zdobyć pierwszą pracę w Data Science

Jak zdobyć wymagane umiejętności? Jak zacząć karierę w Data Science?

W wielu ofertach pracy pojawia się wymaganie dotyczące wykształcenia z kierunków takich jak: informatyka, matematyka, ekonometria, ekonomia, fizyka lub innej pokrewnej dziedziny. Nie jest to jednak warunek konieczny. Znajomość odpowiednich technologii i technik analizy danych będzie zdecydowanie ważniejsza. Wymagane umiejętności można zdobyć na studiach Data Science, uczestnicząc w projektach związanych z tą tematyką lub podczas szkoleń i kursów.

Gdzie studiować Data Science?

Studia licencjackie w kierunku Data Science są prowadzone przez Collegium Da Vinci w Poznaniu. Studia magisterskie dostępne są natomiast na Uniwersytecie Marii Curie-Skłodowskiej w Lublinie i na Uniwersytecie Wrocławskim. Data Science często jest też specjalnością na kierunku informatyka, np. na Politechnice Łódzkiej, Politechnice Śląskiej w Gliwicach czy w Polsko-Japońskiej Akademii Technik Komputerowych w Warszawie.

Jeśli masz ukończone studia, szczególnie techniczne lub matematyczne, możesz skorzystać z oferty studiów podyplomowych. Przewaga takich studiów to węższy zakres tematyczny, większe nastawienie na praktykę i nastawienie na zdobywanie kompetencji potrzebnych do zdobycia pracy, a także krótszy czas studiowania (1 rok). Dodatkowo często na studiach podyplomowych wykładają praktycy, którzy mają nie tylko wykształcenie, ale i doświadczenie w pracy z Big Data i Data Science. My polecamy studia podyplomowe Data Science na Politechnice Warszawskiej oraz Data Science i Big Data w Zarządzaniu na Akademii Leona Koźmińskiego.

Data Science bez studiów - ścieżka kursowa

Na rynku dostępnych jest wiele kursów i szkoleń w zakresie Data Science. W naszej opinii najlepiej wybrać te kompleksowe, intensywne i wielotygodniowe. Data Science to zdecydowanie zbyt obszerna dziedzina, by nabyć kompetencje potrzebne do pracy podczas weekendowego warsztatu (te zdecydowanie bardziej sprawdzą się dla osób, które już pracują z danymi, a chcą poszerzyć swoje kompetencje np. w nowej technologii).

Alternatywą dla studiów zdecydowanie jest bootcamp Data Science Kodołamacza. Jest to kurs trwający 7 tygodni w trybie stacjonarnym lub 16 weekendów w trybie zaocznym - po 8 h dziennie. Jak wynika z doświadczenia organizatorów, to właśnie jest optymalny czas, by przyswoić wiedzę i nabyć solidne praktyczne umiejętności potrzebne do otrzymania pracy w tym zawodzie. Bootcamp prowadzą trenerzy z dużym doświadczeniem pracy w Data Science, dzięki czemu nie ma zbędnej teorii, a cały kurs nastawiony jest na praktykę.

Dla kogo polecamy udział w bootcampie? Dla osób z pierwszym doświadczeniem programistycznym lub znającym podstawy języków programowania (np. Python). Jeśli jeszcze nie masz takiego doświadczenia, rozpocznij od podstaw programowania na kursie Python. Przed każdym kursem kandydaci przechodzą proces rekrutacyjny, podczas którego weryfikowany jest dotychczasowy poziom wiedzy uczestników, tak aby sprawdzić, czy osoby biorące udział w kursie, będą mogły wynieść z niego realne korzyści i dostosować poziom przekazywanej wiedzy do grupy.

Jak zostać specjalistą „data science” w 5 krokach?

Firmy i organizacje gromadzą ogromne ilości danych pochodzących z transakcji internetowych, podłączonych urządzeń i na temat zachowań użytkowników usług czy aplikacji. Dane te zawierają wiele informacji na temat różnych procesów, wydajności rozwiązań, potrzeb klientów, ale niewiele podmiotów naprawdę uwolniło ten potencjał i odpowiednio go wykorzystuje. Osoby, które specjalizują się w Data Science mogą pomóc otworzyć wiele nowych możliwości biznesowych dzięki odpowiedniej analizie i wykorzystaniu informacji i większość naszych klientów uważa, że jest to kluczowe, jeśli chodzi o rozwój biznesu w najbliższych latach. Jak zatem zostać specjalistą data science?

W Capgemini nasz dział Insights & Data łączy najnowsze rozwiązania nauki o danych z najlepszymi praktykami doradztwa biznesowego. Tworzymy modele i rozwiązania, które pomagają globalnym organizacjom lepiej zrozumieć i wykorzystać zbierane informacje. Istotą naszego podejścia do data science jest analizowanie rzeczywistych problemów biznesowych i przedstawianie danych na ich temat w taki sposób, aby wspierać podejmowanie odpowiednich decyzji.

Data Science to dziedzina, która łączy mocne podstawy matematyki, statystyki, znajomości modelów Machine Learning z wiedzą biznesową. Specjaliści muszą rozumieć bardzo dobrze podstawy działania algorytmów. Kluczowe jest również odpowiednie przygotowanie danych, tzw. EDA (exploratory data analysis) – znajomość metod, sposobów na czyszczenie, porządkowanie i ogólnie przygotowanie danych. Oczywiście wymagana jest znajomość takich języków programowania jak Python lub R oraz SQL.

Dlaczego o tym wspominam? Ponieważ nasze podejście wymaga od osób, które chcą rozwijać się w data science, nabycia i rozwijania konkretnych umiejętności. Aby ułatwić Wam zrozumienie tego, co dokładnie jest potrzebne, aby budować swoją pozycję w tej dziedzinie przybliżę 5 kroków, które są niezbędne na tej ścieżce.

Zacznij od podstaw

Jak już wcześniej wspomniałem, rolą data science specialist jest zadawanie pytań i odpowiadanie na nie na podstawie danych i kodu. Nie można zatem rozwijać się w tej dziedzinie bez odpowiedniej wiedzy matematycznej i znajomości języków programowania wykorzystywanych przy analizowaniu i przetwarzaniu danych. Bycie za pan brat z SQL to absolutna podstawa. Musisz też wiedzieć, że Python to nie tylko taki wąż, ale i Twój najlepszy przyjaciel. Nie obejdzie się też bez brawurowej obsługi Excela. Oczywiście należy też zgłębić statystykę oraz poznać uczenie maszynowe.

Wiedzę z zakresów, które krótko opisałem powyżej można czerpać samodzielnie. W serwisie Coursera można znaleźć wiele wartościowych kursów, które pomogą odpowiednio przygotować się do rozwijania kariery w Data Science [link: Warto również śledzić społeczność Kaggle, której elementem są także kursy [link:

Oczywiście, trzeba też przeczytać kilka kluczowych pozycji książkowych na temat Data Science, które są dostępne zarówno po polsku jak i po angielsku. Na start, koniecznie należy sięgnąć po książkę „Analiza danych w biznesie. Sztuka podejmowania skutecznych decyzji” [link: https://helion.pl/ksiazki/analiza-danych-w-biznesie-sztuka-podejmowania-skutecznych-decyzji-foster-provost-tom-fawcett,andabv.htm#format/d].

Weź się do pracy

W dziedzinie data science przygotowanie teoretyczne ma ogromną wartość, ale jeszcze ważniejsze jest zdobywanie praktycznego doświadczenia. Nie ma lepszej opcji na weryfikację teoretycznych założeń niż sprawdzenie ich „w prawdziwym życiu”. Myśląc o rozwoju kariery w tym kierunku szukaj zatem projektów, w których komponent analityczny jest kluczowy i zacznij nawet od najdrobniejszych projektów, żeby zdobywać nie tylko doświadczenie, ale i nowe umiejętności. Dobrze jest poznać procesy i projekty z różnych stron, dlatego też, zwłaszcza na początku kariery, staraj się realizować maksymalnie dużo różnego rodzaju zadań.

Możesz zacząć od uczestnictwa w różnych projektach powstających w ramach wspomnianej wcześniej społeczności Kaggle [link: Dobrym pomysłem jest na przykład wzięcie udziału w jednym z konkursów promowanych przez tę społeczność oraz „zabawa” ze zbiorami danych, do których dostęp można uzyskać przez Kaggle.

Naucz się skutecznie komunikować

Głównym zadaniem Data Science Specialist jest przetworzenie i przedstawienie danych w taki sposób, aby były one zrozumiałe i użyteczne. Specjaliści z tej dziedziny muszą nie tylko wiedzieć, co mają przekazać, ale i jak to zrobić. Co więcej, specjaliści Data Science zawsze funkcjonują w większych zespołach i często także uczestniczą w spotkaniach z klientami. Muszą zatem dobrze funkcjonować w zespole oraz potrafić występować publicznie (zazwyczaj jednak przed niewielką publicznością), a podstawą do tego jest umiejętność skutecznej komunikacji.

Zadawaj jak najwięcej właściwych pytań

Cała magia nauki o danych polega na korzyściach jakie można osiągnąć zadając odpowiednie pytania i uzyskując adekwatną odpowiedź. Odpowiedź będzie budowana na danych i linijkach kodu, ale nie da się udzielić właściwej odpowiedzi bez zadania odpowiedniego pytania. Zadawania właściwych pytań można się nauczyć się tylko przez praktykę. Analizuj więc na przykład bieżące wydarzenia społeczne i gospodarcze i zastanawiaj się nad tym jakie pytanie należałoby zadać, aby zrozumieć daną sytuację czy trend. Następnie pomyśl co jest istotą problemu i jakie pytania należy zadać, aby tę istotę zgłębić.

Cały czas się ucz

Świat technologii zmienia się tak szybko, że trzeba być naprawdę czujnym, żeby nie wypaść z obiegu. Powtarzanie tego może wydawać się nużące, ale to jest naprawdę ważne. Bez regularnego czytania specjalistycznych blogów, słuchania odpowiednich podcastów, analizowania różnych case’ów i zgłębiania technicznych nowinek ciężko jest nie popaść w rutynę, a przez to nie rozwijać się. W dużych firmach, jak Capgemini, są prowadzone różne inicjatywy wymiany doświadczeń i rozwoju kompetencji, warto z nich korzystać, żeby móc zbudować na nich swoją wiedzę, którą będzie można później przetestować w praktyce.