cz.1 – Focus Telecom Polska – Blog

Big Data – technologia większa niż myślisz.

Świat nierozerwalnie związany jest z danymi. Od dokumentów historycznych, książek, po dane pozwalające przewidywać pogodę czy wykorzystywane przez naukowców z niemal każdej dziedziny wiedzy. Jednak w XXI wieku dane, związane choćby z biznesem, rozrywką czy mediami społecznościowym, generowane są w zastraszającym tempie.

Poznaj Focus Contact Center kompleksową platformę komunikacyjną w chmurze >

Potwierdzają to prognozy, wskazujące że ich obecny dzienny przyrost może przekroczyć to, co ludzkość wyprodukowała w całej swojej historii (włącznie z XX wiekiem). Forrester Research ocenia natomiast, że obecnie ilość zebranych danych to ok. 2.7 zettabajtów, a przewidywania dotyczące wzrostu zaczną spełniać prawo Moore’a w ciągu najbliższych kilku lat.

Maszyna do tworzenia danych

Wszystko, co robimy w sieci, m.in.: korzystanie z serwisów społecznościowych, czatowanie, tweetowanie, wysyłanie maili, przeglądanie zasobów internetowych czy konfiguracja kont i dokonywanie zakupów w sklepach internetowych, skutkuje zbieraniem dużych ilości danych. Te informacje muszą być zapisane i przenalizowane na żądanie. Po stronie serwerów, już same systemy logujące generują dużo „drobnych informacji” przez wejścia na stronę użytkowników. Przykładowo, mały serwis, odwiedzany dziennie przez kilkuset użytkowników, może wygenerować kilkaset MB danych tekstowych jednego dnia. W ciągu miesiąca jest to kilka GB, a po kilku latach istnienia stale rozwijającego się serwisu, zgromadzone dane mogą być liczone nawet w TB!

Dane do przechowania

Powiedzmy to wprost – nigdy nie dysponowaliśmy taką ilością danych jak dziś. Procesy dotyczące ich przetwarzania, przechowywania, zarządzania i dystrybucji to poważne wyzwanie technologiczne. Wraz ze wzrastającą ilością danych (z których większość i tak nigdy nie zostanie wykorzystana) coraz bardziej potrzebujemy technologii, która sprawnie i szybko przetworzy oraz przeanalizuje tak duże zbiory. I mamy ją! A kryje się ona pod dosyć chwytliwym marketingowym określeniem – Big Data.

Big Data, czyli 3xV

Badacze Forrester Research definiują Big Data jako techniki i technologie, które umożliwiają uzyskanie wartości biznesowej z zebranych danych. Od strony nauk informatycznych technologia ta musi spełniać cechy określane skrótem 3xV:

1. Volume – duże zbiory danych

2. Velocity – konieczność szybkiej analizy – uzyskania odpowiedzi z zebranych danych

3. Variety – różne typy danych – zestrukturyzowane i niestrukturyzowane.

Chmura nad Big Data

Big Data to technologia wymagająca pod każdym względem. Najważniejsze z wymagań dotyczą szerokiego spektrum technologii, umiejętności i inwestycji, dostępu do dużej ilości danych znajdujących się poza naszymi systemami oraz do różnego rodzaju usług czy aplikacji. I tu pojawiają się kluczowe pytania dla osób zainteresowanych tą technologią:

Czy dysponujemy odpowiednimi zasobami, aby sprostać wymaganiom technologicznym Big Data?

Czy jeśli wymaga ona dostępu do dużej ilości danych znajdujących się poza naszymi systemami, sensowne jest filtrowanie i przenoszenie tych danych do wewnętrznych zasobów?

tych do wewnętrznych zasobów? Czy nie warto skupić się jedynie na wartości, którą można uzyskać z zebranych danych, zamiast samemu tym zarządzać?

Te pytania podsuwają już sugestie co do środowiska, w którym Big Data może rozwijać się bardzo korzystnie, a jest nim chmura obliczeniowa. Cloud computing to przede wszystkim media, zbiory danych i aplikacje. Technologia ta dzięki swojej ogromnej elastyczności, pozwala na gromadzenie danych nieobciążające użytkownika. Z tego względu warto ją rozważyć poszukując środowiska idealnego do budowania i tworzenia Big Data.

W kolejnych wpisach rozwinę temat technologii i technik wykorzystywanych w Big Data. Więcej o Big Data na stronie computerword.

Junior Data Scientist – wymagania i materiały do nauki

W poście o 10 powodach, dla których warto uczyć się języka programowania Python pojawiają się kierunki dalszego rozwoju. Obok web developmentu (odsyłam do posta: Junior Python Developer – wymagania) na pewno ciekawymi są analiza danych w Pythonie, Data Science, Uczenie Maszynowe (Machine Learning) czy Sztuczna Inteligencja i wszystko co dotyczy tych tematów. Tylko czy jest to kierunek, dla każdego?

Czym się zajmuje Data Scientist?

Data Science to dosłownie nauka o danych, więc Data Scientist, moglibyśmy przetłumaczyć jako naukowiec zajmujący się danymi. Na szczęście w języku polskim nazwy stanowisk w branży IT zostają w oryginale.

Aktualnie jest to dziedzina, która łączy naukowe, matematyczne metody z techniczną częścią, czy bardziej byśmy powiedzieli – inżynieryjną. Mamy tutaj algorytmy, systemy baz danych, programowanie przy całkiem dużym zapleczu akademickim, wiedzy matematycznej, statystycznej i analitycznej. Same dane nie są dla nas tak ważne jak wiedza jaka z nich płynie.

Jak wygląda praca w Data Science?

Na pewno różnie w zależności od danych z jakimi pracuje i jakich używa narzędzi. Najogólniejsza definicja byłaby Data Scientist zajmuje się przetwarzaniem danych.

Dzisiaj dane gromadzimy wszędzie, ale same w sobie ogromne bazy danych (Big Data) jeszcze nie niosą wiedzy, wyciągnięcie wiedzy, wniosków, wyników przynosi korzyść firmom. Dane są tak ogromne, że gdyby stosować standardowe algorytmy ich przetwarzania, przetwarzający nie dożyłby końca, stąd niezbędne są techniki uczenia maszynowego czy wykorzystywanie sztucznej inteligencji.

Data Science – stwórz swoją ścieżkę nauki

Jesteśmy przekonani, że Data Science jest kierunkiem idealnym dla nas. Załóżmy, że nauczyliśmy się podstaw Pythona. Całkiem nieźle radzimy sobie z prostymi i bardziej skomplikowanymi programami konsolowymi. Może udało nam się skończyć jakieś pierwsze skrypty automatyzujące pracę z plikami pełnymi danych np. csv czy excel.

Stajemy przed pytaniem co dalej?

Skąd brać inspirację czego się uczyć i jak zaplanować sobie kolejne etapy?

Gdzie znaleźć materiały do nauki za darmo?

Junior Data Scientist – wymagania

Możemy skorzystać z tego co pisałam dla was w poście „Jak zacząć programować, by nie przestać” czyli oprzeć się o wymagania w ofertach pracy (przykład pliku tabelki z planem we wspomnianym poście).

Spójrzmy na kilka przykładowych ofert na staż/junior Data Science.

To, co faktycznie jest dla nas przydatne w tym ogłoszeniu (chociaż może wyglądać strasznie) to lista wymagań. Otrzymujemy tutaj duży przegląd, co jest używane na stanowisku Data Scientist.

Dodatkowo zaznaczone jest, że idealny kandydat jest już zaznajomiony z większością podanych wymagań, tym bardziej, że oferta jest kierowana przede wszystkim do studentów specjalizacji nauk o danych.

Tutaj wymagania znacznie mniejsze, ale pojawia się język programowania R i znajmość Excela.

R to język programowania popularny wśród naukowców i badaczy z różnych dziedzin (niekoniecznie ścisłych) Służy do do obliczeń statystycznych, oczyszczenia danych, analizowania danych i tworzenia wykresów.

To jeszcze jedno ogłoszenie na stanowisko Junior Data Scientist

Podsumowując idealny kandydat na juniora / stażystę w obszarze Data Science może w CV wpisać przynajmniej część z poniższych wymagań:

znajomość statystyki, analizy danych i wizualizacji danych

język programowania Python (w stopniu pozwalającym na samodzielne pisanie skryptów)

(w stopniu pozwalającym na samodzielne pisanie skryptów) pakiety do analizy danych w Pythonie tj. Pandas, Numpy, SciPy, Matplotlib

PySpark

język programowania R i RStudio

bazy danych SQL i NoSQL

i NoSQL modele uczenia maszynowego (wie czym są i potrafi korzystać)

przetwarzanie języka naturalnego (NLP)

studia z kierunku ścisłego (uczenie maszynowe, NLP, matematyka, informatyka, informatyka, statystyka, fizyka, inżynieria itp.)

aktywne konto na GitHub/Kaggle

Excel

Materiały do nauki Data Science

Główny powód dzisiejszego posta, to duża inspiracja z jednej z grup na fb:

Czy poleci ktoś kompleksowy kurs z analizy danych (Python plus SQL), po którym jest szansa znaleźć pracę?”.

Zajmę się pierwszą częścią pytania.

Z materiałami po angielsku nie ma problemu. Gdy zaczynamy przeglądać materiały po polsku, bo jest ich po polsku mało.

Kurs – Jak zacząć karierę w Data Science (Strefa Kursów) –

(Strefa Kursów) – Data Science od podstaw. Analiza danych w Pythonie – Joel Grus. To książka, która zawsze znajduje się w zestawieniach najlepszych książek na start w Data Science (oryginał: Data Science From Scratch by Joel Grus)

– Joel Grus. To książka, która zawsze znajduje się w zestawieniach najlepszych książek na start w Data Science (oryginał: Data Science From Scratch by Joel Grus) Uczenie maszynowe z użyciem Scikit-Learn i TensorFlow. Wydanie II – Aurélien Géron. Nie jest to książka na pierwszy wybór. Jeśli masz za sobą naukę od podstaw Data Science i po zrobieniu kursów, mini projektów chcesz pójść dalej, albo może masz doświadczenie to wówczas wydawnictwo Oreilly przychodzi z pomocą.

– Aurélien Géron. Nie jest to książka na pierwszy wybór. Jeśli masz za sobą naukę od podstaw Data Science i po zrobieniu kursów, mini projektów chcesz pójść dalej, albo może masz doświadczenie to wówczas wydawnictwo Oreilly przychodzi z pomocą. Kariera w Data Science – Jacqueline Nolis, Emily Robinson. Książka ta dostała już kopniaka w tyłek od helionu na start. Otóż przetłumaczyli jej tytuł jako „Skazany na sukces. Kariera w Data Science” yyy, że co? oryginalny tytuł to „Build a Career in Data Science”. Ktoś na siłę chciał być kreatywny, przez co pewnie sama bym po tę książkę nie sięgnęła czując zapach kołczing’u z daleka. Książka robi jednak dokładnie to co obiecuje – przekazuje informacje o ścieżce kariery, od podjęcia decyzji, przez role w Data Science (różny nazwy stanowisk), po porady jak zdobyć pierwszą pracę. Jest przy tym merytoryczna i podaje konkretne technologie i narzedzia używane przez topowe firmy IT na świecie.

– Jacqueline Nolis, Emily Robinson. Książka ta dostała już kopniaka w tyłek od helionu na start. Otóż przetłumaczyli jej tytuł jako „Skazany na sukces. Kariera w Data Science” yyy, że co? oryginalny tytuł to „Build a Career in Data Science”. Ktoś na siłę chciał być kreatywny, przez co pewnie sama bym po tę książkę nie sięgnęła czując zapach kołczing’u z daleka. Książka robi jednak dokładnie to co obiecuje – przekazuje informacje o ścieżce kariery, od podjęcia decyzji, przez role w Data Science (różny nazwy stanowisk), po porady jak zdobyć pierwszą pracę. Jest przy tym merytoryczna i podaje konkretne technologie i narzedzia używane przez topowe firmy IT na świecie. Ścieżka Machine Learning Engineer (Strefa kursów) – zaczyna niby od początku, ale podstawy programowania czy już własną naukę Data Science trzeba za sobą mieć, kwota nie jest mała (chociaż stosunkowo niska do innych źródeł po polsku dlatego tutaj zostawiam).

źródło:

Data Science – materiały po angielsku

Językiem wymaganym w branży IT jest język angielski i tu mamy więcej materiałów do nauki.

Moim zdaniem, szczególnie z warty uwagi jest darmowy kurs Data Science, który przygotował IBM i znajduje się na platformie EdX.

Ścieżkę tę zapisałam dawno temu dla mojej koleżanki, która chciała rozwijać się w Data Science (zrezygnowała), ale skorzystała z niej moja siostra, która przeszła całą ścieżkę dla własnej satysfkacji.

Ścieżka: IBM Data Science + programowanie w Pythonie

Wymagania wstępne:

podstawowa wiedza dotycząca nauk obliczeniowych np. kurs CS50

wcześniejsze doświadczenie w programowaniu w dowolnym języku może być przydatne

(moja sugestia) zainstalowany Toggle albo inne narzędzie, aby mierzyć czas i skupic się tylko na nauce!

1. Python Basics for Data Science (Podstawu Pythona z Data Science

poziom: początkujący (0)

minimalny czas potrzebny do ukończenia: 2-5 godz. tygodniowo

przewidywany czas kursu: 1 tydzień

2 Analyzing Data with Python (Analiza danych w Pythonie)

poziom: wstępny (1)

minimalny czas potrzebny do ukończenia: 3-6 godz. tygodniowo

przewidywany czas kursu: 3-4 tyg.

3. Machine Learning with Python: A Practical Introduction (Uczenie maszynowe w Pythonie: praktyczne wprowadzenie)

poziom: wstępny (1)

minimalny czas potrzebny do ukończenia: 4-6 godz. tygodniowo

przewidywany czas kursu: 5-6 tyg.

4. Visualizing Data with Python (Wizualizacja danych w Pythonie)

poziom: średniozaawansowany (2)

minimalny czas potrzebny do ukończenia: 2-4 godz. tygodniow

przewidywany czas kursu: 5 week

Coursera – IBM Data Analyst Professional Certificate

Co ciekawe, IBM ma również swój kurs na platformie Coursera pod nazwą „IBM Data Analyst Professional Certificate„, w którego wkład wchodzą te same kursy plus rozszerzenie. Na Courserze znajdziecie ten kurs w 9 modułach, w tym zawiera moduł z SQL.

Materiały są za darmo. Każdy moduł można przejść jako osobny darmowy kurs. Płatny jest certyfikat ukończenia (czyli podobnie jak na platformie EdX).

Introduction to Data Analytics – Wprowadznie do analizy danych Excel Basics for Data Analysis – Podstawy Excela do analizy danych Data Visualization and Dashboards with Excel and Cognos – Wizualizacja danych i pulpity nawigacyjne z Excel i Cognos Python for Data Science, AI & Development – Programowanie w Pythonie Python Project for Data Science – Projek w Pythonie Databases and SQL for Data Science with Python – Bazy danych i SQL Data Analysis with Python – Analiza danych w Pythonie Data Visualization with Python – Wizualizacja danych w Pythonie IBM Data Analyst Capstone Project – Projekt końcowy

Na pewno Coursera znacznie ułatwia kolejność nauki, natomiast w moim odczuciu jednak korzystanie z niej jest mniej intuicyjne niż edX. Dla wielu osób nie jest jasne, że same kursy są za darmo, a płaci się za uzyskanie certyfikatu potwierdzającego ukończenie kursu (edX ma to samo, ale jednak jakoś lepiej to komunikują