#11 — korzystamy z bazy danych-StacjaUczeniaSięDanych

Jak zostać analitykiem danych w 7 miesięcy bez wychodzenia z domu?

Skoro programowania Javy uczymy w ciągu 10 miesięcy, to analizy danych nauczymy Cię w zaledwie 7. To nawet mniej niż rok na jakichkolwiek studiach. Wiedzy natomiast dostajesz dokładnie tyle, ile potrzebujesz, by zostać analitykiem danych. I to bez wcześniejszego doświadczenia.

Z tekstu dowiesz się: jak zacząć przygodę z analizą danych ,

, jak zdobyć wykształcenie potrzebne w pracy analityka danych,

czy analizy danych można nauczyć się na kursie online,

jakich umiejętności i narzędzi potrzebuje Data Analyst,

gdzie jest praca dla analityka danych.

Stworzenie kursu związanego z analizą danych było dla nas kolejnym krokiem w rozwoju naszej szkoły IT. Dzięki partnerstwu z Pracuj.pl jesteśmy na bieżąco z trendami i rosnącą popularnością Data Science. Wiemy jednak, że dla Ciebie – jeśli dopiero wdrażasz się w zakamarki tej dziedziny – analiza danych kryje wiele niewiadomych. Dlatego dziś pokażemy Ci, jak zostać analitykiem danych. Sposobów jest, oczywiście, kilka.

Przeczytaj także: Kluczowi gracze, czyli stanowiska w projektach Big Data

Big Data – jak zacząć przygodę z analizą danych?

Czasem wystarczy drobna wskazówka, aby zdecydować o zmianie. Dla kogoś będzie to podpowiedź od znajomego, dla Ciebie być może artykuł w internecie dotyczący przyszłościowej dziedziny. A analiza danych zdecydowanie nią jest.

Zmianę ścieżki kariery warto jednak zacząć od researchu, zwłaszcza jeśli dotąd Twój zawodowy kontakt z danymi był mocno ograniczony. Sprawdź więc, jak wygląda rynek pracy dla analityków danych (np. na stronie Pracuj.pl), poznaj możliwe ścieżki kariery i dowiedz się, ile zarabia analityk danych.

Z doświadczenia naszych kursantów oraz absolwentów wiemy, że warto również wykonać test predyspozycji. Zaledwie 10 pytań, na które odpowiesz w kilka minut, pomoże Ci ocenić Twój styl działania i wskazać Ci najbardziej dopasowaną do Ciebie ścieżkę kariery. Być może Twoim przeznaczeniem jest stanowisko specjalisty ds analizy danych (tak na dobry początek!).

Przeczytaj także: Data Science – co musisz wiedzieć, by zacząć karierę analityka danych?

Analiza danych. Praca nad wykształceniem nie jedno ma imię

Studia, samodzielne kursy online lub intensywne bootcampy analityczne ze wsparciem praktyków – właśnie tak zdobywa się zawód przyszłości. Zastanówmy się jednak, które z tych rozwiązań ma największy sens i najszybszy zwrot z inwestycji nie tylko pieniędzy, ale i czasu.

Studia magisterskie

Kiedyś analitycy danych – jeśli byli po studiach – najczęściej kończyli takie kierunki jak informatyka, telekomunikacja, inżynieria baz danych lub zarządzanie. To one dawały przyszłym specjalistom ds analizy danych najszersze pojęcie na temat pracy z dużymi zbiorami danych. W przypadku przebranżowienia studia praktycznie nie wchodzą w grę, ponieważ angażują Cię przez co najmniej 3 lata, a życie – zawodowe i prywatne – toczy się dalej.

Samodzielne kursy online

Z biegiem czasu pojawiło się dużo materiałów do self-learningu, czyli samodzielnej nauki. Najpierw były to artykuły w internecie, następnie filmy na Youtube, a w końcu – kursy online w formie nagranego wcześniej wideo. Młodszy analityk danych lub osoba aspirująca do tego stanowiska może jednak nieco się tu pogubić. Każde wideo generuje pytania, których nie ma komu zadać. Ta forma nauki wymaga też dużo samozaparcia, by regularnie odstawiać prywatne zobowiązania i zdobywać niezbędną wiedzę.

Bootcampy z analizy danych

Intensywne kursy z analizy danych, które odbywają się online, ale ze wsparciem grupy, wykładowców oraz mentora to rozwiązanie najbardziej optymalne. Po pierwsze – przy takich kursach nie jest brane pod uwagę ani Twoje wcześniejsze wykształcenie (np. wyniki matury z konkretnych przedmiotów), ani dotychczasowe doświadczenie (np. zatrudnienie w zupełnie innej branży). Po drugie kursy tego typu nie tylko trwają krócej, ale zawierają też najbardziej aktualną wiedzę. W końcu wykładowcy na zajęciach mogą aktualizować ją na bieżąco.

Według badań Polskiego Instytutu Ekonomicznego aż 92% maturzystów deklarowało w 2019 roku chęć podjęcia dalszej nauki na uczelniach wyższych. Pandemia jednak nieco weryfikuje te dane i coraz więcej osób szuka alternatywnych dróg zdobycia nie tyle wykształcenia, co przydatnych kompetencji. Po zainteresowaniu naszymi kursami analitycznymi, które ukończyło już ponad 200 osób (w ciągu niecałego roku i to w czasach pandemii), widzimy, że kursy online w Wirtualnej Klasie cieszą się dużą popularnością wśród kursantów w każdej grupie wiekowej.

Data Science. Kurs online szansą na zawód przyszłości!

Wszyscy wiedzą, że dziś nie chodzi już o wykształcenie, a o posiadanie realnych umiejętności. Właśnie dlatego w Coders Lab uczymy przez praktykę i pracę z danymi zaczynasz już od pierwszych zajęć.

Wielu naszych kursantów mówi nam na początku, że obawia się nie tylko zmiany branży, ale też nauki zdalnej, zwłaszcza podczas przebranżowienia. Jeśli trapią Cię podobne myśli, po prostu musisz przeczytać 3 poniższe punkty. Nawet jeśli to miałby być jedyny fragment, który przeczytasz uważnie.

Data Lab to: unikatowy kurs ułożony w przemyślany proces edukacyjny. W trakcie zajęć stopniowo rozwijasz swoje kompetencje, coraz łatwiej łączysz kropki i z każdym kolejnym modułem jesteś coraz bliżej zawodu analityka danych. Nasi wykładowcy i mentorzy towarzyszą Ci na każdym etapie nauki. To praktycy, którzy na co dzień pracują w zawodzie, dlatego masz pewność, że otrzymujesz od nich najświeższą oraz najbardziej potrzebną wiedzę. Nauka na żywo w Wirtualnej Klasie razem z grupą innych kursantów to stała mobilizacja do pracy oraz okazja do wymiany doświadczeń. Bez problemu przedyskutujecie realizowane projekty, a także – na bazie waszych wcześniejszych zajęć – pomożecie sobie wzajemnie naprawdę szeroko patrzeć na dane.

Dodatkowo kurs analityka danych Data Lab trwa jedynie 7 miesięcy i odbywa się weekendowo. Pogodzisz go więc z pracą oraz życiem prywatnym.

Analityk danych – zawód a umiejętności i narzędzia

Czy jesteś w stanie wyobrazić sobie analityka danych, który pracuje jedynie w oparciu o swoje naturalne predyspozycje? No właśnie, my też nie. Każdy Data Analyst musi posiadać konkretne umiejętności i umieć pracować na szeregu narzędzi, dzięki którym przeprowadzenie procesu Data Science będzie proste. I pozwoli zaoszczędzić sporo czasu.

Do umiejętności analityka danych zaliczamy m.in. programowanie czy storytelling danych.

Narzędzia do analizy danych są oczywiście różne. Nasi wykładowcy oraz Dział Edukacji Coders Lab zdecydowali, by przyszłych analityków danych uczyć tego, czego wymagają pracodawcy. Kończysz więc Data Lab ze znajomością takich języków programowania jak Python oraz SQL. A dodatkowo umiesz posługiwać się m.in.:

Pandas,

Requests,

Selenium,

Matplotlib,

Openpyxl,

Seaborn i Plotly,

Dash,

GeoPandas i GeoSeries,

Tableau.

Przeczytaj także: Umiejętności analityka danych potrzebne do procesu Data Science

Miejsca pracy analityka danych – spróbuj właśnie tam!

Kto powiedział, że analityk danych może pracować tylko w finansach? Dziś – czyli w świecie, w którym internauci dziennie generują ok. 2,5 tryliona bajtów danych – Data Analyst przyda się dosłownie wszędzie.

Warto więc zdobyć zawód przyszłości i wykorzystać go do pracy w dokładnie tej branży, w której chcesz. Wierz nam, z każdym miesiącem będzie Ci coraz łatwiej pokazać pracodawcom, co zyskają dzięki zatrudnieniu Ciebie. Zwłaszcza jak argumenty opatrzysz ciekawymi danymi i opowiesz inspirowaną nimi historię.

Analitycy danych są potrzebni np. w firmach: finansowych,

medycznych,

farmaceutycznych,

edukacyjnych.

Bardzo często pracują także w instytutach badawczych, np. przy przewidywaniu trendów. Twój wkład w budowę naszego jutra może być naprawdę duży.

Brzmi interesująco, prawda? Dlatego już teraz zdecyduj się na Data Lab – kompleksowy kurs rozwijający kompetencje Data Science – i złóż portfolio z projektów wykonanych w trakcie nauki. To Twoja przepustka do świata analizy danych.

Bazy danych

Żyjemy w czasach, gdzie dane, ich gromadzenie, przechowywanie oraz, przede wszystkim, przetwarzanie jest kluczowe, tak z punktu widzenia rozwoju cywilizacji, jak i w zakresie pojedynczego, nawet najmniejszego programu. Nie da się być programistą i nie pracować z danymi.

W tym przedmiocie poruszamy m.in. takie zagadnienia, jak hurtownie danych, relacyjne bazy danych, techniki programowania baz danych, bazy obiektowe i obiektowo-relacyjne. Wprowadzimy Cię również w zagadnienia Big Data i Business Intelligence.

Bardzo ważnym elementem nauki będzie praktyczne poznanie jednej z najpopularniejszych baz relacyjnych - MySQL oraz składni języka SQL.

Szczegółowy wykaz wykładów:

Relacyjne bazy danych

Uczymy się, czym są bazy danych i czym są relacyjne bazy danych. Wyjaśniam, dlaczego taka nazwa i co to są relację. Ogólnie poznajemy trochę teorii, która pozwala wejść nam głębiej w temat baz danych.

XAMPP

Instalujemy XAMPP i tworzymy pierwszą bazę danych, korzystając z graficznego środowiska. Czyli jeszcze nie potrzebujemy znajomości MySQL’a.

MySQL oparty o MariaDB

Dużą część przedmiotu poświęcamy na poznanie języka MySQL, ale naprawdę na dość zaawansowanym poziomie. Dodatkowym atutem jest fakt, że wszystkich komend używamy w terminalu.

Poznajemy grafową bazę danych NoSQL o nazwie Neo4j

Przyszedł czas na poznanie grafowej bazy danych. Jeśli wiemy, co to są grafy i znamy ich podstawowe własności, to bazy grafowe powinny być dla nas bardzo czytelne. Poznamy język Cypher, który dla Neo4j jest odpowiednikiem MySQL w przypadku relacyjnych baz danych.

Business Intelligence

Czyli analityka biznesowa. Poznajemy środowisko Power BI Desktop. Uczymy się przygotowywać dane pod analizę i przedstawiać je w postaci automatycznych raportów. Poznajemy podstawy języka DAX.

Hurtownie danych

Omawiam, czym są hurtownie danych i przedstawiam pojęcia z nimi związane. Dzięki temu zaczynamy rozumieć, jaki ogrom informacji jest wokół nas i że do obróbki tak wielkiej ilości danych potrzebujemy całkiem innego podejścia.

#11 — korzystamy z bazy danych

Lekcja

Relacyjne bazy danych — teoria

Na wstępie należy zaznaczyć, że nie będziemy zajmować się teorią baz danych od strony matematycznej (zainteresowanych zachęcam do zapoznania się z artykułem na wikipedii lub dokumentem “A Relational Model of Data for Large Shared Data Banks” autorstwa Edgara Codda), ale spojrzymy na to, co to oznacza dla nas od strony praktycznej. Nie będziemy się też skupiać na projektowaniu baz danych, postaciach normalnych itp — to omówimy szerzej w uzupełniającym wpisie w przyszłości. To, czemu ma służyć ta lekcja to zapoznanie się z podstawami baz danych, aby rozumieć co robimy w kodzie i być w stanie samodzielnie szukać informacji i poszerzać wiedzę według potrzeb.

Tabele

Tabele to podstawowy sposób organizacji danych w relacyjnych bazach danych (można też spotkac się z określeniem RDBMS — relational database management system). Tabele wyglądają podobnie jak w rzeczywistości — mają kolumny oraz wiersze, gdzie kolumny są określone przez strukturę tabeli, a poszczególne wiersze zawierają dane (działa to trochę jak np. w Excelu, z tą różnicą, że kolumny mają też nazwy). Kolumny określają też, jakie dane można w nich przechowywać (np. liczba, dane tekstowe o określonej długości itp).

Wiersze tabeli są też określane krotkami lub encjami (nie jest to do końca prawda, ponieważ określenia te są bardziej pojemne i w bazach danych obejmują także powiązane rekordy i informacje; nie można więc powiedzieć, że wiersz w tabeli to krotka czy encja, ale nie są to pojęcia oddalone — intuicyjnie, słysząc ‘encja’ czy ‘krotka’ można więc mieć na myśli właśnie wiersz tabeli).

Tabele mają określoną strukturę, tzn kolumny są z góry określone (choć oczywiście można zmienić to w trakcie działania aplikacji, ale jest to zmiana struktury tabeli i wynika ona jedynie z operacji na tabeli, poprzez manipulację danymi nie da się zmienić struktury tabeli / deklaracji kolumn) i definiują one, jaki typ danych możemy przechowywać w danej kolumnie oraz jaki jest rozmiar tej kolumny (tzn. jaka jest precyzja przechowywanych liczb, ich maksymalne/minimalne wartości lub maksymalna długość ciągu znaków).

Tabele są właśnie tą relacją, od której nazwę wzięły relacyjne bazy danych. Jest to nieco nieintuicyjne w jezyku polskim, ponieważ o relacjach mówimy także w kontekście zależności między tabelami (omówimy je za chwilę). Sięgając jednak do języka angielskiego jest jednak różnica (Matematyczne relacje — ‘relation’ — są tym, o co chodzi w nazwie ‘relational database’; zależności pomiędzy tabelami określane sa terminem relationship; dyskusję na temat róznicy w znaczeniu tych pojęć można znaleźć np. pod adresem — warto te różnice zapamiętać i mieć je na uwadze czytając dokumentacje związaną z bazami danych lub komunikując się z innymi. Relacją (matematyczną) nazywamy więc tabelę, rozumianą jako jej schemat (nazwę, kolumny) oraz dane razem.

Relacje pomiędzy tabelami (klucze obce)

Ponownie, w tym przypadku powiemy sobie tylko czym są relacje pomiędzy tabelami ale na ten moment nie będziemy zgłębiać ich szczegółów. Złączenia tabel w języku SQL to obszerny temat sam w sobie, który można samodzielnie zgłębiać mając podstawową znajomość SQL, a w codziennej pracy współczesnego programisty nie jest on wykonywany zbyt często.

Bardzo często wystepuje sytuacja, że jeden obiekt jest powiązany z innym za pomocą jakichś zależności (np. w aplikacji która służyłaby do zarządzania projektami w firmie, istnieje zależność typu jeden-do-wielu (o typach zależnosci powiemy sobie za chwilę): jedna firma ma wiele projektów, ale jeden projekt jest przypisany tylko do jednej firmy (oczywiście to pewne uproszczenie rzeczywistości, ale załóżmy, że tak jest). W języku polskim takie powiązanie między tabelami także określamy mianem relacji.

W tym miejscu należy jeszcze krótko wspomnieć o procesie normalizacji i postaciach normalnych (normal form, NF). Normalizacja to formalny proces, który ma zapewnić, że w bazie danych nie ma niepotrzebnych powtórzeń, odpowiednie tabele są prawidłowo połaczone i model jest spójny i integralny. O samym procesie normalizacji i jak go wykonać można poczytać w artykule na Wikipedii, w uproszczeniu polega on na doprowadzeniu modelu do założonej postaci normalnej (najczęściej czwartej) poprzez iteracyjne doprowadzenie najpierw do pierwszej postaci normalnej, drugiej itp. Każda postać normalna ma pewne założenia, które model musi spełniać, żeby można było o nim powiedzieć, że jest w danej postaci normalnej. Przykładowe założenia to np, że każda kolumna zawiera tylko jedną informację (więc imię i nazwisko trzymamy w osobnych kolumnach) czy też, że informacja nie jest duplikowana (w przypadku np. firmy i pracowników, dane firmy trzymamy w osobnej tabeli i odnosimy się do nich jedynie za pomocą klucza). Z procesem normalizacji wiąże się także denormalizacja — czyli świadome odejście od zasad normalizacji. Czasem robi się tak, ponieważ albo można pewne rzeczy założyć (np. że samochód ma jednego właściciela, albo że właściciele samochodów mieszkają zawsze pod różnymi adresami) albo jest to ważne z punktu widzenia wydajności zapytań. Natomiast kluczowa jest świadomość, co się robi oraz jak to wpłynie na system, decyzja o denormalizacji powinna być podejmowana tylko przez doświadczonych programistów/projektantów i tylko w wyjątkowych sytuacjach.

Istnieją trzy logiczne typy relacji:

— jeden-do-wielu

— jeden-do-jednego — ten typ relacji jest najmniej intuicyjny, jego praktyczne zastosowanie sprowadza się najczęściej do optymalizacji (czasu zapytań lub rozmiaru danych). Oczywiście ma on swoje uzasadnienie podczas procedury normalizacji. Przykładem mogą być szczegóły użytkownika, np. jego preferencje czy komplet danych (np. w profilu portalu społecznościowego). Mamy więc użytkownika oraz szczegóły użytkownika, jeden rekord jest zawsze związany z jednym rekordem drugiego typu, ale podział ma sens (np. z użyciem tabeli użytkowników dokonujemy uwierzytelnienia, pobieranie za każdym razem wszystkich danych profilu mija się z celem i byłoby niewydajne). Druga sytuacja kiedy często jest to stosowane to wybiórcze dane (np. przy dziedziczeniu i hierarchiach) — np. w szkole, mamy uczniów i nauczycieli, obie te role to po prostu osoby. Osoba ma imię i nazwisko, nauczyciel dodatkowo przedmiot, doświadczenie, stopień i klasę, której jest wychowawcą, uczeń z kolei ma rok nauki i klasę w której jest. Można trzymać wszystkie te dane w jednej tabeli, można całkiem osobno w 2, ale najwygodniej jest trzymać część wspólną (imię, nazwisko) w jednej, szczegóły uczniów w drugiej i szczegóły nauczycieli w trzeciej. Rekord osoby jest więc powiązany z zero lub jednym rekordem szczegółów ucznia (i analogicznie nauczyciela), a szczegóły ucznia są powiązane zawsze z jednym rekordem osoby. To też dobry przykład do zobrazowania różnicy pomiędzy encją (krotką) a wierszem w tabeli (rekordem) — rekord obejmuje jedną tabelę. Encja to wszystkie te informacje, czyli np. wszystkie informacje o uczniu ‘pobrane’ z 2 tabel

— wiele-do-wielu — w praktyce wymaga to utworzenia dodatkowej tabeli, która jest w relacji jeden-do-wielu z obiema tabelami, które są logicznie połączone relacją wiele-do-wielu. Przykładem zastosowania może być system do zarządzania planami lekcji, w których mamy zajęcia (lekcje) oraz uczniów. Każdy uczeń może uczęszczać na wiele zajęć, ale też każde zajęcia są uczęszczane przez wielu uczniów.

Dygresja — NoSQL, czym jest i zastosowania

Ostatnio dość popularne są tzw. bazy NoSQL, na pewno pracując w IT w niedługim czasie spotkasz się z tym określeniem lub nawet będziesz mogła używać takiego oprogramowania w praktyce.

NoSQL to ogólna nazwa dla wszystkich baz danych, które odchodzą od modelu relacyjnego — rodzajów takich baz jest wiele (key-value store, column family itp), dlatego termin ten nie określa jakiego rodzaju jest dana baza danych, a raczej jakiego rodzaju nie jest. W tym kursie nie będziemy zajmować się bazami NoSQL, warto jednak wiedzieć, że często oferują lepszą wydajność od baz relacyjnych oraz bardziej elastyczny model. Potencjalnymi wadami tych rozwiązań są niestandardowe sposoby odpytywania ich, elastyczny model (tak, to zarówno wada jak i zaleta) oraz mniejsze możliwości w zakresie powiązań pomiędzy obiektami. Branża cały czas ‘uczy się’ z nich korzystać, ale światowi giganci nie mogliby osiągnąć obecnego rozmiary bez ich użycia — np. Google używa własnego rozwiązania o nazwie BigData, podczas gdy Amazon także korzysta (i udostępnia w ramach usług AWS) z własnego systemu o nazwie DynamoDB. Koncepcyjnie systemy te bardzo się różnią, zainteresowanych odsyłam do prac naukowych oraz blueprintów na ten temat (pierwsze linki po wpisaniu tych fraz w google).