Wat is datawetenschap? Een beginnershandleiding voor datawetenschap

Data Science is de toekomst van kunstmatige intelligentie. Ontdek wat Data Science is, hoe het waarde kan toevoegen aan uw bedrijf en de verschillende levenscyclusfasen.

Toen de wereld het tijdperk van big data betrad, groeide ook de behoefte aan opslag. Het was de belangrijkste uitdaging en zorg voor de zakelijke industrieën tot 2010. De belangrijkste focus lag op het bouwen van een raamwerk en oplossingen om gegevens op te slaan. Nu Hadoop en andere frameworks het probleem van opslag met succes hebben opgelost, is de focus verschoven naar de verwerking van deze gegevens. Data Science is hier de geheime saus. Alle ideeën die u in sci-fi-films uit Hollywood ziet, kunnen door Data Science werkelijkheid worden. Data Science is de toekomst van kunstmatige intelligentie. Daarom is het erg belangrijk om te begrijpen wat Data Science is en hoe het waarde kan toevoegen aan uw bedrijf.



Edureka 2019 Tech Career Guide is uit! De populairste functies, precieze leertrajecten, branchevooruitzichten en meer in de gids. Downloaden nu.

In deze blog zal ik de volgende onderwerpen behandelen.



Aan het einde van deze blog zul je begrijpen wat Data Science is en wat de rol ervan is bij het extraheren van zinvolle inzichten uit de complexe en grote datasets overal om ons heen.Om diepgaande kennis op te doen over Data Science, kunt u zich live inschrijven door Edureka met 24/7 ondersteuning en levenslange toegang.

Wat is datawetenschap?

Data Science is een mix van verschillende tools, algoritmen en machine learning-principes met als doel verborgen patronen uit de onbewerkte data te ontdekken. Maar hoe verschilt dit van wat statistici al jaren doen?



Het antwoord ligt in het verschil tussen uitleggen en voorspellen.

Data Analist tegen Data Science - Edureka

Zoals je kunt zien op de bovenstaande afbeelding, een Data Analistlegt meestal uit wat er aan de hand is door de geschiedenis van de gegevens te verwerken. Aan de andere kant doet Data Scientist niet alleen de verkennende analyse om er inzichten uit te ontdekken, maar gebruikt ze ook verschillende geavanceerde machine learning-algoritmen om het optreden van een bepaalde gebeurtenis in de toekomst te identificeren. Een datawetenschapper zal de data vanuit vele hoeken bekijken, soms niet eerder bekende hoeken.



Data Science wordt dus voornamelijk gebruikt om beslissingen te nemen en voorspellingen te doen met gebruikmaking van voorspellende causale analyses, prescriptieve analyses (voorspellende plus beslissingswetenschap) en machine learning.

  • Voorspellende causale analyse - Als je een model wilt dat de mogelijkheden van een bepaalde gebeurtenis in de toekomst kan voorspellen, moet je voorspellende causale analyses toepassen. Stel dat als u geld op krediet verstrekt, u zich zorgen maakt over de kans dat klanten toekomstige kredietbetalingen op tijd doen. Hier kunt u een model bouwen dat voorspellende analyses kan uitvoeren op de betalingsgeschiedenis van de klant om te voorspellen of de toekomstige betalingen op tijd zullen zijn of niet.
  • Voorschrijvende analyses: Als je een model wilt dat de intelligentie heeft om zijn eigen beslissingen te nemen en het vermogen om het te wijzigen met dynamische parameters, dan heb je daar zeker prescriptieve analyses voor nodig. In dit relatief nieuwe vakgebied draait alles om advies. Met andere woorden, het voorspelt niet alleen, maar suggereert een reeks voorgeschreven acties en bijbehorende resultaten.
    Het beste voorbeeld hiervan is de zelfrijdende auto van Google, die ik ook eerder had besproken. De gegevens die voertuigen verzamelen, kunnen worden gebruikt om zelfrijdende auto's te trainen. U kunt algoritmen op deze gegevens uitvoeren om er intelligentie aan toe te voegen. Hierdoor kan uw auto beslissingen nemen, zoals wanneer u moet afslaan en welk pad u moet nemen,wanneer u moet vertragen of versnellen.
  • Machine learning om voorspellingen te doen - Als u transactiegegevens van een financieringsmaatschappij heeft en een model moet bouwen om de toekomstige trend te bepalen, zijn algoritmen voor machine learning de beste keuze. Dit valt onder het paradigma van begeleid leren. Het wordt supervised genoemd omdat u al over de gegevens beschikt op basis waarvan u uw machines kunt trainen. Een fraudedetectiemodel kan bijvoorbeeld worden getraind aan de hand van een historisch record van frauduleuze aankopen.
  • Machine learning voor het ontdekken van patronen - Als u niet beschikt over de parameters op basis waarvan u voorspellingen kunt doen, moet u de verborgen patronen in de dataset achterhalen om zinvolle voorspellingen te kunnen doen. Dit is niets anders dan het model zonder toezicht, aangezien u geen vooraf gedefinieerde labels heeft om te groeperen. Het meest gebruikte algoritme voor patroonherkenning is Clustering.
    Stel dat u bij een telefoonmaatschappij werkt en u moet een netwerk opzetten door torens in een regio te plaatsen. Vervolgens kunt u de clusteringtechniek gebruiken om die torenlocaties te vinden die ervoor zorgen dat alle gebruikers een optimale signaalsterkte ontvangen.

Laten we eens kijken hoe het aandeel van de hierboven beschreven benaderingen verschilt voor zowel data-analyse als data science. Zoals je in de onderstaande afbeelding kunt zien, Data-analysebevat tot op zekere hoogte beschrijvende analyses en voorspellingen. Aan de andere kant gaat Data Science meer over Predictive Causal Analytics en Machine Learning.

Data Science Analytics - Edureka

reeks objecten in java

Nu je weet wat Data Science precies is, laten we nu eens kijken waarom het in de eerste plaats nodig was.

Waarom data science?

  • Traditioneel waren de gegevens die we hadden meestal gestructureerd en klein van formaat, die konden worden geanalyseerd met behulp van eenvoudige BI-tools.In tegenstelling tot gegevens in hettraditionele systemen die grotendeels gestructureerd waren, zijn de meeste gegevens tegenwoordig ongestructureerd of semi-gestructureerd. Laten we eens kijken naar de gegevenstrends in de onderstaande afbeelding, die laat zien dat in 2020 meer dan 80% van de gegevens ongestructureerd zal zijn.
    Stroom van ongestructureerde gegevens - Edureka
    Deze gegevens worden gegenereerd uit verschillende bronnen, zoals financiële logboeken, tekstbestanden, multimediavormen, sensoren en instrumenten. Eenvoudige BI-tools kunnen deze enorme hoeveelheid en verscheidenheid aan gegevens niet verwerken. Daarom hebben we meer complexe en geavanceerde analytische tools en algoritmen nodig om deze te verwerken, analyseren en er zinvolle inzichten uit te halen.

Dit is niet de enige reden waarom Data Science zo populair is geworden. Laten we dieper graven en kijken hoe Data Science in verschillende domeinen wordt gebruikt.

  • Hoe zit het als u de precieze vereisten van uw klanten zou kunnen begrijpen op basis van de bestaande gegevens, zoals de browsegeschiedenis van de klant, aankoopgeschiedenis, leeftijd en inkomen. Ongetwijfeld beschikte u al eerder over al deze gegevens, maar nu met de enorme hoeveelheid en verscheidenheid aan gegevens, kunt u modellen effectiever trainen en het product met meer precisie aan uw klanten aanbevelen. Zou het niet geweldig zijn, want het zal uw organisatie meer omzet opleveren?
  • Laten we een ander scenario nemen om de rol van Data Science in besluitvorming.En als uw auto de intelligentie had om u naar huis te rijden? De zelfrijdende auto's verzamelen live gegevens van sensoren, waaronder radars, camera's en lasers, om een ​​kaart van de omgeving te maken. Op basis van deze gegevens neemt het beslissingen zoals wanneer moet worden versneld, wanneer moet worden versneld, wanneer moet worden ingehaald, waar moet worden afgeslagen - door gebruik te maken van geavanceerde algoritmen voor machine learning.
  • Laten we eens kijken hoe Data Science kan worden gebruikt in voorspellende analyses. Laten we de weersvoorspelling als voorbeeld nemen. Gegevens van schepen, vliegtuigen, radars en satellieten kunnen worden verzameld en geanalyseerd om modellen te bouwen. Deze modellen voorspellen niet alleen het weer, maar helpen ook bij het voorspellen van eventuele natuurrampen. Het zal u helpen om vooraf passende maatregelen te nemen en vele kostbare levens te redden.

Laten we de onderstaande infographic eens bekijken om alle domeinen te zien waarop Data Science indruk maakt.

Data Science Use Cases - Edureka

Wie is een datawetenschapper?

Er zijn verschillende definities beschikbaar op Data Scientists. Simpel gezegd, een Data Scientist is iemand die de kunst van Data Science beoefent.De term 'Data Scientist' is geweestbedacht na het feit dat een Data Scientist veel informatie haalt uit de wetenschappelijke velden en toepassingen, of het nu gaat om statistiek of wiskunde.

Wat doet een datawetenschapper?

Datawetenschappers zijn degenen die complexe dataproblemen oplossen met hun sterke expertise in bepaalde wetenschappelijke disciplines. Ze werken met verschillende elementen die verband houden met wiskunde, statistiek, informatica, enz. (Hoewel ze misschien geen expert zijn op al deze gebieden).Ze maken veel gebruik van de nieuwste technologieën om oplossingen te vinden en conclusies te trekken die cruciaal zijn voor de groei en ontwikkeling van een organisatie. Datawetenschappers presenteren de gegevens in een veel nuttiger vorm in vergelijking met de onbewerkte gegevens die voor hen beschikbaar zijn uit zowel gestructureerde als ongestructureerde vormen.

Voor meer informatie over een Data Scientist kunt u dit artikel raadplegen

Laten we verder gaan, laten we nu BI bespreken. Ik weet zeker dat u wellicht ook van Business Intelligence (BI) heeft gehoord. Vaak wordt Data Science verward met BI. Ik zal wat beknopt en duidelijk zeggencontrasten tussen de twee die u zullen helpen een beter begrip te krijgen. Laten we eens kijken.

Business Intelligence (BI) versus Data Science

  • Business Intelligence (BI) analyseert in feite de eerdere gegevens om achteraf en inzicht te vinden om zakelijke trends te beschrijven. Hier stelt BI u in staat om gegevens uit externe en interne bronnen te halen, deze voor te bereiden, er query's op uit te voeren en dashboards te maken om vragen te beantwoorden zoalskwartaalomzetanalyseof zakelijke problemen. BI kan de impact van bepaalde gebeurtenissen in de nabije toekomst evalueren.
  • Data Science is een meer toekomstgerichte benadering, een verkennende manier met de focus op het analyseren van de gegevens uit het verleden of de huidige en het voorspellen van de toekomstige resultaten met als doel weloverwogen beslissingen te nemen. Het beantwoordt de open vragen met betrekking tot 'wat' en 'hoe' gebeurtenissen plaatsvinden.

Laten we eens kijken naar enkele contrasterende kenmerken.

Kenmerken Business Intelligence (BI) Data Science
Data bronnenGestructureerd
(Meestal SQL, vaak Data Warehouse)
Zowel gestructureerd als ongestructureerd

(logboeken, cloudgegevens, SQL, NoSQL, tekst)

NaderingStatistieken en visualisatieStatistiek, machinaal leren, grafiekanalyse, neurolinguïstisch programmeren (NLP)
FocusVerleden en hedenHeden en toekomst
HulpmiddelenPentaho, Microsoft BI,QlikView, RRapidMiner, BigML, Weka, R

Dit ging allemaal over wat Data Science is, laten we nu eens kijken naar de levenscyclus van Data Science.

Een veelgemaakte fout die wordt gemaakt in Data Science-projecten is het overhaasten van gegevensverzameling en -analyse, zonder de vereisten te begrijpen of zelfs maar het zakelijke probleem goed te kaderen. Daarom is het erg belangrijk voor u om alle fasen gedurende de levenscyclus van Data Science te volgen om een ​​vlotte werking van het project te garanderen.

Levenscyclus van datawetenschap

Hier is een kort overzicht van de belangrijkste fasen van de Data Science Lifecycle:

Levenscyclus van datawetenschap - Edureka


Ontdekking van Data Science - EdurekaFase 1 - Ontdekking:
Voordat u met het project begint, is het belangrijk om de verschillende specificaties, vereisten, prioriteiten en het benodigde budget te begrijpen. U moet in staat zijn om de juiste vragen te stellen.Hier beoordeelt u of u beschikt over de benodigde middelen in termen van mensen, technologie, tijd en data om het project te ondersteunen.In deze fase moet u ook het bedrijfsprobleem kaderen en eerste hypothesen (IH) formuleren om te testen.

Data Science data voorbereiding - Edureka

Fase 2 - Gegevensvoorbereiding: In deze fase heb je een analytische sandbox nodig waarin je gedurende de gehele looptijd van het project analyses kunt uitvoeren. U moet gegevens onderzoeken, voorverwerken en conditioneren voordat u gaat modelleren. Verder voer je ETLT uit (extraheren, transformeren, laden en transformeren) om gegevens in de sandbox te krijgen. Laten we eens kijken naar de onderstaande statistische analyse.

Levenscyclus van datawetenschap
U kunt R gebruiken voor het opschonen, transformeren en visualiseren van gegevens. Dit zal u helpen de uitschieters te herkennen en een verband tussen de variabelen vast te stellen.Nadat u de gegevens heeft opgeschoond en voorbereid, is het tijd om verkennend te doenanalyseben ermee bezig. Laten we eens kijken hoe u dat kunt bereiken.

Fase 3 - Modelplanning: Data Science-modelplanning - Edureka Hier bepaal je de methoden en technieken om de relaties tussen variabelen te trekken.Deze relaties vormen de basis voor de algoritmen die u in de volgende fase gaat implementeren.Je past Exploratory Data Analytics (EDA) toe met behulp van verschillende statistische formules en visualisatietools.

Laten we eens kijken naar verschillende tools voor modelplanning.

Modelplanningstools in Data Science - Edureka

  1. R heeft een complete set modelleringsmogelijkheden en biedt een goede omgeving voor het bouwen van interpretatieve modellen.
  2. SQL-analyseservices kan in-database-analyses uitvoeren met behulp van algemene dataminingfuncties en elementaire voorspellende modellen.
  3. SAS / TOEGANG kan worden gebruikt om toegang te krijgen tot gegevens uit Hadoop en wordt gebruikt voor het maken van herhaalbare en herbruikbare modelstroomdiagrammen.

Hoewel er veel tools op de markt zijn, is R de meest gebruikte tool.

Nu u inzicht heeft gekregen in de aard van uw gegevens en heeft besloten welke algoritmen moeten worden gebruikt. In de volgende fase zul je dat doenvan toepassing zijnhet algoritme en bouw een model op.

Data Science modelbouw - EdurekaFase 4 - Modelbouw: In deze fase ontwikkel je datasets voor trainings- en testdoeleinden. Hier yU moet overwegen of uw bestaande tools voldoende zijn om de modellen uit te voeren of dat het een robuustere omgeving nodig heeft (zoals snelle en parallelle verwerking). Je analyseert verschillende leertechnieken zoals classificatie, associatie en clustering om het model te bouwen.

U kunt modelbouw bereiken met de volgende tools.

wat is geserialiseerd in java

Modelbouwtools in Data Science

Fase 5 - Operationaliseren: Data Science operationaliseren - Edureka In deze fase lever je eindrapporten, briefings, code en technische documenten aan.Daarnaast wordt soms ook een pilootproject geïmplementeerd in een real-time productieomgeving. Dit geeft u een duidelijk beeld van de prestaties en andere gerelateerde beperkingen op kleine schaal voordat u deze volledig implementeert.


Communicatie in Data Science - EdurekaFase 6 - Communiceer resultaten:
Nu is het belangrijk om te evalueren of u in staat bent geweest uw doel te bereiken dat u in de eerste fase had gepland. Dus in de laatste fase identificeer je alle belangrijkste bevindingen, communiceer je naar de stakeholders en bepaal je of de resultatenvan het project zijn een succes of een mislukking op basis van de criteria ontwikkeld in fase 1.

Nu zal ik een casestudy nemen om u de verschillende hierboven beschreven fasen uit te leggen.

Casestudy: diabetespreventie

Wat als we het optreden van diabetes zouden kunnen voorspellen en vooraf passende maatregelen zouden kunnen nemen om het te voorkomen?
In deze use case zullen we het optreden van diabetes voorspellen door gebruik te maken van de gehele levenscyclus die we eerder bespraken. Laten we de verschillende stappen eens doorlopen.

Stap 1:

  • Eerste,we verzamelen de gegevens op basis van de medische geschiedenisvan de patiënt zoals besproken in fase 1. U kunt de onderstaande voorbeeldgegevens raadplegen.

Data Science voorbeeldgegevens - Edureka

  • Zoals u kunt zien, hebben we de verschillende attributen zoals hieronder vermeld.

Attributen:

  1. npreg - Aantal keren zwanger
  2. glucose - Plasma glucoseconcentratie
  3. bp - Bloeddruk
  4. huid - Triceps huidplooi dikte
  5. bmi - Body mass index
  6. ped - Diabetes stamboomfunctie
  7. leeftijd - Leeftijd
  8. inkomen - Inkomen

Stap 2:

  • Zodra we de gegevens hebben, moeten we de gegevens opschonen en voorbereiden voor gegevensanalyse.
  • Deze gegevens bevatten veel inconsistenties, zoals ontbrekende waarden, lege kolommen, abrupte waarden en onjuist gegevensformaat die moeten worden opgeschoond.
  • Hier hebben we de gegevens in een enkele tabel onder verschillende attributen georganiseerd, waardoor het er meer gestructureerd uitziet.
  • Laten we de onderstaande voorbeeldgegevens eens bekijken.

Data Science inconsistente gegevens - Edureka

Deze gegevens bevatten veel inconsistenties.

  1. In de kolom npreg , 'One' is geschreven inwoorden,terwijl het in de numerieke vorm moet zijn, zoals 1.
  2. In kolom bp een van de waarden is 6600 wat onmogelijk is (althans voor mensen) aangezien bp niet zo'n enorme waarde kan bereiken.
  3. Zoals je kunt zien is het Inkomen kolom is leeg en heeft ook geen zin bij het voorspellen van diabetes. Daarom is het overbodig om het hier te hebben en moet het van de tafel worden verwijderd.
  • We zullen deze gegevens dus opschonen en voorbewerken door de uitschieters te verwijderen, de nulwaarden op te vullen en het gegevenstype te normaliseren. Als u het zich herinnert, is dit onze tweede fase, namelijk gegevensvoorverwerking.
  • Ten slotte krijgen we de schone gegevens zoals hieronder weergegeven die kunnen worden gebruikt voor analyse.

Data Science consistente data - Edureka

Stap 3:

Laten we nu wat analyse doen, zoals eerder in fase 3 besproken.

  • Eerst zullen we de gegevens in de analytische sandbox laden en er verschillende statistische functies op toepassen. R heeft bijvoorbeeld functies zoals beschrijft wat ons het aantal ontbrekende waarden en unieke waarden geeft. We kunnen ook de samenvattingsfunctie gebruiken die ons statistische informatie geeft zoals gemiddelde, mediaan, bereik, min en max waarden.
  • Vervolgens gebruiken we visualisatietechnieken zoals histogrammen, lijngrafieken, boxplots om een ​​goed beeld te krijgen van de distributie van gegevens.

Data Science visualisatie - Edureka

Stap 4:

Nu, op basis van inzichten die zijn afgeleid uit de vorige stap, is de beslissingsboom het beste geschikt voor dit soort problemen. Laten we eens kijken hoe?

  • Sindsdien hebben we al de belangrijkste attributen voor analyse, zoals npreg, bmi , etc., dus we zullen gebruikenbegeleide leertechniek om eenmodel hier.
  • Verder hebben we in het bijzonder de beslissingsboom gebruikt omdat het alle attributen in één keer in overweging neemt, zoals degene met eenlineaire relatie en die welke een niet-lineaire relatie hebben. In ons geval hebben we een lineaire relatie tussen npreg en leeftijd, terwijl de niet-lineaire relatie tussen npreg en ped .
  • Beslissingsboommodellen zijn ook erg robuust omdat we de verschillende combinatie van attributen kunnen gebruiken om verschillende bomen te maken en uiteindelijk degene met de maximale efficiëntie kunnen implementeren.

Laten we eens kijken naar onze beslissingsboom.

Ontwerp boomgegevensset

Hier is de belangrijkste parameter het glucosegehalte, dus het is onze wortelknoop. Nu bepalen het huidige knooppunt en zijn waarde de volgende belangrijke parameter die moet worden genomen. Het gaat door totdat we het resultaat krijgen in termen van pos of neg . Pos betekent dat de neiging om diabetes te hebben positief is en negatief betekent dat de neiging om diabetes te hebben negatief is.

Raadpleeg deze blog als je meer wilt weten over de implementatie van de beslissingsboom

Stap 5:

In deze fase zullen we een klein pilootproject uitvoeren om te kijken of onze resultaten passend zijn. We zullen ook kijken naar eventuele prestatiebeperkingen. Als de resultaten niet kloppen, moeten we het model opnieuw plannen en opnieuw opbouwen.

Stap 6:

Zodra we het project met succes hebben uitgevoerd, zullen we de output delen voor volledige implementatie.

Data Scientist zijn is makkelijker gezegd dan gedaan. Laten we dus eens kijken wat u allemaal nodig heeft om datawetenschapper te worden.Een datawetenschapper vereist in principe vaardighedenuit drie hoofdgebieden, zoals hieronder weergegeven.

Data Science-vaardigheden - Edureka

Zoals je in de bovenstaande afbeelding kunt zien, moet je verschillende harde en zachte vaardigheden verwerven. Je moet er goed in zijn statistieken en wiskunde om gegevens te analyseren en te visualiseren. Onnodig te zeggen, Machine leren vormt het hart van Data Science en vereist dat je er goed in bent. U moet ook een goed begrip hebben van de domein je werkt eraan om de zakelijke problemen duidelijk te begrijpen. Uw taak eindigt hier niet. Je zou in staat moeten zijn om verschillende algoritmen te implementeren die goed vereisen codering vaardigheden. Ten slotte, als u eenmaal bepaalde belangrijke beslissingen heeft genomen, is het belangrijk dat u deze aan de belanghebbenden overhandigt. Geweldig communicatie zal zeker browniepunten aan je vaardigheden toevoegen.

Ik verzoek u dringend om deze video-tutorial over Data Science te zien waarin wordt uitgelegd wat Data Science is en wat we allemaal in de blog hebben besproken. Ga je gang, geniet van de video en vertel me wat je ervan vindt.

Wat is datawetenschap? Data Science-cursus - Data Science-zelfstudie voor beginners | Edureka

Deze cursusvideo van Edureka Data Science neemt je mee door de behoefte aan data science, wat is data science, data science use cases voor bedrijven, BI versus data science, data-analyse tools, data science lifecycle, samen met een demo.

Uiteindelijk is het niet verkeerd om te zeggen dat de toekomst aan de datawetenschappers is. Er wordt voorspeld dat er tegen het einde van 2018 ongeveer een miljoen Data Scientists nodig zullen zijn. Steeds meer gegevens bieden kansen om belangrijke zakelijke beslissingen te nemen. Het zal binnenkort de manier veranderen waarop we naar de wereld kijken die overspoeld wordt met gegevens om ons heen. Daarom moet een Data Scientist zeer bekwaam en gemotiveerd zijn om de meest complexe problemen op te lossen.

Ik hoop dat je het leuk vond om mijn blog te lezen en te begrijpen wat Data Science is.Bekijk onze hier, dat wordt geleverd met live training onder leiding van een instructeur en real-life projectervaring.