Leestips Big Data

Big Data, Blog, Data scienceComments (0)

plaatjes-250

Patrick Swart

Je ziet de toegevoegde waarde van big data voor je organisatie en gaat eens op verkenning. Je gaat concreet aan de gang met data mining en data analytics, maar weet niet waar te beginnen of hoe verder te komen? Je kunt online gaan struinen en ‘veel data over big data’ vinden, maar wat is relevant. Onderstaand vind je enkele suggesties om eens mee te beginnen:

Data analytics
Er zijn een aantal werken die je kunt lezen om je kennis over statistiek te verbreden en te verdiepen.

‘All of Statistics’ van Larry Wasserman (Springer)
Dit boek is voor mensen die kansberekening en statistiek snel willen leren. Het is geschikt voor afgestudeerde of gevorderde studenten in de informatica, wiskunde, statistiek, en aanverwante disciplines.

‘An Introduction to Statistical Learning’ van Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani (Springer)
Het boek biedt een toegankelijk overzicht van statistiek en een essentiële toolset voor het geven van betekenis aan grote en complexe datasets. Dit boek geeft een aantal van de belangrijkste data modellerende en voorspellende methodieken en behandelt een aantal relevante toepassingen. Onderwerpen zijn: lineaire regressie, resampling methoden, vector machines, clustering, en nog veel meer.

‘The handbook of data analysis’ van Melissa Hardy en Alan Bryman (Sage)
Dit boek is een betrouwbare introductiegids voor de fundamentele topics in data-analyse, zoals het bouwen van variabelen, de karakterisering van data extracties en gevolgtrekking. Dit boek is een goede one-stop-shop op het gebied van data-analyse. In 30 speciaal hoofdstukken leer je analytische mogelijkheden te ontwikkelen, zodat de probleemstelling oplosbaar wordt.

‘Handling Qualitative Data. A practical guide’ van Lyn Richards
Dit boek is een inleidend leerboek betreffende alle stadia van kwalitatief onderzoek (NVivo). Het boek concentreert zich op praktische adviezen over het gebruik van software om kwalitatieve gegevens te beheren en te analyseren, en geeft inzicht in de relevante gebieden. De behandeling van problemen rond team-based onderzoek is een ander sterk punt van het boek.

‘Data Mining for the Masses’ van Matthew North
In ‘Data Mining for the masses’, geeft professor Matt North – voormalig risico analist en database ontwikkelaar bij eBay – eenvoudige voorbeelden en duidelijke uitleg over te gebruiken software om je de basisprincipes van data mining eigen te maken; technieken die je kunnen helpen bij het beantwoorden van de moeilijkste business vragen.

Provost, Foster & Fawcett, Tom, (2013)
Data Science For Business: What You Need to Know About Data Mining and Data-analytic Thinking

Witten, Ian H., Frank, Eibe & Hall, Mark A. (2011). Data Mining: Practical Machine Learning Tools and Techniques (3th ed.)Morgan Kaufmann.
Het vrij beschikbare basiswerk van Booz, Allen, Hamiltonis, ‘A field guide to data science’ is ook erg handig om te lezen. Het is net geen ‘…for dummies’, maar legt het speelveld wel heel helder en begrijpelijk uit. Wanneer je thuis wilt raken in de basisprincipes en het vocabulair rondom data analytics en data science is dit een aanrader.

Data Analytics software
Voor bepaalde analyses is ook Excel nog steeds heel geschikt, maar wanneer je een stap verder gaat naar descriptive of predictive analysis heb je krachtiger tools nodig. Verdiep je dan eens in R of Python, RapidMiner, Matlab of SAS als alternatieven. Met name R krijgt veel aandacht van data analisten en is de applicatie die het snelst groeit op dit moment.

Data visualisatie
Het is jammer dat veel data analytics software wel de functionaliteit in zich heeft voor visualisaties, maar dat de vormgeving nog al eens te wensen overlaat. Daarom is het goed om de gegenereerde visualisaties alsnog door een visualiser of vormgever te laten omkatten naar een beeld dat wel de juiste boodschap weet over te brengen. In R kom je overigens best een eind. Voor wederkerige rapportages heel handig, maar voor one-offs is het toch aan te bevelen de vormgeving uit te besteden.

Machine learning
Het draait hier om de algoritmen die beschikbaar zijn of gebouwd moeten worden. De ontwikkelingen op dit gebied gaan snel, dus zorg er voor dat je bijblijft. Enkele basiswerken helpen je op weg, maar in je dagelijkse praktijk als data scientist zal je continue speuren naar nieuwe mogelijkheden, inzichten en algoritmen.

‘All of Statistics; A Concise Course in Statistical Inference’ van Larry Wasserman
Dit boek is voor mensen die zich snel willen bekwamen in kansrekening en statistiek. Het zet de belangrijkste elementen van moderne statistiek in perspectief. All of Statistics behandelt een breed scala aan onderwerpen van mathematische statistiek. Het omvat onderwerpen zoals parametrische curves en classificatie, onderwerpen die meestal passen bij follow-up cursussen. Er is geen voorkennis in kansrekening en statistiek vereist.

‘The Elements of Statistical Learning’ van Hastie/Tibshirani/Friedman
In het afgelopen decennium is er een data explosie ontstaan. Daarmee komen enorme hoeveelheden gegevens in grote verscheidenheid en op alle gebieden beschikbaar. Denk daarbij bijvoorbeeld aan geneeskunde, biologie, financiën en marketing. De uitdaging ligt in het begrijpen van deze ‘pile’ van data, wat heeft geleid tot de ontwikkeling van veel nieuwe instrumenten op het gebied van statistiek, datamining, machine learning, en informatica. Dit boek beschrijft de belangrijke ideeën op het gebied van data science en plaatst dit in een gemeenschappelijk begrippenkader. Vele voorbeelden worden gegeven. Het is een waardevolle bron voor statistici en iedereen die geïnteresseerd is in data mining.

Data processing, scraping, conversions, formatting, selection
Het eigenlijke werk zit toch in het spelen met de gegenereerde databestanden, sets en verzamelde reviews. Hoe ga je om met al die bestanden, hoe schoon je ze, ontdubbel je ze en leg je de juiste verbanden en koppelingen? R en Python zijn weer de tools die je hierbij ondersteunen en helpen.

Data engineering
Tja… wat doe je met die ‘pile of data’, hoe organiseer je dit, hoe schrijf je het weg, hoe ontsluit je het? Dat zijn vragen voor de data engineer. Het gaat allemaal om de toegankelijkheid van de dataset(s) zodat je er mee uit de voeten kunt. Hadoop, MongDB of de tools van MarcLogic komen dan om de hoek kijken.

Workshop introductie in data analytics
Genoeg ‘food for thought’. GEADATA verzorgt workshops waarbij bovenstaande topics allemaal ‘in dept’ behandelt worden. Dus wanneer je wel de behoefte hebt, maar niet de tijd om je in al deze zaken te verdiepen, kun je er voor kiezen om in één dag alle principes van data science eens met elkaar te doorlopen.

Neem gerust contact op voor meer informatie!

Mail-32x32

» Big Data, Blog, Data science » Leestips Big Data

, , , , 22 oktober 2015

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Verplichte velden zijn gemarkeerd met *


zeven − = 3

De volgende HTML-tags en -attributen zijn toegestaan: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

UA-57560273-2