Big Data och korrelationsanalyser

 

För er som inte är så insatta i det här med korrelationer och korrelationsanalyser så går det att förklara det som så att en korrelation kvantifierar den statistiska relationen mellan två datavärden. En stark korrelation betyder att när datavärdet på en variabel förändras så är det stor sannolikhet att värdet på den andra variabeln också förändras.

Det här användes av Google i samband med att de genomförde en undersökning om influensa trender. De upptäckte i sin undersökning att när fler personer som befinner sig inom samma geografiska område genomförde specifika söktermer på Google, så visade på att fler personer inom detta geografiska område hade influensa.

I och med framväxten av Big Data så anses det inte längre vara effektivt att fatta beslut om vilka variabler som man vill undersöka och då bara baserat på hypoteser. Detta därför att datamängden är så otroligt stor och att det geografiska område som är aktuellt helt enkelt är för stort och komplext. Således behöver vi inte längre hållbara hypoteser om ett fenomen för att börja förstå vår värld. Istället kan vi nu utifrån massdata genomföra en korrelationsanalys, och då kan vi till exempel få fram vilka sökningar som tyder på att det finns influensa inom det geografiska området, eller för att förutsäga när priset på flygbiljetter kommer att öka. Att kunna förutsäga något baserat på korrelationer är således en viktig grundpelare för användningen av massdata / big data. Ett annat exempel är hämtat från finansbranschen, och där används massdata och olika korrelationsanalyser kopplat till individens credit scores för att förutsäga individens beteende.

Den här typen av korrelationer och korrelationsanalyser används också inom sjuk- och hälsovården, och inom försäkringsbolagen. Då handlar det om att identifiera de individer som löper en större risk att drabbas av högt blodtryck, diabetes eller depression. Denna metod använder sig av lifestyle data som består av hundratals variabler, däribland hobbies, vilka websajter man besöker, och hur mycket tid man tillbringar framför TV:n, men även för att få fram individernas genomsnittsinkomst. Denna modell kallas för predictive model.

Att genomföra så kallade predictive analytics har kommit att bli mycket vanligt, bland annat ute i näringslivet för att kunna förutse en händelse innan den inträffar. Det här sättet att arbeta används bland annat för att förhindra mekaniska och strukturella fel, och det fungerar som så att man placerar ut olika sensorer på olika delar och sedan övervakar man skeendet och då får man snabbt fram ett datamönster som visar på hetta, vibration, stress och ljud. På det här sättet kan företagen upptäcka problem innan de inträffar. Det här används inom transportbranschen, och UPS nyttjar det här för att övervaka sin fordonsflotta, så att de vet när de behöver genomföra förebyggande underhåll. Samma metod används för att övervaka byggnader och broar för att finna tecken på slitage som behöver åtgärdas. Inom industrin används det för att förebygga ett ”stopp” i produktionen då kostnaderna för att samla in och analysera data som indikerar att de behöver vidta åtgärder är billigare än om de drabbas av ett ”stopp” i produktionen (Mayer-Schönberger & Cukier.2013:50-59).

 

Advertisements

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s


%d bloggers like this: