Big data

suuren tietomäärän käsittely

Big data tai massadata on erittäin suurten, järjestelemättömien, jatkuvasti lisääntyvien tietomassojen keräämistä, säilyttämistä, jakamista, etsimistä, analysointia sekä esittämistä tilastotiedettä ja tietotekniikkaa hyödyntäen.[1][2][3]

Big data on siis yhteisnimitys valtaisille datamäärille, joiden yhteydessä ei voida soveltaa perinteisiä datanhallinnointitapoja[4]. Big data soveltuukin käsitteenä hyvin moniin erityyppisiin tilanteisiin, eikä vielä ole syntynyt konsensusta siitä mitä Big data tarkalleen sisältää [5]. Vaikkei olekaan yhtä vakiintunutta määritelmää, on olemassa toistuvia tunnusomaisia piirteitä, joilla Big dataa kuvataan. Näitä ovat muun muassa seuraavat:

  • se ei ole käsiteltävissä yleisesti käytössä olevilla laitteistoilla tai ohjelmistoilla siedettävissä olevassa ajassa käyttäjän kannalta [6]
  • mahdollisesti käytössä monessa paikassa yhtä aikaa [6]
  • data tulee eri lähteistä, eri muodoissa ja se kasaantuu ja/tai muuttuu nopeasti [5]
  • usein jonkin laitteen automaattisesti tuottamaa [5]
  • kerätty mahdollisesti ilman suunnitelmaa siitä, mihin sitä tarkkaan ottaen tullaan käyttämään [5]
  • datalla on usein vain löyhästi määritelty rakenne, tai ei rakennetta lainkaan, jolloin sitä ei voida sellaisenaan analysoida [5]
  • lisäksi myös: tiedon varastointi fyysisesti (tilat, tiedon siirto, laitteet (palvelimet) ja siihen liittyvät asiat, kuten huolto tai jäähdytys)

Big datalle on myös ominaista määritelmän tarkan sisällön muuttuminen ajan kuluessa. Tämä tapahtuu teknologian ja työvälineiden kehittyessä, jolloin se data, jonka käsittely vielä aiemmin tuotti vaikeuksia onkin tänään jo siinä määrin helposti hyödynnettävissä, ettei sitä enää voida Big dataksi kutsua.

Big datan ominaisuuksia

muokkaa

Big dataa voidaan kuvata seuraavilla ominaisuuksilla (5 V:tä):[7][8]

  • Volume (Määrä) = Luodun datan määrä ja varastoidun datan määrä. Datan määrä määrittelee arvon ja potentiaaliset oivallukset voidaanko sitä pitää Big datana vai ei[7][8]
  • Variety (Valikoima) = Tietojen tyyppi ja luonne. Saatu data koostuu useasta eri lähteestä ja on joko  jäsentymätöntä tai lähes jäsenneltyä[7][8]
  • Velocity (Nopeus) = Dataa tulee pystyä tuottamaan nopeasti ja sitä tulee myös pystyä käsittelemään nopeasti[7][8]
  • Value (Arvo) = Datan tulee tuottaa arvoa ja dataa tulee pystyä hyödyntämään[7][8]
  • Veracity (Todenmukaisuus) = Datan analysointi voi johtaa vääriin johtopäätöksiin tai analysoituihin tuloksiin liittyy epävarmuutta[7][8]

Big datan kertyminen

muokkaa

Big dataksi kutsuttavia tietovarantoja syntyy hyvin monilla eri aloilla. Sen lähteitä ovat muun muassa seuraavat:[5]

Big datan käyttäminen

muokkaa

Big datan käyttöönotto saattaa olla haastavaa johtuen suuruuden lisäksi myös rakenteesta ja hyödyllisen tiedon erottamisen vaikeudesta.

Rakenne

muokkaa

Erityyppiset datan rakenteet voidaan jaotella karkeasti seuraaviin kolmeen eri luokkaan.[5]

  1. Rakenne on selkeä ja ennalta tarkkaan määritelty. Perinteisesti data on tällaista, missä on ennalta määritetty mitä tietoja kerätään ja miten ne merkitään ja tämä sama säännöstö pätee koko dataan.
  2. Löyhästi määritelty rakenne. Esimerkiksi internetsivuston keräämät lokitiedot ovat tällaista. Data sisältää tietoa, joka on merkitty ennaltamäärätyllä tavalla, mutta minkä tahansa yksittäisen tiedon etsiminen saattaa vaatia mittavaa etsimistä. Analysointia varten dataa joudutaan luultavasti merkittävästi muokkaamaan ja sieltä poimimaan ne osat, jotka ovat varsinaisesti hyödyllisiä annetun kysymyksen näkökulmasta.
  3. Ei lainkaan rakennetta. Esimerkiksi asiakaspalautteet tai sosiaalisesta mediasta poimitut ihmisten lähettämät julkiset päivitykset. Tällaisessa tilanteessa ei voida lainkaan tehdä oletuksia siitä, mitä data tulee sisältämään tai millaisessa muodossa asioita tullaan ilmaisemaan.

Turha data

muokkaa

Nykyisin tiedontallennuksen ollessa hyvin edullista dataa saatetaan kerätä niin paljon kuin voidaan, esimerkiksi asiakkaan käyttäytymisestä organisaation internet-sivustolla. Tällöin tallennetuksi päätyy myös paljon sellaista dataa, joka ei ole hyödyllistä. Ryhdyttäessä analysoimaan tällaista dataa ensimmäiseksi täytyy pyrkiä löytämään datan joukosta se osa, joka on merkityksellistä. Mikä osa datasta on kunkin hetkisen tilanteen kannalta oleellista saattaa vaihtua hyvinkin nopeasti. Tämä johtuu siitä että, Big datan yhteydessä on tyypillistä päivittää tehtyä analyysia hyvin usein, jotta käytettävissä olisi viimeisin mahdollisin tieto.[5]

Käyttöönotto

muokkaa

Kun edellisistä kohdista ollaan selvillä voidaan siirtyä käyttämään yleistä kolmiportaista ETL-mallia Big datan käyttöönotolle. Ensimmäiseksi tulee extraction, suomeksi poiminta, eli data saadaan jostain. Tämän jälkeen tulee transformation, suomeksi muunnos, jolloin datalle tehdään tarvittavat muutokset sen käyttöönottamiseksi valitussa analysointiympäristössä. Viimeisenä vaiheena on load, suomeksi lataaminen, eli otetaan data käyttöön valitussa analysointiympäristössä.[5]

Big datan virtualisointi

muokkaa

Data virtualisointi on tapa kerätä tietoa useista lähteistä samassa paikassa. Kokoaminen on virtuaalista: toisin kuin muut menetelmät, suurin osa tiedoista jää alkuperäisasemaansa ja on peräisin vaadittavista raaka-aineista.[9]

Kritiikki

muokkaa

Yksityisyydensuoja

muokkaa

Kerättäessä suuria määriä tietoa yksittäisten ihmisten toiminnasta, kuten vaikkapa sosiaalisen median käytöstä, on noussut huoli siitä kuka ja miten näitä tietoja voidaan käyttää. Euroopan unionin yleinen tietosuoja-asetus (GDPR) antaa tietyssä tilanteissa rekisteröidylle oikeuden saada itseään koskevat tiedot pois palveluntarjoajan rekisteristä, tämä kulkee nykyisin nimellä oikeus tulla unohdetuksi. (The right to Erasure). Maailmanlaajuisesti samantapaisia aloitteita on lukuisia muitakin.[10]

Lähteet

muokkaa
  1. http://www.bigdata.fi/big-data-maaritelma (Arkistoitu – Internet Archive)
  2. http://www.talouselama.fi/kumppaniblogit/tieto/big data muuttaa maailmaa/a2191461 (Arkistoitu – Internet Archive)
  3. Hilbert, Martin (2013)http://papers.ssrn.com/sol3/papers.cfm?abstract_id=2205145 "Big Data for Development: From Information- to Knowledge Societies" Rochester, NY: Social Science Research Network
  4. Srinivasa, Srinath (2012) http://link.springer.com.ezproxy.jyu.fi/book/10.1007/978-3-642-35542-4 "Big Data Analytics : First International Conference, BDA 2012, New Delhi, India, December 24-26, 2012. Proceedings / edited by Srinath Srinivasa, Vasudha Bhatnagar" Springer, Berlin, Heidelberg.
  5. a b c d e f g h i Franks, Bill (2012) http://site.ebrary.com.ezproxy.jyu.fi/lib/jyvaskyla/docDetail.action?docID=10546553[vanhentunut linkki] "Taming the Big Data Tidal Wave : Finding Opportunities in Huge Data Streams with Advanced Analytics" Wiley, Hoboken, NJ, USA
  6. a b Adrian, Merv (2011)http://www.teradatamagazine.com/v11n01/Features/Big-Data/ "Big Data" Teradata Magazine 1/2011
  7. a b c d e f Kacfah Emani, C., Cullot, N. and Nicolle, C.: Understandable Big Data: A survey. Computer Science Review., 17, pp. 70–81. doi: 10.1016, 2015 toukokuu. Elsevier Inc..
  8. a b c d e f Authors, F.: Enhancing knowledge management: Big Data analytics and social media content. Strategic Direction, toukokuu 2017.
  9. Data Virtualization – dataWerks www.datawerks.com. Arkistoitu 10.4.2018. Viitattu 3.5.2018. (englanti)
  10. Lee, Newton (2013)"Facebook Nation: Total Information Awareness" Springer, New York

Aiheesta muualla

muokkaa