Big Data tarkastelussa – 10 vinkki? massadataan liittyen

Avoin toiminta
Tiivistelm?

Big data on uusi ja nouseva toimialue useimmille yrityksille. Massadatan hy?dynt?minen vaatii huolellista suunnittelua ja parhaiden k?yt?nt?jen k?ytt??.

Big data n?yttelee nyky??n yh? suurempaa osaa yritysten toiminnassa. Suuria tietomassoja k?ytet??n ja sovelletaan useilla liiketoiminnan alueilla samalla kun data-analytiikka, teko?ly ja koneoppiminen jatkavat kasvavaa suosiotaan. Suurten tietomassojen analysoimisella voi l?yt?? todellisen arvon valtavista tietokannoista riippumatta siit?, onko data j?sennelty?, j?sent?m?t?nt? tai puolij?sennelty?.

Sosiaalisen median esiinmarssi on antanut aihetta monille uusille mahdollisuuksille ker?t? tietoa asiakask?ytt?ytymisest?. T?ss? listassa on joitakin esimerkkej?:

  • Klikkauksiin liittyv?? dataa tulee k?ytt?jien ollessa vuorovaikutuksessa verkkosivustojen kanssa, kuten klikkauksista ja verkkosivun pelk?st? selaamisesta
  • Sosiaalisuuteen perustuvat sivustot ovat k?ytt?jien verkko-yhteis?j?, jotka ovat valmiita jakamaan tietoa ostok?ytt?ytymisest??n.
  • Sensorit tarjoavat tietoa k?yttjien fyysisest? ymp?rist?st?, kuten l?mp?tilasta, kosteudesta ja liikennemalleista.

Data-analytiikan tarjoamat oivallukset voivat auttaa organisaatioita p??t?ksentekoprosessissaan. Suurten tietomassojen todellinen hy?ty saavutetaan vain, jos sit? hallitaan asianmukaisesti. Organisaatiot voivat v?ltt?? hukkumisen suurten tietomassojen kanssa varmistamalla, ett? datan analysointi tehd??n asianmukaisella tavalla.

Ensimm?inen askel ennen massadataan liittyv?n projektin aloittamista on tietysti hyv? suunnittelu. Organisaation on selke?sti tiedett?v? projektin tarkoitus ja m??ritelt?v? sen tiekartta. Suunnittelijoiden tulisi my?s tunnistaa, mink?laista lis?arvoa he haluavat muodostaa ja kuinka se vaikuttaa liiketoimintap??t?ksiin.

T?ss? artikkelissa tutkimme tekij?it?, joita kannattaa ottaa huomioon massadatan analysoimisessa ja tutkimisessa.

Lue my?s: Kest?v? kehitys IT-alalla – kohti parempaa tulevaisuutta

1. Mik? on big datan tarkoitus ja l?ht?kohta

Tietojen ker??misen tarkoituksen ja l?ht?kohdan tunnistaminen on eritt?in kriittist? mink? tahansa suuren tietomassaprojektin menestyksen kannalta. Ensimm?isen? organisaation tulisi tunnistaa liiketoiminnalle t?rkeimm?t k?ytt?tapaukset, joita projektissa halutaan tarkastella. T?m? auttaa organisaatiota tunnistamaan kyseisi? k?ytt?tapauksia varten tarvittavat komponentit.

Sen j?lkeen tulisi tehd? asianmukaista ja tarkkaa suunnittelua, jotta suurten tietomassojen tekniikoita voidaan soveltaa n?ihin k?ytt?tapauksiin ja saada t?t? kautta arvokasta n?kemyst? liiketoiminnan kasvun edist?miseksi.

Prioriteettien tulisi riippua tekij?ist?, kuten:

  • Kustannukset
  • Odotettu vaikutus liiketoimintaan
  • Tarvittava aika projektin aloittamiseen
  • Toteutuksen nopeus

Organisaatioiden tulisi aina aloittaa yksinkertaisesta ja helposti toteutettavasta sovelluksesta, joka toimii pilottiprojektina.

2. Tutki luvat huolellisesti

Big data on nyky??n se varsinainen polttoaine kaikille suurille analytiikkaprojekteille. Siksi on eritt?in t?rke?? suojata data mahdollisilta v??rink?yt?ksilt?.

Ennen datan k?ytt?oikeuden my?nt?mist? millek??n kolmannen osapuolen k?ytt?j?lle tulisi olla paikallaan tarkistaa ja luoda asianmukaiset lisenssiehdot. Ehdoissa tulisi selv?sti mainita seuraavat perusasiat.

  • Kuka tulee k?ytt?m??n dataa?
  • Mink?laista dataa tulee olemaan saatavilla?
  • Miten dataa tullaan k?ytt?m??n?

Jos lisenssiss? on puutteita, siit? voi pahimmillaan seurata datan menetys tai mahdollisia v??rink?yt?ksi?, jotka tulevat v?ist?m?tt? vaikuttamaan liiketoimintaan negatiivisesti.

3. Salli big datan demokratisointi

Datan demokratisointi voidaan m??ritell? jatkuvaksi prosessiksi, jossa jokainen organisaation ty?ntekij? p??see k?siksi dataan. Yritykseen kuuluvat ihmiset tulisi olla mukavuusalueellaan ty?skennelless??n datan kanssa, joten sen helppo saatavuus sek? koulutus ovat keskeisess? asemassa.

Datan demokratisointi auttaa organisaatioita muuttumaan ketter?mmiksi ja tekem??n tietoon perustuvia liiketoimintap??t?ksi?. T?m? voidaan saavuttaa perustamalla asianmukainen prosessi. Ensinn?kin datan tulisi olla saatavilla kaikilla toimintatasoilla – organisaation rakenteesta riippumatta. Toiseksi yksitt?inen l?hde tulisi perustaa heti datan validoinnin j?lkeen.

Kolmanneksi kaikkien tulisi saada tarkistaa tiedonl?hde ja antaa oma panoksensa sen kehitt?misess?. On my?s hyv? muistaa, ett? uusia ideoita voidaan testata ottamalla laskelmoituja riskej?. Jos uusi idea on toimiva, organisaatiot voivat kehitty? eteenp?in helpommin.

4. Rakenna yhteisty?h?n perustuva ty?kulttuuri

Suurten tietomassojen osalta eri osastojen ja ryhmien v?linen yhteisty? organisaatiossa on eritt?in t?rke??. Niihin liittyv?t kehitysideat voivat olla menestyksi? vain silloin, kun organisaatiossa on rakennettu asianmukainen kulttuuri kaikilla tasoilla – rooleista ja vastuista riippumatta.

Organisaation johtajilla tulisi olla selv? visio tulevaisuudesta, ja heid?n tulee kannustaa ty?ntekij?it? luomaan uusia ideoita. Kaikkien ty?ntekij?iden ja heid?n osastojensa tulisi saada mahdollisuus l?yt?? tilaisuuksia ja rakentaa prosesseja niiden validointiin. Mahdollisia esteit? uusien ajatuksien ja toiminnan kehitt?miselle ei tulisi olla.

Kannattaa muistaaa, ett? toimiva organisaatio on samalla my?s oppimisprosessi, joka on hyv?ksytt?v? yht? lailla sek? menestyksen ett? ep?onnistumisen kohdatessa.

5. Tutki suurten tietomassojen infrastruktuuria

Mik? tahansa suurten tietomassojen projekti on yht? t?rke? my?s infrastruktuurin osalta. Datan m??r? mitataan petatavuissa, joten sit? on tarjolla valtavat m??r?t. T?m?n vuoksi datan tallentamiseen ja sen k?sittelyyn liittyv?t infrastruktuurit tulee olla asianmukaisessa kunnossa.

Tietokeskuksia k?ytet??n datan tallennustarkoituksiin, joten niiden on oltava kunnossa esimerkiksi komponenttien, tiedonhallinnan, varmuuskopioiden, luotettavuuden, turvallisuuden, skaalautuvuuden ja monien muiden tekij?iden suhteen.

Samoin suurten tietomassojen k?sittely ja siihen liittyv? teknologia-infrastruktuuri on tarkistettava huolellisesti ja kehitett?v? tarvittavalle tasolle. Pilvipalvelut ovat yleens? eritt?in joustavia niiden k?yt?n ja kustannusten suhteen. Vakiintuneisiin pilvipalveluiden tarjoajiin kuuluvat suuret toimijat kuten AWS, Azure ja GCP, mutta markkinoilla on my?s monia muita palveluntarjoajia.

6. ?l? hukuttaudu tietomassoihin

Hyv? tietohallinto on eritt?in t?rke?? suuriin tietomassoihin perustuvien projektien onnistumisen kannalta. Asianmukainen tietojen ker??minen tulisi suunnitella ennen toteutusta.

Yleens? organisaatioilla on taipumus ker?t? jokainen yritykseen liiketoimintaan liittyv? tiedonpalanen. Kaikki t?m? data ei kuitenkaan v?ltt?m?tt? sovi nykyisiin liiketoimintaskenaarioihin. Siksi on t?rke?? tunnistaa ensin liiketoiminnan k?ytt?tapaukset ja m??ritt?? se, miss? ker?tty? dataa voidaan soveltaa.

Kun tietostrategia on hyvin m??ritelty ja se on suoraan yhteydess? liiketoiminnan soveltamiseen, seuraava askel voidaan suunnitella tarkemmin. T?m?n j?lkeen uutta dataa voidaan lis?t? parantamaan liiketoimintamallia ja sen tehokkuutta.

7. ?l? unohda avoimen l?hdekoodin ratkaisuja

Teknologian hy?dyllisyytt? ja siihen liittyvi? eri vaihtoehtoja tulisi arvioida projektin koon ja organisaation budjetin perusteella. Monia avoimen l?hdekoodin alustoja on saatavilla ilmaiseksi pilottiprojektien toteuttamiseen. Pienet ja keskisuuret organisaatiot voivat tutkia n?it? avoimen l?hdekoodin ratkaisuja aloittaakseen projektinsa suuriin tietomassoihin liittyen. Siksi organisaation fokus tulisi olla tuloksessa ja sijoitetun p??oman tuotossa.

Esimerkiksi Hadoop on avoimen l?hdekoodin ohjelmistoymp?rist?, joka k?ytt?? HDFS:?? (Hadoop Distributed File System) ja MapReducea suurten tietomassojen analysoimiseen tavallisen laitteiston klustereissa – eli hajautetussa laskentaymp?rist?ss?.

Suurten tietomassojen k?sittely on kehittynyt siihen pisteeseen, ett? Hadoopista on tullut de facto -standardi suurten tietomassojen k?sittelyyn. MapReduce on ohjelmointimalli datan jakamiseen ja sen k?sittelyyn tietokoneita k?ytt?en.

Sen kehitti alun perin Google tehokkaaseen suurten tietom??rien k?sittelyyn suurilla tietokoneklustereilla.

8. ?l? aloita ilman asianmukaista suunnittelua

On eritt?in vaarallista aloittaa useita massadata-projekteja samaan aikaan. T?m? l?hestymistapa johtaa todenn?k?isesti vain osittaiseen menestykseen tai t?ydelliseen ep?onnistumiseen.

Siksi organisaatioiden tulisi tehd? tarkkoja suunnitelmia ennen suurien Big Data -projektien k?ynnist?mist? – sen sijaan ne aloitettaisiin h?tik?iden. On aina suositeltavaa aloittaa yksinkertaisella, pienell? ja helposti mitattavalla sovelluksella.

Kun pilottiprojekti on onnistuneesti saatettu p??t?kseen, sit? voidaan soveltaa laajamittaisissa sovelluksissa. On t?rke?? k?ytt?? aikaa suunnitelman kehitt?miseen ja pilottiprojektin valintaan huolellisesti.

9. ?l? laiminly? turvallisuutta

Tietoturva on yksi t?rke? osa-alue Big Data -projekteissa. Useissa suurten tietomassojen skenaariossa petatavujen verran dataa k?sitell??n eri l?hteist?. K?sitelty data toimii sen j?lkeen sy?tteen? analyyttiselle mallille. Analytiikan tuloksena on parhaillaan arvokkaita vinkkej? liiketoiminnan kehitt?miseen.

Kun raakadata on jalostettu ja merkityksellist? tietoa on louhittu raakadatasta, seuraa koko projektin kenties t?rkein vaihe.

On my?s hyv? muistaa, ett? kun data sis?lt?? kriittist? liiketoimintatietoa, siit? tulee arvokasta organisaatiolle. Siksi t?m?n datan on oltava suojattu ulkoisilta uhilta. Tietoturvan on oltava suunniteltu osaksi suurten tietomassojen toteutuksen elinkaarta.

10. ?l? keskity eristettyihin liiketoimintayksik?ihin

Nykyaikaisissa ja usein monimutkaisissa liiketoiminnoissa yhteen liiketoimintayksikk??n keskittyminen ei v?ltt?m?tt? ole viisainta. Organisaatioiden tulisi ottaa kattava n?k?kulma koko liiketoimintaan ja ajatella toimintaa laajemmasta n?k?kulmasta.

Paras l?hestymistapa on ottaa pieni? askeleita kerrallaan ja muistaa pit?? kokonaisuus jatkuvasti mieless?. Fokus tulisi olla kokonaisvaltainen liiketoimintayksik?iden osalta. T?ll? on positiivinen vaikutus ja parempi sijoitetun p??oman tuotto.

Big data vinkit – yhteenveto

Suurten tietomassojen projekteille ja niiden toteuttamisille ei ole olemassa jotain tietty? menestyspolkua. Viime k?dess? se on yhdistelm? suunnittelua, strategiaa, erilaisia l?hestymistapoja ja useita muita tekij?it?, jotka johtavat parhaassa tapauksessa my?s organisaation liiketoiminnan menestykseen.

Jokaisella organisaatiolla on tietty tavoite saavutettavaksi, joten strategian tulisi olla suunniteltu sen mukaisesti. Esimerkiksi pilottiprojekti olisi valittava huolellisesti, jotta tuloksena oleva tieto olisi mahdollisimman relevanttia.

Aiheeseen liittyv?t artikkelit

Kaushik Pal
Technology Specialist
Kaushik Pal
Teknologia-kirjoittaja

Kaushik on tekninen arkkitehti ja ohjelmistokonsultti, jolla on yli 23 vuoden kokemus ohjelmistoanalyysista, kehityksest?, arkkitehtuurista, suunnittelusta, testauksesta ja koulutusalalta. H?nell? on kiinnostus uusiin teknologioihin ja innovaatioalueisiin. H?n keskittyy web-arkkitehtuuriin, verkkoteknologioihin, Java/J2EE:hen, avoimen l?hdekoodin ohjelmistoihin, WebRTC:hen, suuriin tietoihin ja semanttisiin teknologioihin. H?n on osoittanut asiantuntemuksensa vaatimusanalyysiss?, arkkitehtuurin suunnittelussa ja toteutuksessa, teknisten k?ytt?tapausten laatimisessa ja ohjelmistokehityksess?. H?nen kokemuksensa on kattanut eri toimialat, kuten vakuutus, pankki, lentoyhti?t, merenkulku, asiakirjahallinta ja tuotekehitys, jne. H?n on ty?skennellyt laajan valikoiman teknologioiden parissa aina suurten tietokonej?rjestelmien (IBM S/390), keskisuuren tason (AS/400), web-teknologioiden, avoimen l?hdekoodin ja suurten tietojen alueille. Kaushik on p??asiassa mukana Java/J2EE/avoimen l?hdekoodin/verkko/WebRTC/Hadoop- ja suurten tietojen…

',a='';if(l){t=t.replace('data-lazy-','');t=t.replace('loading="lazy"','');t=t.replace(/