Management

‘Hosannastemming over big data, maar bedrijven hebben het vaak niet op orde’

We lezen en horen veel over de mogelijkheden die big data biedt. Maar bijna nooit gaat het over de kwaliteit van de gegevens en hoe toegankelijk deze zijn. Die twee blijken bij veel bedrijven niet in orde.

Big data is in de afgelopen vijf jaar voor veel organisaties een centraal onderdeel geworden van de strategie. Wie zijn onze klanten? In welke producten moeten we investeren? En waar kan op worden bezuinigd? Data geven het antwoord. Vaak wordt ook wel gezegd dat data de meest waardevolle asset zijn van een bedrijf. De belangstelling voor het fenomeen is dan ook groot. Vakbladen staan er vol mee en op corporate events lijkt het nog maar over één ding te gaan. Enthousiast gemaakt door huidige succesvoorbeelden en futurische vergezichten laten managers zich bijscholen en schroeven zij de investeringen in data analytics op. Dat big data belangrijk is, zal niemand ontkennen. Maar te weinig managers staan stil bij de kwaliteit van hun data. Onlangs vroeg Harvard Business Review 75 topmannen van uiteenlopende organisaties om middels een steekproef hun eigen data te onderzoeken. Daaruit bleek dat de kwaliteit van hun gegevens veel slechter was dan de bestuurders zelf dachten. Gemiddeld bevatte 43 procent van de recent gecreëerde datasets een kritieke fout. En slechts 3 procent van de geïnspecteerde datasets voldeed aan de minimale kwaliteit die managers zichzelf hadden opgelegd. ‘Ik verwachtte veel beter te scoren’, was een veelgemaakte opmerking. Daarnaast blijkt uit een groter, algemener onderzoek van databureau Experian Data Quality, uitgevoerd onder 1200 professionals uit zeven landen, dat internationaal opererende bedrijven gemiddeld meer dan een kwart van hun data als onnauwkeurig bestempelen. Datastructurering ‘Er is een grote hosannastemming over big data, maar in de praktijk blijkt dat veel bedrijven hun data niet op orde hebben’, ziet ook Wil van der Aalst, hoogleraar Informatiesystemen aan de TU Eindhoven en een van de meest geciteerde datawetenschappers. De succesvoorbeelden waar iedereen naar kijkt, gaan volgens Van der Aalst over heel specifieke toepassingen, zoals het voorspellen van koopgedrag of – in het veld van machine learning – zelfrijdende auto’s. Maar dat is een topje van de ijsberg. Het zijn zaken waarmee een select clubje van datagedreven bedrijven als Google zich bezighoudt. Voor het overgrote merendeel van de ondernemingen zijn dit geen fundamentele vraagstukken. ‘Vaak blijkt het dat de meerderheid van de bedrijven eenvoudige maar belangrijke vragen – zoals in het geval van een transportbedrijf: waarom halen wij onze levertijden niet – niet kunnen beantwoorden met hun eigen data’, zegt Van der Aalst. ‘Ten eerste omdat niet alles geregistreerd wordt wat belangrijk is en ten tweede omdat wat wel wordt geregistreerd kwaliteitsproblemen heeft.’ Van der Aalst, die met ook veel met ziekenhuizen heeft gewerkt, geeft een voorbeeld van hoe het mis kan gaan met de kwaliteit van data. ‘Goede data zijn in overeenstemming met de werkelijkheid. Dat is gemakkelijker gezegd dan gedaan. Wat we bijvoorbeeld bij ziekenhuizen vaak zien is dat het moment waarop informatie over een handeling – zoals het toedienen van een medicijn – wordt geregistreerd niet hetzelfde moment is als waarop die handeling daadwerkelijk wordt uitgevoerd. De relatie tussen de digitale werkelijkheid en de echte wereld is dan niet één op één.’