Open Data chaos

We werken graag en vaak met Open Data van de overheid. Maar niet altijd gaat dit soepel. Daarom delen we soms ook onze mindere ervaringen ter lering. Dit keer lopen we vast in de data van het Meldingenregister Autoriteit Persoonsgegevens.

donderdag 25 augustus 2016 | opendata, Overheid

Het register bevat meer dan 200 varianten van omschrijvingen waar "e-mail" in voorkomt

Laten we beginnen met het goede nieuws. Het meldingenregister was lange tijd alleen via een weinig bruikbaar zoekformulier te benaderen. Nu is het ook beschikbaar als volledig bestand. Maandelijks zetten ze een versie klaar in JSON-formaat.

Voor veel organisaties die actief zijn op het vlak van privacy was het een doorn in het oog dat een organisatie die als waakhond dient op dit punt dient niet transparant was. Een actueel en fatsoenlijk overzicht van het gebruik van persoonsgegevens was niet te maken. Daarom heetten velen deze stap welkom.

Na de eerste publicatie zijn wij vooral geïnteresseerd in een overzicht van welk type persoonsgegevens er nou het meest vastgelegd wordt. De eerste stap is dan te kijken hoe de registraties individueel opgebouwd zijn. Hieronder een voorbeeld van een record (inhoud aangepast):

    {
        "Naam": "Klief",
        "Url": "https://www.collegebeschermingpersoonsgegevens.nl/asp/ORMelding.asp?id=9ce1ebebeed5d582828285d5d58282828",
        "Meldingen": [
            {
                "MeldingsNummer": "11665xx",
                "NaamVerwerking": "Camera observatie systeem voor tankstation",
                "Verantwoordelijken": [
                    {
                        "Naam": "J.P.N. van Klief",
                        "BezoekAdres": "Dalweg 23\n9999DD MIDDELS\nNederland",
                        "PostAdres": "Postbus 48\n9999AA MIDDELS\nNederland"
                    }
                ],
                "Doelen": [
                    "Het observeren van klant bij het tankstation gedurende korte periode."
                ],
                "Betrokkenen": [
                    {
                        "Naam": "klanten",
                        "Persoonsgegevens": [
                            {
                                "Omschrijving": "videobeelden",
                                "VerzamelDoel": "bewaking/ beveiliging"
                            }
                        ],
                        "BijzonderePersoonsgegevens": [
                            "Geen"
                        ]
                    }
                ],
                "Ontvangers": [
                    "Beelden zijn alleen voor eigen gebruik"
                ],
                "DoorgifteBuitenEU": "N",
                "DoorgiftePassend": "",
                "Url": "https://www.collegebeschermingpersoonsgegevens.nl/asp/ORDetail.asp?moid=898f82888"
            }
        ]
    },

De structuur is vrij eenvoudig. Er zit "nesting" (meerdere onderverdelingen bij een gegeven mogelijk) bij Meldingen en daarbinnen bij Betrokkenen. Maar niet bij Ontvangers, daar is het een eenvoudig rijtje ongestructureerde tekst. Dus geen specificatie van wat naar wie toe gaat.

En er vallen meer dingen op. Adresgegevens van de melders zijn niet opgebroken in aparte velden (straat, postcode, plaats) maar aan elkaar geplakt met "line-breaks" ertussen. Ook zijn er organisaties waar direct een paar meldingen bij staan. Maar er zijn ook organisaties die met iedere melding los voorkomen. Een goed overzicht per organisatie verkrijgen is dan ook een crime. Zoek bijvoorbeeld maar op ING in Amsterdam. Dan vind je 8 varianten met ieder een deel van de meldingen.
Een KvK-nummer had hier al heel erg geholpen.

Een ander ding dat opvalt, is het feit dat er lege records aanwezig zijn. Wordt hier iets afgeschermd, is dit een technische fout of foute invoer van de indiener? Het verstoort in ieder geval de tellingen.

                    {
                        "Naam": "",
                        "Persoonsgegevens": null,
                        "BijzonderePersoonsgegevens": null
                    },

Maar het punt van het niet standaardiseren van de invoer springt toch het meest in het oog. Eigenlijk zijn vrijwel alle velden vrij in te vullen. En juist dat maakt onze zoektocht naar welke persoonsgegevens nou het meest opgeslagen worden tot een onmogelijk opgave.

Bij het sommeren van alle velden "Omschrijving" bij "Persoonsgegevens" krijgen we op 53.000 instellingen met samen meer dan 80.000 meldingen (registraties) ruim 750.000 groepen van persoonsgegevens. En bij groepen moet je dan denken aan "naw-gegevens" of "e-mail" of "geboortegegevens (datum, plaats)".

Het uitsplitsen van die gegevens levert uiteindelijk bijna 100.000 unieke termen op! Alleen al van de varianten op "e-mail" (of "email" of "e mail" etc...) vinden we er ruim 200 (zie onder).
Een beetje grof groeperen is nog wel mogelijk soms. Maar een volledig en correct overzicht kunnen we op die manier dus nooit maken.

Toch presenteren we hier, na het nodige handmatig groeperen, de gebrekkige top 25 om een indruk te geven van hoe vaak iets over personen geregistreerd wordt:

Omschrijving Aantal
naw-gegevens 85885
geboortedatum 34113
geslacht 29758
e-mailadres 19002
burgerlijke staat 17125
nationaliteit 16623
(correspondentie)adres 12676
bsn (sofinummer) 12465
naam 12130
telefoonnummer 11241
gezinssamenstelling 10310
bankrekeningnummer(s) 9072
beroep 9011
financiële gegevens 4711
woonplaats 4532
gespreksnotities 4431
werkgever(s) 4316
identificatiegegevens 4146
inkomensgegevens 3956
gegevens betreffende de verzekeringsovereenkomst 3640
functie 3412
opleiding 3230
postcode 3158
geboortegegevens 3033
medische gegevens 3003

Kunt u zich voorstellen dat een hoge ambtenaar op verzoek van de minister bij het CBP komt en vraagt: "we willen een wet invoeren die het verbiedt medische gegevens op te slaan bij organisaties, anders dan zorgverleners. Hoeveel bestaande organisaties worden straks door deze wet geraakt?"
En dat dan de medewerker slechts keuze heeft uit twee antwoorden "Uhm, geen idee" en "We geven u het antwoord over anderhalve maand als we alle records met de hand hebben nagelopen".

Het advies dat we organisaties dan ook graag meegeven, is het volgende. Denk bij het ontwerpen van een (mogelijk open) dataverzameling heel goed na over welk mogelijk gebruik er ooit gemaakt van gaat worden.
Standaardiseer zoveel mogelijk van de input. Dwing consistentie af en biedt keuzelijsten aan ipv vrije tekstvelden.

Hier nog het (niet complete) lijstje met e-mail-varianten uit het register.

(e-mail)
(e-mail)adressen
telefoonnummer/e-mailadres
telefoonnummer/e-mailadres/faxnummer
(e-mail)adres
a:e-mailaders
achternaam,e-mailadres,foto,telefoonnummer
(e-mailadres)
telefoon/e-mailgegevens
bedrijfsnaam,e-mailadres,woonplaats,telefoonnummer
ontvanger,e-mailadres
id;gebruikersnaam;e-mail;functie;taal"
telefoon/e-mailgegevens
assistent,e-mailadres
assistent,e-mailadres
(e-mail/telefoon/fax)
(e-mailadres
(e-mailadres)
(e-mailadres/telefoonnummer)
(telnr.,e-mail)
(tel.nr./fax/e-mail)
(e-mailadres,telefoonnummer,adres
(e-mail)
(e-mail)adres
(e-mailadres
(naam,e-mailadres,telefoonnummer,faxnummer,aanspreektilel)
(e-mail)
(e-mail/
telefoon/e-mail/chat/social
"e-mail;"
"e-mail);"
"e-mailadres
"e-mailadres
"e-mailadres;"
"e-mailadres);"
"e-mailadressen;"
e-mails/e-mailverkeer
elefoon/e-mailgegevens
,telefoonnummer/e-mailadres
behandelplan,e-mailadres
telefoonnummer/e-mailadres
telefoonnummer/e-mailadres
telefoonnummer/e-mailadres
faxnummer,e-mailadres
faxnummers,e-mail-
geboortedatum,telefoonnummer,e-mailadres,soorgelijke
contactpersoon,e-mailadres,
telefoonnummer/e-mailadres/
telefoonnummer/e-mailadres/faxnummer
telefoon/e-mailgegevens
(e-mail)
assistent,e-mailadres
naam,achternaam,leeftijd,geslacht,e-mailadres,profiel
naam,adres,e-mail,telefoon
naam,adres,woonplaats,telefoonnummer,e-mailadres,geboortedatum,m/v
naam,foto,e-mailadres
naam,fuctie,telefoonnummer,e-mail,het
naam,functie,telefoonnummer,e-mailadres
"naam,telefoonummers;e-mailadressen(en
"naam;telefoonnr.,e-mailadressen,postadressen(enoverige
naam+voorletters,burgerservicenummer,geboortedatum,e-mailadres,
nationaliteit,e-mailadres,telefoonnummer,evt.idem
nationaliteit,tel.,e-mail,paspoortgeg.
"nationaliteitsgegevens;e-mail;e-mailid;sap
contactpersoon,adres,e-mailadres
gegevens,telefoonnummer,e-mailadres,bsn,opleiding,
gegevens,telefoonnummer,e-mailadres,categorie
/e-mailadres
telefoonnummer,e-mail,betaalwijze
tekenbevoegde,telefoonsgegevens,e-mailgegevens,
naw-gegevens,e-mailadres
naw-gegevens,geslacht,telefoonnummers,faxnummer,e-mailadressen,functie
naw-gegevens,geslacht,telefoonnummers,faxnummer,e-mailadressen,overleden(ja/nee)
naw-gegevens,geslacht,telefoonnummers,faxnummers,e-mailadressen,functie
naw-gegevens,geslacht,telefoonnummers,faxnummers,e-mailadressen,functie,
naw-gegevens,geslacht,telefoonnummers.faxnummer,e-mailadressen,overleden(ja/nee)
naw-gegevens/telefoonnummer/faxnummer/e-mailadres
naw-gegevens/telefoonnummers/faxnummers/e-mailadres
naw-gegevens/telefoonnummers/faxnummers/e-mailadressen
telefoon/e-mail/bankrekeningnummers
naw/tel./fax/e-mail/geb.datum/huwelijkse
naw/telefoon/e-mail/bankrekeningnummers
naw/telefoon/e-mail/bankrekeningnummers/
nevenactiviteiten,functieomschrijving,schoemaat,e-mailadres
"noodgevallen;e-mailadressen;postadressen(en
telefoonnr/e-mailadres
girorekeningnummer,adres,telefoonummer,e-mailadressen,eventuele
(e-mailadres)
opt-in/e-mail-
(e-mailadres
(e-mailadres
(e-mail/inlogcodes)
personeelsnummer,naam,e-mailwerk,telefoonnr.
(e-mail)
(e-mail);"
"te;efoon/e-mailgegevens"
teelfoon/e-mailgegevens
tefoon/fax/e-mailgegevens
tel./e-mailgegevens
tel./fax/e-mail/webadres
nr./e-mailadres
tel.nr/e-mailadres
tel.nrs./e-mail/
tel.nummers/e-mail/
tel/e-mailadres
tel/fax/e-mail,
tel/mobiel/e-mail/fax
tel/mobiel/e-mailadres
telefon/e-mailgegevens
telefonie/e-mailgegevens
telefonn/e-mailgegevens
telefonn/fax/e-mailgegevens
telefoo-/e-mailgegevens
/e-mailgegevens
/e-mailgegevens
nummer/e-mailadres
fax-,e-mailnummer
telefoon-?e-mailgegevens
telefoon-/e-mail,<br><br>
telefoon-/e-mail,bsn
telefoon-/e-mailgegegevens
telefoon-/e-mailgegevens
telefoon-/fax-/e-mailgegevens
telefoon-/telefax-/e-mailgegevens
telefoon-e-mailgegevens
telefoon-fax-/e-mailgegevens
telefoon-fax-e-mailgegevens
telefoon-faxnummer,e-mailadres
telefoon-faxnummer,e-mailadres,gba-nummer,sofinummer
telefoon,faxnummers,e-mailadressen
telefoon/-e-mailgegevens
telefoon/e-mail-gegevens
telefoon/e-mail/bankrekeningnummer
telefoon/e-mailadres
telefoon/e-mailadres/fax
telefoon/e-mailgeg.
telefoon/e-mailgegegevens
telefoon/e-mailgegevens
telefoon/e-mailgegevens.
telefoon/e-mailgegevens/faxnummer
telefoon/e-mailgegevsn
telefoon/e-mailgegvens
telefoon/e-mailnummers
telefoon/e-mailverkeer
telefoon/fax?e-mailgegevens
telefoon/fax.nr./e-mailadres
telefoon/fax/e-mailadres
telefoon/fax/e-mailadressen
telefoon/fax/e-mailgegegevens
telefoon/fax/e-mailgegevens
telefoon/fax/e-mailgegevens
telefoon/fax/e-mailgegevenss
telefoon/faxnrs./e-mailgegevens
telefoon/faxnrs/e-mailgegevens
telefoon/faxnummer(s),e-mailadres(sen)
telefoon/telefax/e-mailgegevens
telefoonf/e-mailgegevens
telefoong/e-mailgegevens
telefoongegevens/e-mailgegevens
telefoonnr.,e-mailadres
telefoonnr./s,e-mailadres
telefoonnr/e-mail/fax
telefoonnr/e-mail/faxnr
telefoonnr/e-mailadres
telefoonnumeers,faxnummers,e-mailadressen
telefoonnumer/faxnummer/e-mailadres
telefoonnumers,faxnummers,e-mailadressen
telefoonnumers,faxnummers,e-mailadressen,web-adressen,bankrekening,sofinummers.
telefoonnummer,e-mailadres
telefoonnummer,e-mailadressen
telefoonnummer,e-mailadressen,webadressen
telefoonnummer(s),e-mailadres
telefoonnummer(s),e-mailadres(sen)
telefoonnummer(s),e-mailadres(sen),en
telefoonnummer(s),faxnummer(s),mobielenummer(s),e-mailadres(sen)
telefoonnummer(s)/e-mailadressen
telefoonnummer(s)/e-mailgegevens
telefoonnummer(werk),fax(werk),e-mailadres(werk),functie
telefoonnummer/e-mailadres
telefoonnummer/e-mailadres/faxnummer
telefoonnummer/e-mailgegevens
telefoonnummer/faxnummer/e-mailadres
telefoonnummer/faxnummer/e-mailadres/website
telefoonnummers,e-mail-adres
telefoonnummers,e-mailadres
telefoonnummers,e-mailadres(sen)
telefoonnummers,e-mailadressen
telefoonnummers,e-mailadressen
telefoonnummers,e-mailadressen,webadressen
telefoonnummers,faxnummers,e-mailadressen,en
telefoonnummers/e-mailadressen
telefoonnummers/e-mailgegevens
telefoonr.,e-mailadres,webadres
telefoonummer,e-mailadressen,webadressen
telefoonummers,faxnummers,e-mailadressen,en
teleoon/fax/e-mailgegevens
telfoon/e-mailgegevens
telfoonnummer(s),e-mailadres(sen)
voicemail-berichten,e-mailberichten
+huisnummers,e-mailadres
werk(e-mail)
(e-mailadres
werkgever,personeelsnummer,e-mailadres,telefoonnummer
mobiel/vast,e-mailadres,competenties
woonplaats/telefoonnummer/faxnummer/e-mailadres
(e-mailadres
(e-mailadres
(e-mail)
(e-mail)adres
(e-mail)
telefoon-/e-mailgegevens
telefoon/e-mailgegevens

Noot:
Dat er zoveel databases zijn met persoonsgegevens wil nog niet zeggen dat alle individuen in al die databases staan. Sommige registraties bevatten maar enige honderden mensen.

Ook interessant om te lezen

Als de data niet open is

Alle gegevens over de stemmingen in de Tweede Kamer zijn online beschikbaar. Maar dat maakt het nog niet tot open data. Hoe verzamel je dan die data om er toch iets mee te kunnen doen?

donderdag 25 augustus 2016 | opendata, Overheid