Gebruik fuzzy logic bij vergelijken twee open data bestanden

AANVRAAG - Op verzoek van Sargasso zijn twee heel verschillende open data bestanden naast elkaar gelegd. Dit gebeurde op basis van de bedrijfsnamen. Maar de notatie verschilde tussen de bestanden. Fuzzy logic was nodig om de overeenkomsten te kunnen vinden.

maandag 11 januari 2016 | aanvraag, opendata

De inkoopgegevens van de Ministeries bevatten gegevens over de leveranciers (2.500 grootste van de in totaal 31.000). Het lobbyregister van de EU in Brussel bevat de namen van de organisaties die zich als zodanig hebben opgegeven (ruim 9.000). Waar in het ene register "N.V. Nederlandse Gasunie (Gasunie)" staat, vermeldt de andere "Nederlandse Gasunie". Vergelijken gaat dus niet 1 op 1.

Hiertoe is met Python een script geschreven waarbij een extra library gebruikt is, speciaal voor het "ongeveer" vergelijken van gegevens. Voor de zekerheid zijn twee verschillende algoritmen gebruikt. Zo werden er dus 4,5 miljoen vergelijkingen uitgevoerd.

Als resultaat kwam er een bestand uit met 600 "matches". Dat is met de hand nagekeken en teruggebracht tot zeventig. Want hoezeer "Netflix International" ook op "Nedvan International" lijkt, het zijn totaal verschillende bedrijven.

Gebruikte uren: 3
Doorlooptijd: 2 dagen

Ook interessant om te lezen

Wachttijden belastingtelefoon

Juist in deze periode bellen veel mensen met de belastingtelefoon om nog even de laatste vragen beantwoord te krijgen. Op basis van de open data van de Belastingdienst zelf hebben we uitgevonden dat u dit het beste donderdagochtend kunt doen.

maandag 11 januari 2016 | aanvraag, opendata