Verstandig data openen, volgens Google

/ 28 March 2019 / 0 Comments

Google publiceerde afgelopen maart een artikel om duidelijk te maken hoe zij bijdraagt aan het verantwoord beschikbaar maken van data. Google geeft prima tips hoe je kunt meehelpen om zoveel mogelijk data beschikbaar en vindbaar te maken, en hoe daarbij rekening te houden met privacy en misbruik te voorkomen.

Hoewel het "wij van WC-eend" gehalte in dit artikel hoog is, benoemt Google terechte aandachtspunten en biedt hiervoor ook oplossingen. Wil je dat hergebruikers je data goed kunnen vinden èn gebruiken, dan kun je beter een paar van de tips van Google volgen. En natuurlijk blijf ook je datasets aanmelden bij data.overheid.nl.

Lees het artikel van Google hier: https://www.blog.google/technology/ai/sharing-open-data/

De belangrijkste adviezen

Een samenvatting van de aandachtpunten uit het artikel:

wees verstandig en verantwoordelijk voor je data (be responsible). Zorg dat de data die je opent zo schoon mogelijk en machine leesbaar is, zodat slimme (AI) toepassingen zich niet direct verslikken. En wees helder over de doel en context van de data, zodat deze niet voor verkeerde doeleinden wordt gebruikt. Gebruik dus niet een dataset met Afrikaanse diersoorten om de tuinvogeltelling in Nederland te ondersteunen.
maak je data vindbaar. Meld je data niet alleen aan op portalen zoals data.overheid.nl, maar zorg ook dat Google ze makkelijk kan vinden. Google heeft een aparte search-engine voor datasets gemaakt. Elke dataset die met de Google standaard "schema.org" is getagd, is zichtbaar in deze data-zoekmachine "dataset-search".
maak je data bruikbaar. Google noemt "Linked Data" geen enkele keer, maar geeft een helder advies om data zo goed mogelijk te correleren zodat deze makkelijker bruikbaar is. Een pleidooi voor het beschikbaar stellen van 5-sterren linked data.
zoek balans tussen openen en misbruik voorkomen. In Europa biedt wetgeving handvatten om misbruik van data te voorkomen. Google geeft aan zelf de balans te zoeken tussen het publiek of niet publiek beschikbaar te maken van bepaalde data. Commerciële belangen worden hier niet genoemd; wel de afweging of misbruik van data kan worden gemaakt voor bijvoorbeeld "deepfake" producties of door App ontwikkelaars die toegang hebben tot data van Google gebruikers. Google aggregeert gebruikersdata zelf ook om privacy te beschermen, net zoals CBS dat doet. Zie bijvoorbeeld de Google zoektrends.

Erg interessant en privacy verantwoord is: Federated Learning. De data om een AI toepassing te laten leren blijft decentraal en bij de eigenaar. Alleen de geleerde lessen worden gedeeld. Dit is de ultieme manier om gevoelige data niet te hoeven kopiëren en toch te kunnen gebruiken.

En Google heeft ook haar AI-platform geschikt gemaakt om data decentraal te houden, en toch te leren op basis van die data: differential privacy in TensorFlow Federated.

TOOLS!

Concreet onderdeel in het artikel zijn genoemde datatools van Google. Op een rijtje:

FACETS. Tool om databronnen te analyseren en te visualiseren. Interessant om een eerste preview van data te maken voordat je deze gaat downloaden of bewerken.
CROWDSOURCE. Android App om publiek te laten helpen om datakwaliteit en performance van AI toepassingen te verbeteren.
KAGGLE. Een enorme dataopslag voor data analyses. Kaggle bevat datasets, code, scripts en een community om data analyse makkelijker te maken en de juiste data te vinden. Veel wetenschappelijke onderwerpen, maar ook bijzonder praktische toepassingen en scripts.
DATASET-SEARCH. Binnen afzienbare tijd zijn dataportalen niet meer nodig, en zoekt iedereen datasets via deze speciale dataset zoekmachine van Google. Wel alle Google meta-tags netjes opnemen in je eigen website of datacatalogus.
DATACOMMONS. Tool om data "browsable" te maken. Google probeert om verschillende datasets in een "graph" te combineren waar je als een oneindige kubus doorheen kunt lopen. Nog ingewikkeld om te doorzien, maar lijkt invulling te geven aan Linked Data principes.
TENSORFLOW. Het Machine Learning platform van Google wordt steeds beter. Versie 2.0 is net uit. Tensorflow is het ontwikkel- en productieplatform voor machine learning en AI toepassingen in de cloud.

Verstandig data openen, volgens Google

De belangrijkste adviezen

Categories

Recente berichten

Tags

Over Coherenza

Contact

Recente Berichten

Handige Informatie

Blog

Verstandig data openen, volgens Google

De belangrijkste adviezen

Categories

Recente berichten

Tags

Handige Informatie