L'agent Endpoint : un guide pour l'exploration des Data.
#LittleData et #BigData
Un agent Fuseki représentant un Sparql endpoint
Fuseki, Virtuoso comme décrit sur smag0 / RDF facile.
SubClass of AgentDTS (DataSource )
SubClassOf AgentDTL ( DataLake ) Lucene, Spark...
Différence entre DataSource et DataLake :
- DataSource : Des données sont produites régulièrement, et on les utilise, analyse, exploite aussitôt pour prédire, détecter les tendances. Facile d'établir des outils d'analyse / parsing / traitement sur les flux.
- DataLake : Des masses de données informes sans structure difficilement exploitable, provenant de plusieurs DataSources.
Impossible de connaître réellement la profondeur du lac sans partir en exploration, en immersion ( masque, bouteille, palmes... ??? scaphandre ? sous-marin ??? )
Impossible de tout explorer, il faut bien connaître l'objectif que l'on veut atteindre et sélectionner les datas utiles, les filtrer...
-> Les niveaux de datas :
- DataSource, décrit plus haut, RdfStream
- DataLarme, signal, petit, amené à disparaitre
- DataFlaque, quelques données, persistance moyenne d'une journée
- DataVerre, un paquet de données dont l'essentiel reste stable, les caractéristiques techniques d'un bâtiment ( superficie, matériaux de construction... ) Plus proche d'un fichier / groupe de fichiers déterminé ? restreint ? établit ? que d'un serveur.
- DataBouteille idem que DataVerre, mais avec un peu plus de données , changé parfois par partie : ajouter, enlever un verre, échelle d'une grosse entreprise, d'un quartier de ville ?
- DataFilet, un flux continu de petites données : remontées d'un capteur iot, d'un compteur, d'un flux vidéo... Une part d'interprétation, peut être effectuée par ce capteur... RdfStream
- DataRuisseau, un flux moyen fournit par une DataSource
- DataRiviere ...
- DataFleuve...
- DataLake, DataEtang, DataMer, DataOcean...
Besoin d'outils adaptés à chaque type de données et d'utilisation : enregistrement, visualisation, fusion, exploitation, extraction, recherche de petite, de trésor,...
-> DataMining, 2D/3D visualisation, createRdf-js, DreamcatcherAutonome, DreamCatcherCollaborative...
Possibilité de croiser à l'intérieur de ces données d'autres explorateurs DataAnalyst, DataScientists,...
--> parfois nécessité d'établir en collaboration des pistes d'exploration, de modifier et/ou dupliquer une partie des données pour les rendre plus exploitables, en prenant en compte l'objectif de chacun, les possibles utilisations futures.