dimanche 11 septembre 2016

Agent Endpoint

L'agent Endpoint : un guide pour l'exploration des Data.
#LittleData et #BigData

Un agent Fuseki représentant un Sparql endpoint
Fuseki, Virtuoso comme décrit sur smag0 / RDF facile.

SubClass of AgentDTS (DataSource )
SubClassOf AgentDTL ( DataLake ) Lucene, Spark...

Différence entre DataSource et DataLake :

- DataSource : Des données sont produites régulièrement, et on les utilise, analyse, exploite aussitôt pour prédire, détecter les tendances. Facile d'établir des outils d'analyse / parsing / traitement sur les flux.

- DataLake : Des masses de données informes sans structure difficilement exploitable, provenant de plusieurs DataSources.
Impossible de connaître réellement la profondeur du lac sans partir en exploration, en immersion ( masque, bouteille, palmes... ??? scaphandre ? sous-marin ??? )
Impossible de tout explorer, il faut bien connaître l'objectif que l'on veut atteindre et sélectionner les datas utiles, les filtrer...

-> Les niveaux de datas :

- DataSource, décrit plus haut, RdfStream
- DataLarme, signal,  petit, amené à disparaitre
- DataFlaque, quelques données, persistance moyenne d'une journée
- DataVerre, un paquet de données dont l'essentiel reste stable, les caractéristiques techniques d'un bâtiment ( superficie, matériaux de construction... ) Plus proche d'un fichier / groupe de fichiers déterminé ?  restreint ? établit ? que d'un serveur.
- DataBouteille idem que DataVerre, mais avec un peu plus de données , changé parfois par partie : ajouter, enlever un verre, échelle d'une grosse entreprise, d'un quartier de ville ?
- DataFilet, un flux continu de petites données : remontées d'un capteur iot, d'un compteur, d'un flux vidéo... Une part d'interprétation, peut être effectuée par ce capteur... RdfStream
- DataRuisseau, un flux moyen fournit par une DataSource
- DataRiviere ...
- DataFleuve...
- DataLake, DataEtang, DataMer, DataOcean...

Besoin d'outils adaptés à chaque type de données et d'utilisation : enregistrement, visualisation, fusion, exploitation, extraction, recherche de petite, de trésor,...
-> DataMining, 2D/3D visualisation, createRdf-js, DreamcatcherAutonome, DreamCatcherCollaborative...

Possibilité de croiser à l'intérieur de ces données d'autres explorateurs DataAnalyst, DataScientists,...

--> parfois nécessité d'établir en collaboration des pistes d'exploration, de modifier et/ou dupliquer une partie des données pour les rendre plus exploitables, en prenant en compte l'objectif de chacun, les possibles utilisations futures.

Aucun commentaire:

Enregistrer un commentaire