Agent Cra: Agent Endpoint

L'agent Endpoint : un guide pour l'exploration des Data.
#LittleData et #BigData

Un agent Fuseki représentant un Sparql endpoint
Fuseki, Virtuoso comme décrit sur smag0 / RDF facile.

SubClass of AgentDTS (DataSource )
SubClassOf AgentDTL ( DataLake ) Lucene, Spark...

Différence entre DataSource et DataLake :

- DataSource : Des données sont produites régulièrement, et on les utilise, analyse, exploite aussitôt pour prédire, détecter les tendances. Facile d'établir des outils d'analyse / parsing / traitement sur les flux.

- DataLake : Des masses de données informes sans structure difficilement exploitable, provenant de plusieurs DataSources.
Impossible de connaître réellement la profondeur du lac sans partir en exploration, en immersion ( masque, bouteille, palmes... ??? scaphandre ? sous-marin ??? )
Impossible de tout explorer, il faut bien connaître l'objectif que l'on veut atteindre et sélectionner les datas utiles, les filtrer...

-> Les niveaux de datas :

- DataSource, décrit plus haut, RdfStream
- DataLarme, signal, petit, amené à disparaitre
- DataFlaque, quelques données, persistance moyenne d'une journée
- DataVerre, un paquet de données dont l'essentiel reste stable, les caractéristiques techniques d'un bâtiment ( superficie, matériaux de construction... ) Plus proche d'un fichier / groupe de fichiers déterminé ? restreint ? établit ? que d'un serveur.
- DataBouteille idem que DataVerre, mais avec un peu plus de données , changé parfois par partie : ajouter, enlever un verre, échelle d'une grosse entreprise, d'un quartier de ville ?
- DataFilet, un flux continu de petites données : remontées d'un capteur iot, d'un compteur, d'un flux vidéo... Une part d'interprétation, peut être effectuée par ce capteur... RdfStream
- DataRuisseau, un flux moyen fournit par une DataSource
- DataRiviere ...
- DataFleuve...
- DataLake, DataEtang, DataMer, DataOcean...

Besoin d'outils adaptés à chaque type de données et d'utilisation : enregistrement, visualisation, fusion, exploitation, extraction, recherche de petite, de trésor,...
-> DataMining, 2D/3D visualisation, createRdf-js, DreamcatcherAutonome, DreamCatcherCollaborative...

Possibilité de croiser à l'intérieur de ces données d'autres explorateurs DataAnalyst, DataScientists,...

--> parfois nécessité d'établir en collaboration des pistes d'exploration, de modifier et/ou dupliquer une partie des données pour les rendre plus exploitables, en prenant en compte l'objectif de chacun, les possibles utilisations futures.

Agent Cra

dimanche 11 septembre 2016

Agent Endpoint

Aucun commentaire:

Enregistrer un commentaire