Le Data Hub Indexima

Ultra performant, AI Powered, simple et sécurisé

DEVENIR UNE ENTREPRISE DATA DRIVEN

Les enjeux du Big Data

Qui n’a pas souffert de la lenteur des échanges avec les équipes IT pour obtenir un ou plusieurs extract de données afin d’affiner ses analyses ? Qui n’a pas rencontré des difficultés à comprendre pourquoi les chiffres de vente en Allemagne sont tombés le mois dernier sur une référence de produit particulière ?

Pour répondre aux sollicitations des équipes Data Analytics et leur garantir des temps d’accès acceptables, les équipes IT sont contraintes de fournir des « extracts » parcellaires des bases de données géantes.
Les outils de Data Analytics s’avèrent incapables d’accéder rapidement à la donnée et d’en exploiter facilement d’importants volumes.
Les utilisateurs voient se réduire leurs champs d’analyse en ne croisant que quelques axes de données, quand des milliards sont aujourdhui présentes dans les systèmes d’information.
A l’ère du Big Data, être DATA DRIVEN, c’est être capable de mettre toute la donnée disponible à la disposition des utilisateurs.

Le datahub Indexima

La solution la plus performante "au monde" pour une entreprise Data Driven

INDEXIMA a mis au point le DATA HUB pour fournir aux équipes IT « la couche » manquante dans une architecture ANALYTICS Data DRIVEN et les solutions de Data Analytics telles que Tableau®, Excel®, Talend, Qlik®, Power BI®, DATAIKU® ou MicroStrategy®). Le DATA HUB permet d’interroger l’intégralité des données Big Data directement à la source, dans des volumétries de plusieurs dizaines de milliards de lignes en quelques millisecondes seulement.

Le DATA HUB repose sur trois composants principaux : HyperIndex, DataSpace et K-Store.

Comment accélerer les performances par 1000
HyperIndex sont des index multidimensionnels distribués et persistants « in-memory ». Ils incluent des pré-agrégations et évitent ainsi d’éventuels cubes OLAP à précompiler. Les HyperIndex permettent de répondre aux requêtes en millisecondes quelle que soit la volumétrie des données. Les requêtes complexes avec des « count distinct » ou des « top N » donnent des réponses instantanées sans approximation grâce à un système de pré-agrégations révolutionnaire.

Le DataSpace est le point d’accès unique et sécurisé à toute la donnée indexée. Il permet, grace à nos algorithmes d’IA, la création automatique des HyperIndex. Cela évite la création des cubes et autres extracts de données ou Datamarts. Les requêtes des utilisateurs sont analysées en permanence pour proposer automatiquement les HyperIndex les mieux adaptés à l’utilisation réelle de la donnée. Des algorithmes de « Machine Learning » et d’I.A. adaptent et améliorent les performances au fur et à mesure des utilisations.

Le K-Store est un nouveau format de stockage orienté-colonne totalement indexable et optimisé pour S3 ou HDFS pour accéder à la donnée détail. Ainsi Indexima peut répondre efficacement quel que soit le type de requête : requêtes globales d’agrégation portant sur l’ensemble des données ou bien requêtes précises portant sur de la donnée fine.

Comparaison avec Spark SQL "in-memory"

Exemple de temps de réponse d’un dashboard en production chez Mappy réalisé avec Tableau Software, où chaque clic de l’utilisateur génère 8 requêtes SQL simultanées.

Spark SQL in-memory

Requêtes simultanées

Requête 1

28

Requête 2

26

Requête 3

24

Requête 4

24

Requête 5

21

Requête 6

10

Requête 7

15

Requête 8

19

Indexima

Requêtes simultanées

Requête 1

0.9

Requête 2

0.9

Requête 3

0.7

Requête 4

0.8

Requête 5

0.1

Requête 6

0.1

Requête 7

0.1

Requête 8

0.1

Le problème, c'est les cubes OLAP…

Sans le Data Hub INDEXIMA

Un grand nombre de solutions de Data Analytics nécessitent de construire des cubes OLAP au préalable de toute analyse. Tout d’abord cela peut paraître contradictoire avec le metier « d’analyste » et de BI Agile qui consiste à pouvoir circuler dans la donnée pour la comprendre. D’autre part et dans un environnement Big Data, la compilation de ces cubes peut prendre plusieurs jours, créant ainsi une forte contrainte pour les utilisateurs qui ne pourront disposer de l’ensemble des données pour générer leurs tableaux d’analyses et rapports.

Avec le Data Hub INDEXIMA

INDEXIMA propose une nouvelle approche pour interroger les Big Data en s’affranchissant des Cubes OLAP en faisant converger plusieurs techniques dans un même outil : index multidimensionnels (multi-colonnes), pré-agrégations in-memory, moteur distribué orienté colonne. Ceci permet de répondre à la majorité des requêtes en millisecondes quelle que soit la volumétrie des données. Pour les « count distinct » et les « top N », il est possible d’inclure dans les index des agrégats qui garantissent des réponses très rapides tout en renvoyant une valeur exacte sans approximation. Quand la requête porte sur certaines colonnes non indexées, le moteur orienté-colonne accède aux données sur le disque en chargeant uniquement les blocs utiles grâce aux autres colonnes indexées.

Avec INDEXIMA, toute la puissance des outils de dataviz peut être exploitée pour analyser les Big Data.

Vers une entreprise DATA DRIVEN

Les bénéfices pour la DSI : Performance et souplesse d'accès à la donnée et économie budgétaire

Scalabilité et performance de 1 Giga jusqu'à plusieurs Peta octets de données

Avec le Data Hub, la performance de l’analytique est visible dès quelques millions de lignes de données. La scalabilité des HyperIndex permet de répondre aux requêtes issues des solutions analytiques en millisecondes jusqu’à plusieurs peta octets.

Traitement du streaming de données

La Data Hub permet d’indexer les données en flux continue ou streaming grâce à des résultats rafraichis en temps réel.

Economie sur les serveurs de données

La technologie des HyperIndex permet une scalabilité sur les Big Data et absorbe plus de 3000 requêtes par seconde chez nos clients. Cela entraîne une économie sur les serveurs d’exécution analytiques jusqu’à 90%. Les requêtes SQL générées par les principaux outils de dataviz du marché sont supportées par INDEXIMA : groupes, jointures et sous-requêtes.

Une souplesse pour les équipes BI

L’Intelligence Artificielle automatise la création des HyperIndex. Ainsi il n’est pas nécessaire de créer des extracts de données ni de compiler des cubes au préalable. D’autre part il est possible d’ajouter des index à la demande en fonction des utilisations. La suppression et la mise à jour transactionnelle des données sont possibles sans réindexation totale.

Une sécurité d'accès centralisée

Le Data Hub comprend une gestion fine des rôles des utilisateurs ainsi qu’une définition des droits d’accès au niveau des tables, des colonnes et des lignes. A partir du poste de travail le filtrage automatique des données par utilisateur garantit un accès aux seules données que lui autorise l’entreprise.

Les bénéfices pour les équipes métiers : Devenir Data Centric avec Indexima

Vous travaillez directement sur l'intégralité de vos données. C'est la fin des extracts de données

Le Data Hub se connecte instantanément à toutes les solutions de visualisation et d’analyse telles que Tableau®, Excel®, Qlik®, Talend®, Dataiku®, Power BI ou MicroStrategy®. Vos rapports et graphiques existants ne nécessitent aucune modification. Vous ne changez pas vos habitudes. Vous avez juste la possibilité d’analyser beaucoup plus de données en toute autonomie.

La DataHub fonctionne avec toutes les solutions analytiques du marché

Le DataHub se connecte instantanément à tous les produits de visualisation et d’analyse tels que Tableau®, Excel®, QlikView®, Talend®, Dataiku® ou MicroStrategy®. Vos rapports et graphiques existants ne nécessitent aucune modification. Vous ne changez pas vos habitudes. Vous avez juste la possibilité d’analyser beaucoup plus de données en toute autonomie.

Comment utiliser Indexima : on-premises ou dans le cloud

1

Sur un cluster Hadoop

En tant qu’application Yarn, INDEXIMA est automatiquement déployé par Hadoop sur plusieurs noeuds du cluster.
Support des clusters sécurisés par Kerberos et des distributions Cloudera, Hortonworks et MapR.
Lecture des tables Hive/Impala au format CSV, ORC, Parquet, JSON et les fichiers à plat.
Les drivers ODBC et JDBC d'INDEXIMA sont les mêmes que pour Hive (HiveServer 2), ils supportent donc les authentifications LDAP, Active Directory et Kerberos.
2

En stand Alone

INDEXIMA peut être déployé en « standalone » sans nécessité l’installation d’autres composants.
Support de Linux et Windows.
3

Dans le Cloud

INDEXIMA se déploie facilement dans les clouds public. Il est nativement conçu pour exploiter l'élasticité des architectures cloud et notamment optimisé pour un stockage direct sur S3.
INDEXIMA est disponible sur la marketplace AWS.
Pour Azure et Google Cloud, merci de nous contacter.