FAQ

Une question sur le secteur de la data, ou à propos de la solution Indexima ?
La FAQ contient certainement une réponse pour vous.

Choisissez votre thématique
Data &
Analytique
La technologie Indexima
Quick Start & Bonnes pratiques
Data & Analytique

Quelle est la différence entre un data lake et un data warehouse ?

Le data lake et le data warehouse sont deux types de stockage de données.

Leur distinction principale repose sur la structure des données qu’ils renferment. Un data lake stocke généralement des données brutes non transformées. Un data warehouse quant à lui, stocke des données transformées et nettoyées.

Un data lake et un data warehouse se distinguent également par la nature des données qu’ils renferment. Les données brutes d’un data lake sont des données dont l’objectif est encore indéterminé. Les données transformées d’un data warehouse ont déjà été utilisées à une fin précise au sein de l’entreprise.

Un autre point de différence entre un data lake et un data warehouse est qu’ils ne sont pas destinés aux mêmes utilisateurs : les données brutes du data lake nécessitent l’expertise d’un data scientist pour être comprises et manipulées, tandis que les données structurées du data warehouse sont accessibles à des non spécialistes.

Enfin, le data lake et le data warehouse se distinguent dans leur accessibilité et leur facilité d’utilisation. Le data lake est plus facile à consulter à modifier, car il est non structuré. A l’inverse, le data warehouse est plus rigide à la manipulation.

Quelles sont les options pour stocker mes données pour mes cas d’usage analytiques ?

Vos données peuvent être stockées dans une base de données, généralement un datalake ou un datawarehouse.

Ces bases de données peuvent être soit présentes dans le Cloud, ou bien on-premise dans des serveurs physiques.

Qu’est-ce qu’un Cloud data lake ?

Un Cloud data lake est un data lake (une solution permettant de stocker ses données) évoluant uniquement dans le Cloud.

Amazon S3, Microsoft Azure Data Lake Storage et Google Cloud Platform sont des exemples de Cloud Data lake.

À quoi sert un outil de data visualisation ?

La data visualisation (ou DataViz) permet de synthétiser et donner du sens aux données brutes à travers des représentations visuelles simples, claires et compréhensibles par tous. Ces représentations peuvent prendre la forme de graphiques, camemberts, chronologies, infographies, diagrammes etc.

Les outils de DataViz sont les logiciels permettant cette synthèse. Ils sont directement utilisés par les différents utilisateurs métiers cherchant à analyser et comprendre la donnée, dans le but de la transformer en outil décisionnel.

Parmi les outils de DataViz les plus connus on retrouve Tableau, Qlik, PowerBI, MicroStrategy ou encore Excel.

Indexima est compatible avec tous les outils de DataViz.

Qu’est-ce que l’ETL ?

Extract Transform Load (ETL) est un type de logiciel. Il permet de collecter des données brutes en provenance de sources diverses, dans le but de les restructurer afin de les charger dans un Data Warehouse.

L’ETL est composé de trois étapes :

  • Extraction : la collecte des données en provenance d’une ou plusieurs sources.
  • Transformation : l’ETL reformate et transforme la donnée afin de la rendre compatible avec le Data Warehouse
  • Loading : le transfert des données transformées dans le Data Warehouse

Les ETL prennent en charge à la fois des données structurées et non structurées, en provenance de sources on-premise ou dans le Cloud. Ce sont des plateformes scalables, flexibles et sécurisées, permettant l’ingestion en temps réel et l’enrichissement de grandes volumétries de données.

Que veut dire « data engineering » ?

Le data engineering est le domaine de la data science se concentrant sur les applications pratiques de la collecte et de l’analyse des données.

Le data engineer est responsable de la création et de la maintenance de l’environnement data de l’entreprise. Il travaille à la conception, à la création et à l’amélioration de l’infrastructure permettant l’accès aux données et à leur gestion.

Le data engineer travaille en amont du data analyst : c’est le data engineer qui prépare la donnée et la rend accessible et exploitable pour le data analyst.

Quels sont les principaux fournisseurs de plateformes Cloud ?

Les leaders du marché des plateformes Cloud sont composés de Amazon avec AWS, Google avec Google Cloud Platform, Microsoft avec Microsoft Azure et Oracle avec Oracle Cloud Infrastructure.

Qu’est-ce que le langage SQL ?

Le langage SQL est le langage informatique permettant de manipuler la donnée et d’exploiter les bases de données relationnelles.

Les requêtes envoyées par les outils de DataViz aux bases de données sont en langage SQL.

Il est essentiel pour tout logiciel se trouvant au sein de l’architecture data d’une entreprise de s’exprimer en langage SQL afin de pouvoir communiquer avec les autres plateformes, logiciels, outils et bases de données. C’est le langage qu’utilise Indexima.

La technologie Indexima

Comment fonctionnent les HyperIndexes ?

Les HyperIndexes d’Indexima sont des sous-ensembles de la donnée cible. Ils sont précalculés et agrégés par Indexima, en fonction de l’usage de la donnée. Leur fonctionnement est totalement transparent.

Concrètement, la façon dont la donnée est interrogée par les outils de DataViz est détectée par Indexima, ce qui permet à Indexima d’anticiper les requêtes et de les précalculer. Indexima va ensuite agréger les données nécessaires pour répondre à ces demandes : c’est ce qui crée les HyperIndexes. En agrégeant la donnée, Indexima réduit fortement le temps de réponse aux requêtes. En effet, il n’est plus nécessaire de lire l’ensemble de la donnée cible avant de fournir une réponse ; la lecture de l’HyperIndexe agrégé et précalculé est suffisante.

Par exemple, vos utilisateurs ont l’habitude de croiser les données produites avec leurs prix et d’en déduire des calculs de sommes ou de moyennes. Indexima va être capable de précalculer ces agrégations. Ces agrégations fréquemment utilisées seront agrégées en un HyperIndexe prêt à l’emploi, permettant de répondre en quelques millisecondes à la requête envoyée.

Quelle est la différence entre un datamart, un cube et les HyperIndexes d’Indexima ?

Contrairement aux HyperIndexes, un datamart n’est pas forcément de l’agrégation. Il peut s’agir simplement d’une vue partielle de la donnée. Parfois, un datamart implique de grosses volumétries, qui ne favorisent pas un temps de réponse rapide aux requêtes, à l’inverse des HyperIndexes. Le datamart segmente une partie de la donnée cible pour répondre à un besoin métier, peu importe sa taille ; l’HyperIndexe cherche à être le plus petit et le plus agrégé possible pour réaliser cela, dans un souci de performance.

Le fonctionnement d’un cube et d’un HyperIndexe est quant à lui relativement similaire. Il s’agit d’une agrégation de la donnée réalisée afin de booster la vitesse de réponse aux requêtes. La principale différence réside en leur création : les HyperIndexes sont réalisés automatiquement par Indexima en quelques secondes, alors que la création de cubes nécessite l’intervention d’un data engineer, ce qui ralentit considérablement leur création (jusqu’à plusieurs semaines). Par ailleurs, grâce au Machine Learning, les HyperIndexes sont auto-apprenants. Ils s’optimisent automatiquement de manière constante.

Comment se connecte Indexima à mes sources de données ?

Indexima est capable de se connecter à la quasi-totalité des sources de données disponibles. La connexion est simple, réalisée en quelques clics à travers l’interface d’Indexima, selon les méthodes d’authentification respectives à chaque fournisseur de source de données.

Indexima possède deux modes de connexions : le mode ingestion de données, et le mode table externe.

Le mode ingestion consiste en Indexima répliquant la donnée de la source sous-jacente en format orienté colonnes.

Le mode en table externe signifie qu’Indexima ne recopie pas la donnée. Indexima va exploiter la source de données directement, et se contenter de créer des HyperIndexes à partir de la donnée stockée dans la source sous-jacente. Cette méthode permet non seulement d’éviter de recopier l’entièreté de la donnée, mais également de combiner la puissance de scan de la donnée de la source (comme c’est par exemple le cas pour Snowflake) et la grande performance en termes de requêtes BI par Indexima. Par ailleurs, le mode table externe permet aussi de profiter de la scalabilité de la source quand celle-ci se trouve dans le cloud.

Le mode table externe est disponible sur quatre plateformes : Microsoft Synapse, Amazon Redshift, Snowflake et Google Big Query.

La synchronisation des données se fait de deux manières : programmée ou en auto-synchronisation. Vous pouvez programmer cette synchronisation via vos outils de préparation de données. Suivant les cas d’usage, cette synchronisation est majoritairement réalisée une fois par jour.

Comment se connecte Indexima à mes outils de data visualisation ?

Indexima supporte le langage SQL, et le mode de communication Hive. Ainsi, Indexima est capable de communiquer avec tous les outils de data visualiation ayant un connecteur Hive embarqué. Ceci est le cas de solutions telles que Tableau, Microstrategy, Qlik, PowerBI…

Comment faites-vous pour répondre aux requêtes si vous ne copiez pas la data ?

Le mode de connexion aux données en table externe permet à Indexima de répondre aux requêtes sans copier la donnée. Quand l’outil de data visualisation envoie une requête à Indexima, celui-ci est capable de la déléguer. Indexima fait ainsi office d’intermédiaire entre l’outil de data visualisation, et la base de données. Suivant l’utilisation, Indexima va reconnaître des similarités dans le trafic qu’il exécute. Dans ce cas, Indexima va recopier une version très agrégée de la donnée (à hauteur de 2% de la donnée totale) et la monter in-memory : c’est la création d’un HyperIndexe. Indexima quitte alors son rôle d’intermédiaire. L’HyperIndexe va permettre de répondre à la requête de manière plus rapide que la base sous-jacente, optimisant ainsi la performance de la BI.

Quel est l’impact des HyperIndexes sur un data warehouse dans le Cloud ?

La création d’HyperIndexes permet de grandement amoindrir les coûts d’usage de la base de la donnée. Celle-ci ne sera plus autant sollicitée (voire ne le sera plus du tout) car Indexima se chargera de répondre aux requêtes à sa place. Cela vous permettra de soit faire une économie sèche si la facturation par la base de données est réalisée on-demand, soit d’économiser en décommissionnant des serveurs devenus inutiles à la suite de la réduction du nombre de sollicitations (maintenant encaissées par Indexima). Par exemple, si vous utilisez Snowflake, il vous sera possible de passer d’un sizing L à un sizing XS grâce à un Indexima, réduisant grandement vos frais auprès de ce fournisseur. De manière générale, Indexima peut prendre en charge entre 90 et 95% de votre trafic data dédié à la visualisation.

Quels sont les principaux cas d’usage pour Indexima ?

Indexima est optimisé pour des contextes de BI moderne, où l’on réalise des agrégations de hauts niveaux avec une vue d’ensemble sur de nombreux KPIs et metrics. Principalement, Indexima évolue sur trois grands cas d’usage :

  • Les coûts d’infrastructure sont faibles et les performances satisfaisantes, mais les coûts en temps métiers sont particulièrement élevés: La préparation de données et la création de cubes permettent d’obtenir de bonnes performances, mais cela demande énormément de temps aux équipes. Indexima permet de maintenir ce même niveau de performance en accélérant fortement le processus et en libérant du temps aux équipes, grâce à son moteur d’indexation automatique.
  • Les performances ne sont pas au niveau, avec des réponses aux requêtes très lentes: Indexima accélère les requêtes BI par 1000, réduisant ainsi drastiquement le temps de réponses aux requêtes et le temp de rafraîchissement des dashboards.
  • Les performances sont satisfaisantes mais les coûts liés à mon architecture actuelle sont très élevés : Les entreprises avec des performances satisfaisantes parviennent à les atteindre en augmentant parfois la puissance de leur data warehouse à la demande, mais cela a un prix (jusqu’à plusieurs dizaines de milliers d’euros.) Indexima ne travaillant pas sur un paradigme de scan total de la donnée, il n’y aura plus besoin d’autant de puissance pour fournir les mêmes résultats, notre solution permet de drastiquement réduire la facture des data warehouses dans le Cloud.

Indexima est-il optimisé pour mon secteur ?

Indexima convient à tous les secteurs d’activité. Une des conditions d’usage est que l’entreprise traite de grandes volumétries de données (à partir de centaine de millions de lignes) et réalise de l’analytique sur sa data.

Comment Indexima est-il utilisé par les data engineers ?

Les data engineers sont en charge notamment de la préparation et de la mise à disposition de la donnée. Indexima est un outil avec lequel ils vont pouvoir centraliser et brancher les sources de données de l’entreprise. Ensuite, ils interviennent à des fins de monitoring d’Indexima, et ainsi s’assurent que les requêtes sont bien optimisées comme convenu.

Quel genre de requêtes Indexima est-il capable de traiter ?

Indexima est optimisé pour répondre aux requêtes analytiques et ainsi répond en instantanée aux outils analytiques qui l’interrogent.

Quel langage utilise Indexima ?

Indexima utilise le langage SQL. Le protocole de communication est le même que Hive. Ainsi nous sommes compatibles avec tous les outils de data visualisation qui acceptent un driver Hive.

Est-ce qu'Indexima fait de l’ETL (Extract Transform Load) ?

Non, Indexima ne fait pas de l’ETL. Indexima est en revanche un outil complémentaire à l’ETL.

Quand ils font de l’ETL, certains data engineers réalisent le processus d’extraire la donnée, puis de la transformer et de la reloader plusieurs fois d’affilé, dans le but d’agréger la donnée afin de la rendre plus rapide à l’exploitation. Indexima permet de remplacer ces multiples transformations et reload à l’aide de ses HyperIndexes.

Ai-je besoin d’une formation pour utiliser Indexima ?

Il n’y a pas de réelle formation nécessaire, mis à part une phase d’onboarding suite à l’achat de la solution. Par ailleurs, vous aurez déjà assisté à un PoC de deux jours où une démo d’Indexima aura été réalisée dans votre infrastructure. En complément, un site de documentation est mis à votre disposition. Nos équipes sont également toujours disponibles pour vous venir en aide.

Avez-vous une documentation ?

Oui, une documentation sur la technologie d’Indexima est disponible à cet endroit. N’hésitez pas à nous contacter pour toute question.

Quick Start & Bonnes pratiques

Puis-je avoir accès à une version d’essai d’Indexima ?

Il vous est tout à fait possible de tester Indexima pendant 14 jours. Pour ce faire, vous pouvez effectuer une demande auprès de nos équipes et choisir entre deux options : tester l’offre SaaS d’Indexima disponible sur AWS, ou installer Indexima directement sur votre poste.

Avez-vous une offre SaaS ?

Indexima est disponible à la fois on-premise et en SaaS. L’offre SaaS Indexima est 100% managée, et vous permet d’accélérer vos cas d’usages analytiques en toute simplicité. Apprenez-en plus par ici.

Je suis intéressé.e par Indexima, comment vous contacter ?

Vous pouvez nous contacter directement par mail, ou par téléphone au +33 9 72 20 08 23. Nos équipes vous répondront rapidement.

Réalisez-vous des PoCs (Proof of Concept) ?

Afin de démontrer l’efficacité d’Indexima, un PoC en deux jours est réalisable directement au sein de votre architecture data. Celui-ci prend place à la suite d’un premier échange avec vous afin de discuter de vos besoins en termes d’analytique. Pour plus d’informations à ce sujet ou si vous êtes intéressés, vous pouvez contacter nos équipes.