Les principaux défis liés à la confidentialité des données dans le big data

ib

Protection des données : les défis de confidentialité et de sécurité du Big Data

Analyse comportementale des consommateurs, campagnes de publicité ciblée sur Internet ou par téléphone ; les entreprises usent et parfois abusent des immenses possibilités du Big Data. Plus la donnée collectée est personnelle, plus son potentiel commercial est élevé. Pour éviter des dérives, le RGPD protège les citoyens européens et impose des restrictions sur la manipulation d’informations sensibles. Le respect de la confidentialité des données constitue un défi majeur pour le Big Data.

Le Big Data : définition et contexte technologique

Le Big Data désigne l’analyse à grande échelle de données complexes, afin d’aider les entreprises à remplir leurs objectifs. La collecte massive d’informations se déverse dans des data lakes, sans aucune transformation. Ces « lacs de données » profitent des avancées technologiques et de la baisse des coûts constatés ces dernières années sur les infrastructures de stockage (à contresens du Green-IT). La forme des données est conservée : elle peut être structurée ou issue de ressources hétérogènes comme des publications sociales, des vidéos, des fichiers plats ou propriétaires.

Pour en savoir plus, consultez notre dossier sur le Big Data.

Collecte massive et protection des données sensibles

Depuis leur apparition au début de ce siècle, les data lakes ont engrangé d’énormes quantités d’informations. Pour le Big Data, la donnée se caractérise avant tout par sa valeur et sa véracité. Volume, variété et vélocité complètent le modèle des 5V, cher aux Data Scientist. Invariable sur la forme, l’information conserve également sa nature. La confidentialité des données n’étant pas la préoccupation première des entreprises, le RGPD est adopté par le Parlement européen dès avril 2016, pour une mise en application le 25 mai 2018.

Le Data Analyst : le traducteur des données

Le règlement général pour la protection des données définit clairement la notion de confidentialité : le caractère personnel d’une information est affirmé dès lors que celle-ci permet d'identifier une personne physique. L’identification peut être directe (nom, prénom, adresse mail, numéro de sécurité sociale…) ou réalisée par recoupements. Le support matériel est indifférent : la data sensible peut se loger dans un texte au format pdf, dans la mémoire d’une caméra de surveillance, dans un formulaire papier ou numérique et même dans une seule ligne d’un tableau Excel™. Toutes ces ressources hétérogènes sont susceptibles d’être collectées et stockées dans un data lake. La conformité et la sécurité des données deviennent alors les principaux défis du Big Data.

RGPD : des règles de mise en conformité pour le Big Data

À la lecture du règlement, la conformité légale du Big Data semble relever du casse-tête. Le traitement des données personnelles doit être licite. Pour cela, le consentement individuel du propriétaire des données doit être expressément obtenu et le traitement doit avoir un objet sérieux, a minima un « intérêt légitime ». La personne physique doit aussi être informée de son droit d’accès, de rectification ou de suppression. D’autres exigences s’opposent clairement aux fondements du data lake. Ainsi, les données conservées doivent être limitées au strict nécessaire pour la réalisation des traitements. Aucune donnée sensible inutile ne doit être collectée et toute donnée personnelle périmée doit être effacée. Quant à cet extrait de l’article 32 du RGPD, il dirige notre analyse vers le paragraphe suivant : « (…) le responsable du traitement et le sous-traitant mettent en œuvre les mesures techniques et organisationnelles appropriées afin de garantir un niveau de sécurité adapté au risque (…) ».

Big Data sécurité et confidentialité des données : des mesures à définir au cas par cas

Les récentes violations d’informations personnelles, dans le secteur de la santé ou des télécommunications, témoignent de la difficulté de toute entité à assurer une réelle sécurité des données. Notre article 32 fournit des pistes, mais ne livre pas de solutions. Le règlement lui-même pose des limites contextuelles tenant compte « … de l'état des connaissances, des coûts de mise en œuvre et de la nature, de la portée, du contexte et des finalités du traitement ainsi que des risques, dont le degré de probabilité et de gravité varie… ».

Le texte propose d’utiliser :

  • « des moyens permettant de garantir la confidentialité, l'intégrité, la disponibilité et la résilience constantes des systèmes et des services de traitement »,
  • « des moyens permettant de rétablir la disponibilité des données à caractère personnel et l'accès à celles-ci dans des délais appropriés en cas d'incident physique ou technique »,
  • « une procédure visant à tester, à analyser et à évaluer régulièrement l'efficacité des mesures techniques et organisationnelles pour assurer la sécurité du traitement »,
  • « la pseudonymisation et le chiffrement des données à caractère personnel ».

Si les trois premiers points relèvent d’une cybersécurité classique, le dernier mérite précision. Les données sensibles peuvent faire l’objet d’une anonymisation par cryptage numérique. Cependant, la Commission européenne considère que des informations chiffrées, pouvant être utilisées pour identifier à nouveau un individu, gardent un caractère personnel. L’anonymisation doit être irréversible, ce qui disqualifie la pratique dans un objectif de marketing ciblé.

Les entreprises manipulant des données sensibles en grande quantité doivent obligatoirement désigner un délégué à la protection des données, ou DPO (data protection officer). Il est responsable de la sécurité et de la conformité des traitements de son organisation. C’est donc à lui que revient le privilège de relever les principaux défis liés à la confidentialité des données dans le Big Data. Une mission complexe, pour laquelle ib Cegos dispense une formation préparant à la certification APAVE/CNIL : un must have pour votre conformité RGPD.

RGPD - Devenir délégué à la protection des données (DPD/DPO)
Formation de 35 h préparant à l'examen de certification DPO APAVE/CNIL