Partager via


Note de transparence pour les informations d’identification personnelle (PII)

Important

Les traductions non anglaises sont fournies uniquement pour des raisons pratiques. Veuillez consulter la version EN-US de ce document pour la version faisant foi.

Qu’est-ce qu’une note de transparence ?

Important

Cet article part du principe que vous êtes familiarisé avec les recommandations et les meilleures pratiques pour Azure AI Language. Pour plus d’informations, consultez la note de transparence pour azure AI Language.

Un système d’IA comprend non seulement la technologie, mais aussi ses utilisateurs, les personnes concernées et l’environnement dans lequel elle est déployée. Créer un système adapté à l’objectif visé exige de bien comprendre comment la technologie fonctionne, de connaître ses capacités et ses limites et de savoir comment atteindre le meilleur niveau de performance. Les notes de transparence de Microsoft sont destinées à vous aider à comprendre le fonctionnement de notre technologie d'IA, les choix que les propriétaires de systèmes peuvent faire et qui influencent les performances et le comportement du système, et l'importance d'appréhender le système dans son ensemble, en englobant la technologie, les personnes et l'environnement. Vous pouvez utiliser les notes de transparence pendant le développement ou le déploiement de votre propre système ou les partager avec les personnes qui utiliseront votre système ou qui seront affectées par celui-ci.

Les notes de transparence de Microsoft font partie d’un effort plus large de Microsoft pour mettre en pratique nos principes d’IA. Pour en savoir plus, consultez les principes de l’IA responsable de Microsoft.

Présentation de la fonctionnalité Informations d’identification personnelle (PII)

Azure AI Language prend en charge la reconnaissance d’entité nommée pour identifier et classer les informations dans votre texte. La fonctionnalité PII prend en charge la détection des catégories d’entités personnelles (PII). Un large éventail d’entités personnelles telles que les noms, les organisations, les adresses, les numéros de téléphone, les numéros de compte financier ou les codes et les numéros d’identification spécifiques au gouvernement et au pays ou à la région peuvent être reconnus. Un sous-ensemble de ces données personnelles est constitué d'informations de santé protégées (PHI). Si vous spécifiez domain=phi dans votre demande, vous obtiendrez uniquement les entités PHI retournées. La liste complète des catégories d’entités PII et PHI est disponible dans le tableau ici.

Lisez l’exemple de requête NER et d’exemple de réponse pour voir comment envoyer du texte au service et ce qu’il faut attendre.

Exemples de cas d’utilisation

Les clients peuvent souhaiter reconnaître différentes catégories d’informations personnelles pour plusieurs raisons :

  • Appliquer des étiquettes de confidentialité : par exemple, en fonction des résultats du service PII, une étiquette de confidentialité publique peut être appliquée aux documents où aucune entité PII n’est détectée. Pour les documents où les adresses et numéros de téléphone américains sont reconnus, une étiquette confidentielle peut être appliquée. Une étiquette hautement confidentielle peut être utilisée pour les documents où les numéros de routage bancaire sont reconnus.
  • Réactez certaines catégories d’informations personnelles provenant de documents qui obtiennent une circulation plus large . Par exemple, si les enregistrements de contact des clients sont accessibles aux représentants du support technique de première ligne, l’entreprise peut souhaiter refaire les informations personnelles du client en plus de son nom à partir de la version de l’historique des clients afin de préserver la confidentialité du client.
  • Rédiger les informations personnelles afin de réduire les préjugés inconscients - Par exemple, pendant le processus de révision de CV d’une entreprise, ils peuvent vouloir masquer le nom, l’adresse et le numéro de téléphone pour aider à réduire les préjugés liés au genre ou à d'autres aspects.
  • Remplacer les informations personnelles dans les données sources pour le Machine Learning afin de réduire l’injustice : par exemple, si vous souhaitez supprimer des noms susceptibles de révéler le sexe lors de l’apprentissage d’un modèle Machine Learning, vous pouvez utiliser le service pour les identifier et les remplacer par des espaces réservés génériques pour l’apprentissage du modèle.
  • Supprimer les informations personnelles de la transcription du centre d’appels : par exemple, si vous souhaitez supprimer des noms ou d’autres données PII qui se produisent entre l’agent et le client dans un scénario de centre d’appels. Vous pouvez utiliser le service pour les identifier et les supprimer.

Aspects à prendre en considération lors du choix d’un cas d’usage de l’analyse spatiale

  • Évitez les scénarios de classification automatique des renseignements ou de la réaction automatique à haut risque : tous les scénarios où les échecs de rédaction d’informations personnelles pourraient exposer les personnes au risque de vol d’identité et de préjudices physiques ou psychologiques doivent inclure une surveillance humaine minutieuse.
  • Évitez les scénarios qui utilisent des informations personnelles à des fins pour lesquelles le consentement n’a pas été obtenu : par exemple, une entreprise détient des CV de candidats à l'emploi passés. Les demandeurs n’ont pas donné leur consentement pour être contactés pour des événements promotionnels lorsqu’ils ont soumis leurs cv. En fonction de ce scénario, le service PII ne doit pas être utilisé pour identifier les coordonnées de contact dans le but d'inviter les anciens candidats à un salon professionnel.
  • Évitez les scénarios qui utilisent le service pour collecter des informations personnelles à partir de contenu disponible publiquement.
  • Évitez les scénarios qui remplacent les informations personnelles dans le texte par l’intention de tromper les personnes.
  • Considérations juridiques et réglementaires : les organisations doivent évaluer des obligations légales et réglementaires spécifiques potentielles lors de l’utilisation de services et de solutions IA, ce qui peut ne pas convenir à une utilisation dans chaque secteur ou scénario. En outre, les services ou solutions IA ne sont pas conçus pour et peuvent ne pas être utilisés de manière interdite en termes de service applicables et codes de conduite pertinents.

Caractéristiques et limitations

Selon votre scénario, les données d’entrée et les entités que vous souhaitez extraire, vous pouvez rencontrer différents niveaux de performances. Les sections suivantes sont conçues pour vous aider à comprendre les concepts clés relatifs aux performances, car elles s’appliquent à l’utilisation du service d’identification personnelle du langage Azure AI.

Comprendre et mesurer les performances

Étant donné que les erreurs faux positifs et faux négatifs peuvent se produire, il est important de comprendre comment les deux types d’erreurs peuvent affecter votre système global. Dans les scénarios de rédaction, par exemple, des faux négatifs peuvent entraîner des fuites d’informations personnelles. Pour les scénarios de rédaction, envisagez un processus d’examen humain pour tenir compte de ce type d’erreur. Pour les scénarios d’étiquette de confidentialité, les faux positifs et les faux négatifs peuvent entraîner une mauvaise classification des documents. L’audience peut être inutilement limitée pour les documents étiquetés comme confidentiels où un faux positif s’est produit. Les informations personnelles peuvent être divulguées lorsqu’un faux négatif s’est produit et qu’une étiquette publique a été appliquée.

Vous pouvez ajuster le seuil de score de confiance que votre système utilise pour régler votre système. S’il est plus important d’identifier toutes les instances potentielles d’informations personnelles, vous pouvez utiliser un seuil inférieur. Cela signifie que vous pouvez obtenir plus de faux positifs (données non-PII reconnues en tant qu’entités PII), mais moins de faux négatifs (entités PII non reconnues comme PII). S’il est plus important que votre système reconnaisse uniquement les données d’identification personnelle vraies, vous pouvez utiliser un seuil plus élevé. Les valeurs de seuil peuvent ne pas avoir de comportement cohérent entre différentes catégories d’entités PII. Par conséquent, il est essentiel que vous testiez votre système avec des données réelles qu’il traitera en production.

Limitations système et meilleures pratiques pour améliorer les performances

  • Vérifiez que vous comprenez toutes les catégories d’entités qui peuvent être reconnues par le système. Selon votre scénario, vos données peuvent inclure d’autres informations qui peuvent être considérées comme personnelles, mais qui ne sont pas couvertes par les catégories prises en charge actuellement par le service.

  • Le contexte est important pour que toutes les catégories d’entités soient correctement reconnues par le système, tout comme il l'est souvent pour les humains de reconnaître une entité. Par exemple, sans contexte, un nombre à dix chiffres n’est qu’un nombre, pas une entité PII. Toutefois, étant donné le contexte tel que Vous pouvez me joindre à mon numéro de bureau 2345678901, le système et un humain peuvent reconnaître le numéro à dix chiffres en tant que numéro de téléphone. Incluez toujours le contexte lors de l’envoi de texte au système pour obtenir les meilleures performances possibles.

  • Les noms de personnes en particulier nécessitent un contexte linguistique. Envoyez autant de contexte que possible pour une meilleure détection de nom de personne.

  • Pour les données conversationnelles, envisagez d'envoyer plusieurs tours de conversation pour augmenter la probabilité que le contexte requis soit inclus avec les entités réelles.
    Dans la conversation suivante, si vous envoyez une seule ligne à la fois, le numéro de passeport n’aura aucun contexte associé à celui-ci et la catégorie DPI numéro de passeport de l’UE ne sera pas reconnue.

    Salut, comment puis-je vous aider aujourd’hui ?
    Je veux renouveler mon passeport
    Bien sûr, quel est votre numéro de passeport actuel ?
    C'est 123456789, merci.

    Toutefois, si vous envoyez l’intégralité de la conversation, elle sera reconnue, car le contexte est inclus.

  • Parfois, plusieurs catégories d’entités peuvent être reconnues pour la même entité. Si nous prenons l’exemple précédent :

    Salut, comment puis-je vous aider aujourd’hui ?
    Je veux renouveler mon passeport
    Bien sûr, quel est votre numéro de passeport actuel ?
    C'est 123456789, merci.

    Plusieurs pays ont le même format pour les numéros de passeport, de sorte que plusieurs catégories d’entités spécifiques peuvent être reconnues. Dans certains cas, l’utilisation du score de confiance le plus élevé peut ne pas suffire pour choisir la classe d’entité appropriée. Si votre scénario dépend de la catégorie d’entité spécifique reconnue, vous devrez peut-être lever l’ambiguïté du résultat ailleurs dans votre système par le biais d’une révision humaine ou d’un code de validation supplémentaire. Des tests approfondis sur des données réelles peuvent vous aider à identifier si vous êtes susceptible de voir plusieurs catégories d’entités reconnues dans votre scénario.

    Bien que de nombreuses entités internationales soient prises en charge, le service ne prend actuellement en charge que le texte anglais. Envisagez de vérifier la langue dans laquelle se trouve le texte d’entrée si vous n’êtes pas sûr qu’il sera tout en anglais.

  • Le service d’identification personnelle prend uniquement du texte en tant qu’entrée. Si vous réactez des informations provenant de documents dans d’autres formats, veillez à tester soigneusement votre code de rédaction pour vous assurer que les entités identifiées ne sont pas accidentellement divulguées.

Voir aussi