Plan #
- Qu’est-ce que la fouille de textes ?
- L’enjeu de l’accès au texte : la numérisation
- Ngram Viewer : fonctionnement et utilisation
1. Qu’est-ce que la fouille de textes ? #
1. Qu’est-ce que la fouille de textes ? #
1.1. Quelques cas d’usage #
- faire une étude linguistique
- chercher une ou des expressions précises dans un corpus
- comparer les occurrences de plusieurs termes/expressions dans un corpus
- comparer plusieurs versions d’un même texte à partir de critères préétablis
1. Qu’est-ce que la fouille de textes ? #
1.2. Le fonctionnement de la fouille de textes #
- disposer d’un corpus interrogeable
- définir une méthode et des outils pour extraire des informations
- réaliser les manipulations et les interprétations
Les étapes :
- constituer le corpus, le délimiter
- analyser le texte : extraire les termes, les expressions, etc.
- interpréter les résultats : extraire les informations des analyses
1. Qu’est-ce que la fouille de textes ? #
1.3. Des outils à disposition #
Pour :
- nettoyer le texte
- transformer le texte en base de données
- interroger le texte
Outils :
- langages de programmation : Python très utilisé dans les DH
- pour nettoyer le texte et déterminer des modèles : des algorithmes
- pour visualiser/analyser/interpréter les résultats : des bibliothèques de code ou des logiciels
Aparté : qu’est-ce qu’un algorithme ? #
Un algorithme, c’est tout simplement une façon de décrire dans ses moindres détails comment procéder pour faire quelque chose.
Gérard Berry
2. L’enjeu de l’accès au texte : la numérisation #
2. L’enjeu de l’accès au texte : la numérisation #
2.1. Pour fouiller : disposer de textes #
- qu’est-ce qu’un texte ?
- distinction prise de vue (image) et texte interrogeable (format texte/plein texte)
- texte structuré
2. L’enjeu de l’accès au texte : la numérisation #
2.2. Des corpus numérisés : qui ? #
- universités et bibliothèques nationales
- Google
- initiatives indépendantes
2. L’enjeu de l’accès au texte : la numérisation #
Quelques étapes nécessaires :
- référencement des documents
- prise de vue (photographie)
- reconnaissance optique des caractères
- zonage du texte et structuration
3. Ngram Viewer : fonctionnement et utilisation #
3. Ngram Viewer : fonctionnement et utilisation #
3.1. Un outil de fouille de textes accessible #
Un outil d’analyse de textes pour observer des tendances ou des modélisations.
- un corpus de plusieurs millions de livres
- une interface très facile d’accès
- des options de recherche intéressante
3. Ngram Viewer : fonctionnement et utilisation #
3.2. Les dessous de Ngram Viewer #
- un corpus numérisé
- des textes sous forme de bases de données interrogeables
- des algorithmes et des règles d’interprétation
3. Ngram Viewer : fonctionnement et utilisation #
3.3. Exercices #
Pour ces exercices vous pouvez vous aider de l’aide disponible sur cette page : https://books.google.com/ngrams/info
- chercher les occurrences de « livre » dans le corpus français
- comparer les différentes occurrences des termes « livre » et « document » dans le corpus français depuis 1500
- comparer l’usage des expressions « édition savante » et « édition scientifique » toujours dans le corpus français
- comparer les expressions « digital humanities », « humanities computing » et « linguistic computing » dans les corpus de langue anglaise
- comparer l’utilisation du terme « édition » dans le corpus français avec celui de « publishing » dans le corpus anglais