Plan #

  1. Qu’est-ce que la fouille de textes ?
  2. L’enjeu de l’accès au texte : la numérisation
  3. Ngram Viewer : fonctionnement et utilisation

1. Qu’est-ce que la fouille de textes ? #

1. Qu’est-ce que la fouille de textes ? #

1.1. Quelques cas d’usage #

  • faire une étude linguistique
  • chercher une ou des expressions précises dans un corpus
  • comparer les occurrences de plusieurs termes/expressions dans un corpus
  • comparer plusieurs versions d’un même texte à partir de critères préétablis

1. Qu’est-ce que la fouille de textes ? #

1.2. Le fonctionnement de la fouille de textes #

  • disposer d’un corpus interrogeable
  • définir une méthode et des outils pour extraire des informations
  • réaliser les manipulations et les interprétations

Les étapes :

  1. constituer le corpus, le délimiter
  2. analyser le texte : extraire les termes, les expressions, etc.
  3. interpréter les résultats : extraire les informations des analyses

1. Qu’est-ce que la fouille de textes ? #

1.3. Des outils à disposition #

Pour :

  • nettoyer le texte
  • transformer le texte en base de données
  • interroger le texte

Outils :

  • langages de programmation : Python très utilisé dans les DH
  • pour nettoyer le texte et déterminer des modèles : des algorithmes
  • pour visualiser/analyser/interpréter les résultats : des bibliothèques de code ou des logiciels

Aparté : qu’est-ce qu’un algorithme ? #

Un algorithme, c’est tout simplement une façon de décrire dans ses moindres détails comment procéder pour faire quelque chose.
Gérard Berry

2. L’enjeu de l’accès au texte : la numérisation #

Exemple de zonage d’un journal

2. L’enjeu de l’accès au texte : la numérisation #

2.1. Pour fouiller : disposer de textes #

  • qu’est-ce qu’un texte ?
  • distinction prise de vue (image) et texte interrogeable (format texte/plein texte)
  • texte structuré

2. L’enjeu de l’accès au texte : la numérisation #

2.2. Des corpus numérisés : qui ? #

  • universités et bibliothèques nationales
  • Google
  • initiatives indépendantes

2. L’enjeu de l’accès au texte : la numérisation #

2.3. Des corpus numérisés : comment ? #

Quelques étapes nécessaires :

  • référencement des documents
  • prise de vue (photographie)
  • reconnaissance optique des caractères
  • zonage du texte et structuration

3. Ngram Viewer : fonctionnement et utilisation #

Comparaison de l’usage des termes digital humanities et humanities computing

3. Ngram Viewer : fonctionnement et utilisation #

3.1. Un outil de fouille de textes accessible #

Un outil d’analyse de textes pour observer des tendances ou des modélisations.

  • un corpus de plusieurs millions de livres
  • une interface très facile d’accès
  • des options de recherche intéressante

3. Ngram Viewer : fonctionnement et utilisation #

3.2. Les dessous de Ngram Viewer #

  • un corpus numérisé
  • des textes sous forme de bases de données interrogeables
  • des algorithmes et des règles d’interprétation

3. Ngram Viewer : fonctionnement et utilisation #

3.3. Exercices #

Pour ces exercices vous pouvez vous aider de l’aide disponible sur cette page : https://books.google.com/ngrams/info

  • chercher les occurrences de « livre » dans le corpus français
  • comparer les différentes occurrences des termes « livre » et « document » dans le corpus français depuis 1500
  • comparer l’usage des expressions « édition savante » et « édition scientifique » toujours dans le corpus français
  • comparer les expressions « digital humanities », « humanities computing » et « linguistic computing » dans les corpus de langue anglaise
  • comparer l’utilisation du terme « édition » dans le corpus français avec celui de « publishing » dans le corpus anglais

HNU2000