HNU2000 Humanités numériques : technologies

Séance 12 - Numériser

Antoine Fauchié — antoine.fauchie@umontreal.ca

Plan #

  1. La numérisation : enjeux et techniques
  2. Apprendre aux machines à apprendre

1. La numérisation : enjeux et techniques #

À la recherche du temps perdu de Marcel Proust

1. La numérisation : enjeux et techniques #

1.1. Pourquoi numériser ? #

  • pour découvrir
  • pour lire
  • pour chercher

1. La numérisation : enjeux et techniques #

1.2. Numérisation et OCR #

  • travail préparatoire : cataloguer, organiser, signaler, référencer, sélectionner
  • prise de vue : les contraintes du papier et des livres
  • reconnaissance optique de caractères : ça dépend
  • bonus : structuration (zonage, etc.)

1. La numérisation : enjeux et techniques #

1.3. De l’OCR au HTR #

HTR = Handwritten Text Recognition

  • OCR : caractères imprimés : ça marche !
  • HTR : écritures manuscrites : c’est compliqué
  • la nécessité d’entraîner des machines

2. Apprendre aux machines à apprendre #

2. Apprendre aux machines à apprendre #

2.1. Pourquoi entraîner des machines ? #

Focus sur l’article d’Alix Chagué :

Chagué, A. (2022, mai). Intelligence Artificielle et intelligence collective : des nouveaux eldorados pour rendre les textes patrimoniaux plus accessibles ? Museonum. https://medium.com/museonum/intelligence-artificielle-et-intelligence-collective-des-nouveaux-eldorados-pour-rendre-les-c8c4e214d4e6

2. Apprendre aux machines à apprendre #

2.2. Qu’est-ce que le machine learning ? #

L’apprentissage automatique est un champ d’étude de l’intelligence artificielle qui se fonde sur des approches mathématiques et statistiques pour donner aux ordinateurs la capacité d’« apprendre » à partir de données, c’est-à-dire d’améliorer leurs performances à résoudre des tâches sans être explicitement programmés pour chacune. (Source : Wikipédia)

L’enjeu est d’entraîner des modèles.

2. Apprendre aux machines à apprendre #

2.3. Modéliser ? #

  • effectuer le même travail que la machine
  • disposer d’exemples suffisamment divers
  • partager ces ressources