Partager cette page

Invitation prochain groupe de contact FNRS "Analyse critique et amélioration de la qualité de l'information numérique"

Publié le 12 mars 2024 – Mis à jour le 12 mars 2024

Le thème cette année abordera, dans le contexte du traitement automatique des langues et de la numérisation de textes historiques par OCR, les difficultés associées lorsque d'une langue à l'autre, le sens des concepts évolue dans le temps.

L'orateur, Simon Hengchen, spécialiste du domaine, nous présentera une conférence intitulée : "“Approches quantitatives de textes historiques : quelques (non-) problèmes et comment les aborder ?”

Informations relatives au lieu de la conférence, à la biographie de l'orateur, à l'abstract de son exposé ainsi qu'au programme de la rencontre.

La conférence sera suivie d'une table ronde, animée par Max De Wilde et Guillaume Quintin ainsi que d'un drink.

Résumé:

De manière parallèle à une consultation en archives, la recherche historique se fait également de manière quantitative, à travers l’utilisation d’archives numérisées et océrisées. Ce processus de reconnaissance optique de caractères (OCR) est souvent critiqué suite au bruit qu’elle introduit : si par exemple le mot « description » est mal reconnu et est retranscrit comme « defcription », comment une machine peut-elle correctement retrouver les documents ayant pour but de décrire un paysage, une oeuvre d’art, ou une personne ?

De l’autre côté du spectre, peu d’articles en traitement automatique des langues (TAL) mentionnent l’impact de ce bruit sur les diverses approches développées dans ce champ d’étude. Un algorithme développé pour de l’anglais du 21ème siècle fonctionnera-t-il aussi bien sur de l’anglais du 18ème, qui plus est de l’anglais présentant du bruit ?

Dans cette intervention, et ce à l’aide d’une étude de cas, nous tenterons de répondre de manière systématique à la question de l’impact de la qualité de l’information — dans ce cas-ci de l’information numérique sous forme de texte — sur plusieurs algorithmes de TAL bien connus des chercheurs et chercheuses en humanités numériques. Nous savons que le texte résultant d’un processus d’OCR n’est pas une parfaite représentation de la source originale : est-ce un problème ? Et si oui, pouvons-nous déterminer à partir de quel moment cela arrête d’en être un ?

Date(s)

le 16 avril 2024

à partir de 13h30

Lieu(x)

Campus du Solbosch

Bâtiment R, campus du Solbosch, local R42.2.103.