Auction Catalog Segmentation

Description générale

Auction Catalog Segmentation (Aucase) ou segmentation des catalogues de vente est un projet réalisé par Raphaël Barman à l'Institut national d'histoire de l'art (INHA) lors d'un stage dans le cadre de sa maîtrise en Humanités Digitales à l'École polytechnique fédérale de Lausanne (EPFL).

L'objectif du projet était d'utiliser la numérisation des catalogues de ventes aux enchères conservés aujourd'hui à la bibliothèque de l'INHA afin de créer une base de données des objets vendus avec leurs métadonnées, ceci à travers un processus automatique de segmentation des images par apprentissage profond. Le projet s'est concentré sur les catalogues de ventes maison Drouot à Paris entre le 1er janvier 1939 et le 31 décembre 1945.

Le travail de segmentation a ainsi permi d'extraire plus de 300'000 objets réalisés par plus de 5'000 artistes. Ces objets ont été mis en vente dans des enchères supervisées par plus de 200 commissaires-priseurs et experts différents. Le code utilisé pour l'extraction est disponible en ligne sur Github.

Les catalogues de ventes utilisés sont ceux disponibles en ligne sur la bibliothèque numérique de l’INHA. Toutes les métadonnées liées à la date de vente ainsi qu'aux acteurs de la vente tels que les experts et les commissaires-priseurs sont issues du catalogue de la bibliothèque numérique et n'ont pas donc pas était extraites par un procédé automatique. Le procédé automatique a uniquement extrait les sections et les objets des catalogues. Les sections ont été triées en grande partie manuellement en deux typologies: des sections décrivant des catégories d'objets ("tableaux") et des sections décrivant un artiste ou une école ("Couture"). Les objets ont été ensuite liés à leurs sections par un procédé automatique.
L'interface ici mise en ligne permet ainsi de naviguer dans la base ainsi constituée.

Limites de la base de donnée

Limite de l'extraction

La base de données a été alimentée par un procédé automatique d'extraction depuis les images et la reconnaisance optique de charactères. Ce procédé étant automatique, il y a inévitablement des erreurs dans la base de donnée. Ces erreurs n'ont pas été mesurées de manière quantitative dans le cadre de ce projet, mais les résultats semblement qualitativement bons. Il n'est toutefois pas impossible que des résultats soient manquants et leur absence dans l'interface de recherche ne garanti pas qu'ils ne soient pas présents dans les catalogues mêmes. De plus il y a de nombreuses erreurs de lien entre section et objet car le procédé lie simplement les objets à la dernière section valide, ce qui resulte parfois à des erreurs selon le catalogue.

Limite du corpus

Le corpus lui même peut être vu comme une limite de la base de donnée. En effet, la période traitée débute et s'arrête à des dates très fixes et pas forcément en lien avec la réalité de Paris occupée. De plus, l'exhaustivité des catalogues de ventes de la maison Drouout n'est pas garantie, il est donc possible que certaines ventes ne soient pas représentées dans la base de donnée.

Description de l'interface de recherche

L'interface de recherche permet de trouver des objets en utilisant trois facettes. La recherche en plein texte et des filtres sur la période et sur les acteurs. La recherche n'implémente aucun charactère spécial présent dans d'autres moteurs de recherche (- pour exclure, ? pour rendre facultatif, etc.), sauf l'utilisation des guillements (") pour faire une recherche exacte sur un terme, par exemple boucher trouvera à la fois le peintre et le mot boucherie tandis que "boucher" ne trouvera que ce terme exact, sans préxife ou suffixe. Les facettes de recherche sont les suivantes:

Recherche en plein texte
Texte des catégories
Recherche dans le texte des sections de types catégories ("tableaux").
Texte des auteurs/écoles
Recherche dans le texte des sections de type auteurs/école ("Couture" ou "école française").
Texte des objets
Recherche dans le texte des objets eux-mêmes (titre et description).
Filtrer sur la période
Filtre les résultats des ventes pour une période comprise entre la date de début et de fin.
Filter sur les acteurs
Experts
Filtre sur un choix multiple des experts de la vente dans lequel l'objet apparaît.
Commissaires-priseurs
Filtre sur un choix multiple des commissaires-priseurs de la vente dans lequel l'objet apparaît.
Il est ensuite possible de trier les résultats par pertinences par rapport à la requête ou par rapport à la date. Les informations sur chaque objet sont ensuite présentée en une liste paginée et en cliquant sur un objet, on obtient la page correspondante de la bibliothèque numérique.

Le stage de Raphaël Barman fut réalisé du 1er septembre 2018 au 31 janvier 2019. Il fut co-encadré par Inès Rotermund-Reynard (cheffe du projet Répertoire des acteurs du marché de l’art en France sous l’Occupation) et Antoine Courtin (chef du service numérique de la recherche).
L'interface de consultation (dont le code est disponible ici) est gérée et maintenue par le service numérique de la recherche du département des études et de la recherche de l'INHA