Auction Catalog Segmentation (Aucase) ou segmentation des catalogues de vente est un projet réalisé par Raphaël Barman à l'Institut national d'histoire de l'art (INHA) lors d'un stage dans le cadre de sa maîtrise en Humanités Digitales à l'École polytechnique fédérale de Lausanne (EPFL).
L'objectif du projet était d'utiliser la numérisation des catalogues de ventes aux enchères conservés aujourd'hui à la bibliothèque de l'INHA afin de créer une base de données des objets vendus avec leurs métadonnées, ceci à travers un processus automatique de segmentation des images par apprentissage profond. Le projet s'est concentré sur les catalogues de ventes maison Drouot à Paris entre le 1er janvier 1939 et le 31 décembre 1945.
Le travail de segmentation a ainsi permi d'extraire plus de 300'000 objets réalisés par plus de 5'000 artistes. Ces objets ont été mis en vente dans des enchères supervisées par plus de 200 commissaires-priseurs et experts différents. Le code utilisé pour l'extraction est disponible en ligne sur Github.
Les catalogues de ventes utilisés sont ceux disponibles en ligne sur la bibliothèque numérique de l’INHA. Toutes les métadonnées liées à la date de vente ainsi qu'aux acteurs de la vente tels que les experts et les commissaires-priseurs sont issues du catalogue de la bibliothèque numérique et n'ont pas donc pas était extraites par un procédé automatique. Le procédé automatique a uniquement extrait les sections et les objets des catalogues. Les sections ont été triées en grande partie manuellement en deux typologies: des sections décrivant des catégories d'objets ("tableaux") et des sections décrivant un artiste ou une école ("Couture"). Les objets ont été ensuite liés à leurs sections par un procédé automatique.
L'interface ici mise en ligne permet ainsi de naviguer dans la base ainsi constituée.
La base de données a été alimentée par un procédé automatique d'extraction depuis les images et la reconnaisance optique de charactères. Ce procédé étant automatique, il y a inévitablement des erreurs dans la base de donnée. Ces erreurs n'ont pas été mesurées de manière quantitative dans le cadre de ce projet, mais les résultats semblement qualitativement bons. Il n'est toutefois pas impossible que des résultats soient manquants et leur absence dans l'interface de recherche ne garanti pas qu'ils ne soient pas présents dans les catalogues mêmes. De plus il y a de nombreuses erreurs de lien entre section et objet car le procédé lie simplement les objets à la dernière section valide, ce qui resulte parfois à des erreurs selon le catalogue.
Le corpus lui même peut être vu comme une limite de la base de donnée. En effet, la période traitée débute et s'arrête à des dates très fixes et pas forcément en lien avec la réalité de Paris occupée. De plus, l'exhaustivité des catalogues de ventes de la maison Drouout n'est pas garantie, il est donc possible que certaines ventes ne soient pas représentées dans la base de donnée.
L'interface de recherche permet de trouver des objets en utilisant trois facettes. La recherche en plein texte et des filtres sur la période et sur les acteurs. La recherche n'implémente aucun charactère spécial présent dans d'autres moteurs de recherche (- pour exclure, ? pour rendre facultatif, etc.), sauf l'utilisation des guillements (") pour faire une recherche exacte sur un terme, par exemple boucher trouvera à la fois le peintre et le mot boucherie tandis que "boucher" ne trouvera que ce terme exact, sans préxife ou suffixe. Les facettes de recherche sont les suivantes:
Le stage de Raphaël Barman fut réalisé du 1er septembre 2018 au 31 janvier 2019. Il fut co-encadré par Inès Rotermund-Reynard (cheffe du projet Répertoire des acteurs du marché de l’art en France sous l’Occupation) et Antoine Courtin (chef du service numérique de la recherche).
L'interface de consultation (dont le code est disponible ici) est gérée et maintenue par le service numérique de la recherche du département des études et de la recherche de l'INHA