Tutto è a portata di click…se c’è l’indice!

L’indice di una rivista (sia digitale che cartacea) costituisce lo scheletro sul quale si appoggiano articoli e documenti. In questo articolo vedremo alcune considerazioni e un esempio di come realizzare il processo di indicizzazione, in particolare il caso della rivista La sapienza della Croce.

Dematerializzare i documenti cartacei, passando alla loro versione digitale, provvedendo alla loro scansione e memorizzazione non è sufficiente, infatti si necessita anche di una loro corretta indicizzazione di modo che possano essere archiviati, consultati e condivisi in modo efficiente ed efficace (semplicità d’uso per il gestore, e semplicità e velocità di reperimento per il lettore).

Indicizzare significa rendere consultabili e reperibili
i documenti di modo che:

  • siano ordinabili per proprietà (data di pubblicazione, autore, titolo, argomento etc.)
  • siano ricercabili per parola chiave (la parola di interesse viene cercata, in maniera completa o parziale, all’interno del titolo, dell’abstract o addirittura in tutto l’articolo nel caso di ricerca full‑text, in modo analogo al classico indice analitico cartaceo).

Si parla dunque di classificare i contenuti dell’archivio: non solo memorizzare il contenuto testuale di ogni singolo documento o articolo, ma aggiungere ad essi le altre informazioni che consentiranno il loro reperimento, ricerca e condivisione. Si necessita dunque dell’elaborazione di uno schema di informazioni logiche, gerarchicamente ordinate, individuate sulla base delle funzioni della rivista e al quale dovranno essere ricondotti tutti i documenti dell’archivio.

Come esempio di un processo di indicizzazione proponiamo quello che ha interessato la rivista La sapienza della Croce, di modo da vedere come anche la risoluzione di scansione, che avevamo lasciato in sospeso nell’articolo precedente il miracolo della scansione, è importante per l’intero processo di digitalizzazione.

La rivista La sapienza della Croce è nata inizialmente quadrimestrale, ed è poi diventata trimestrale a partire dal 2012.

Il modo più semplice per individuare ogni rivista era dunque la coppia anno/numero: ad esempio 2012/3 indica la terza uscita del 2012, e 1987/4 la quarta del 1987.

 

Ad ogni articolo della rivista, generalmente intorno alle 20 pagine, fino ad un massimo di 40, è stato dato come nome la semplice combinazione:

anno_numero_pagina_iniziale_pagina_finale.pdf

cosi ad esempio il file 2012_03_004_033.pdf contiene l’articolo uscito nel terzo numero del 2012 dalla pagina 4 fino alla 33.

È stato utile riportare anche gli zeri non significativi nel nome del file
(e dunque mettere sempre tre cifre per individuare la pagina)

per facilitare la procedura di ordinamento dei file al computer e anche il successivo caricamento dei dati nel programma WordPress per la pubblicazione online.

È stato deciso infine di produrre un file singolo anche per la rivista intera, di modo che tale file contenesse oltre ai singoli articoli anche le recensioni e gli editoriali. A tale file è stato semplicemente dato come nome anno_numero_online.pdf.

La risoluzione di scansione a 400 dpi ha permesso di effettuare un processo chiamato OCR (Optical Character Recognition) con una precisione superiore al 99%.

Il processo di OCR trasforma i semplici puntini (pixel) in bianco e nero dell’immagine originale (come ad esempio una pagina di articolo) in una serie di caratteri, che possono essere copiati ed incollati dal pdf in un altro word processor.

Questo ha permesso la facile ricostruzione dell’indice e la schedatura degli abstract (utilizzata per la produzione del sito internet) in quanto i titoli, gli autori e la numerazione delle pagine degli articoli per La sapienza della Croce, sono sempre stati stampati sulla pagina numero 3.

 

Ci si è avvalsi poi della funzionalità di un foglio di calcolo Excel per riportare in modo ordinato tutte le informazioni dell’indice. Oltre alle già citate chiavi di autore, titolo, annata, uscita e numeri di pagina, si è aggiunta la chiave sezione/categoria (con valori del tipo sacra scrittura, teologia, pastorale etc.) per indicare il campo di cui tratta l’articolo. Dal file Excel si è poi esportato, come vedremo nell’ultimo articolo della serie dedicato alla pubblicazione online, il file Html da mettere online come da pagina di ricerca principale degli articoli.

Si è scelto in questa fase iniziale di non sviluppare una ricerca full-text in quanto onerosa dal punto di vista della implementazione e della gestione. Oltretutto si è ritenuto migliore non sviluppare troppe caratteristiche in attesa del riscontro dei lettori su quelle già messe in atto.

Marco Staffolani
Amministratore Web
www.lasapienzadellacroce.mapraes.org