Spanish | English

A comienzos de este siglo el anterior director de CBSR, Dr. Henry Snyder comenzó a elaborar un proyecto con el fin de documentar la historia de la imprenta de las antiguas colonias españolas y portuguesas. El se imaginó que sería un proyecto gemelo al English Short Title Catalog, que en ese entonces ya existía casi un cuarto de siglo. Después de haber consultado con organizaciones como La Asociación de Estados Iberoamericanos para el Desarrollo de las Bibliotecas Nacionales de Iberoamérica (ABINIA) y el Seminar on the Acquisition of Latin American Library Materials (SALALM), el Dr. Snyder desarrolló un plan para crear un cuerpo fundador de títulos latinoamericanos que utilizan bibliografías impresas, casi todas ellas publicadas en la segunda mitad del decimonoveno siglo y la primera parte del vigésimo siglo. La fecha límite para CCILA era originalmente 1850, en parte debido a que no existían muchas bibliografías impresas después de ese año. En años más recientes, hemos podido extender la fecha límite a 1900, en gran parte debido al fácil acceso a los registros electrónicos de instituciones contribuidoras.

CCILA ha crecido en etapas durante los años gracias a los recursos disponibles:

Transcribiendo e Incorporando Bibliografías (2001-2003)

Para la transcripción, el Dr. Snyder seleccionó una colección de bibliografías que cubren la mayor parte de América Latina y Filipinas. Dos subvenciones de la National Science Foundation (NSF) proveyeron los recursos para la transcripción e incremento inicial de registros y el desarrollo de un "archivo base".  La colección de bibliografías incluyó muchas de las bibliografías del famoso bibliógrafo José Toribio Medina. Ver la sección “Bibliographies/Bibliografías” para más información.

El primer paso para delinear el archivo base requirió el desarrollo de un serie de especificaciones a seguir por la compañía que fuera a transcribir las bibliografías. Crear estas especificaciones no fue tarea fácil. El texto de la portada debía ser transcrito en campos de metadatos separados como por autor, título, pie de imprenta, etc., y no simplemente como apareciera en la página impresa de la bibliografía. Adicionalmente, casi todas las bibliografías utilizaban una tipografía única para describir entradas bibliográficas, y  rutinariamente violaban sus propias reglas. Por ejemplo, en una bibliografía el nombre del autor aparece  impresa en itálicas, excepto cuando no lo hace.

A pesar del cuidado tomado al principio para separar los datos de manera mucho más exacta, fue necesario hacer más trabajo arduo para reorganizar los datos transcritos. Además de las bibliografías que violaban sus propias reglas, otras no separaban de manera alguna la información en forma correcta (como por autor, título, lugar de impresión, etc.).  Estos datos transcritos fueron reorganizados de manera programática después del proceso de transcripción. Los autores, títulos, lugares de publicación, información de la descripción física, y los nombres de las bibliotecas fueron reorganizados y formateados de acuerdo a las normas de catalogación moderna.

A finales del 2003, teníamos una base de datos de un poco menos de 50,000 registros transcritos y desde entonces CCILA está oficialmente disponible al público.

Proyecto Sutro Microfilm  (2002-2003)

En los años 2002 y 2003, catalogamos los libros, manuscritos, periódicos, artículos de periódicos, etc. del microfilm “Mexican Pamphlet Collection”  de la biblioteca Sutro de California State Library; éste era un set de microfilm que Cengage planeaba distribuir. Usamos una combinación de registros transcritos del catálogo impreso y de los registros electrónicos que Sutro Library aportó.  Catalogamos los títulos de los 161 rollos de microfilm. Este proyecto mejoró a CCILA, porque le agregó y corrigió más de 6,000 registros a la base de datos.

CCILA Proyecto de Control de Nombres de Autoridades (2003-2005 y en curso)

El transcribir de las bibliografías nos aportó una gran reserva de registros bibliográficos, pero no incluyó el trabajo de identificar o diferenciar los nombres de autores o editores, etc. enumerados en los registros.  Las bibliografías frecuentemente proveían los mismos nombres en diferentes formas, de los cuales ninguno seguía el formato moderno. Los nombres podían presentarse en orden inverso conforme al estándar moderno, (apellidos seguido del nombre), pero también aparecían en orden directo, como los seudónimos o simples iniciales. Tampoco había diferenciación entre los nombres personales y los corporativos, y algunos de los datos en el campo de autor constaban de títulos cortos y no de verdaderos nombres. El hecho de tener que organizar y optimizar los nombres resultó ser un proyecto en sí mismo.

Trabajando con este conjunto inicial de información transcrita, recolectamos todos los datos identificados como nombres de autor, y los colocamos en una sola base de datos. Nombres similares fueron agrupados de manera programática. Primero examinamos los grupos y decidimos si las diversas formas representaban más una sola entidad, o varias entidades. Luego identificamos los tipos de nombres (personal, corporativo, títulos, iniciales, etc.) de cada grupo de nombres, y los convertimos al formato moderno conforme a las reglas de la Library of Congress (LC) (es decir, orden inverso más fechas de nacimiento y muerte cuando éstas están disponibles). La mayoría de los nombres no fueron comparados con el archivo LC Name Authority File (NAF).  En ese tiempo tampoco fue posible la comparación manual de nombres individuales, ni la comparación automatizada de toda la colección de datos con NAF.  Decidimos establecer un control de autoridades en forma interna que podría gradualmente actualizarse con datos de NAF conforme los recursos nos permitieran.

Este proyecto estableció la base de datos fundamental de nombres de autoridades. La limpieza de estos datos y su actualización son tareas constantes. Actualmente continuamos agregando nuevos nombres y actualizando los existentes.  Los nombres son individualmente investigados y actualizados a la forma autorizada por LC NAF (cuando éstos se encuentran), y conforme tengamos los recursos.

Hasta agosto del 2018, la base de datos de nombres de autoridades contenía aproximadamente 63,0000 registros. De éstos, 1,655 fueron manualmente investigados en el archivo LC NAF no siendo encontrados. Luego éstos fueron formateados para normalizarlos de acuerdo con las reglas de la LC. 1,327 fueron encontrados en LC NAF y sus identificaciones apropiadas fueron consignadas. Más de 60,000 están por ser investigadas y comparadas con LC NAF.

Proyecto de Control de nombres de Bibliotecas (2002-2004)

Para las bibliotecas modernas, un registro de autoridad ha sido (o fácilmente puede ser) registrado por una agencia de asignación nacional como LC o la British Library. Las bibliotecas existentes tienen un nombre reconocido, una dirección, y posiblemente un sitio web. Nada de esto es posible para las bibliotecas descritas en bibliografías que tienen más de 100 años de antigüedad.

Los datos transcritos incluyeron una infinidad de formas para nombrar a las bibliotecas; todo desde acrónimos a formas completas, y además toda la variación multilingüe y errores ortográficos, etc. posibles. Necesitábamos entonces consolidar las formas variadas en una sola lista autorizada de nombres de bibliotecas. Una vez más, agrupamos los nombres similares de manera programática y luego revisamos manualmente.  

Después investigamos las versiones modernas de cada nombre de estas bibliotecas en otras fuentes, sobre todo en el internet, y luego los asociamos con aquellas utilizadas en las bibliografías. Algunas fueron fáciles de rastrear, mientras otras sólo ofrecían engorrosas pistas sobre el destino de la colección más ningún enlace actual a una institución moderna.

Por lo tanto, las bibliotecas registradas en nuestra base de datos de bibliotecas caen bajo tres grupos: instituciones identificables, colecciones privadas, e instituciones no conocidas. Utilizamos códigos de MARC cuando éstos existen, y creamos códigos con un formato similar cuando éstos no existen (para bibliotecas no conocidas, por ejemplo).  Asignamos también un código basado en el nombre de la bibliografia cuando ésta no cuentan con ningún nombre de biblioteca en la entrada transcrita

Proyecto Microfilm Lafragua (2008 - 2012)

En un proyecto similar al “Proyecto Sutro Microfilm”, catalogamos la "Colección Lafragua”, usando el microfilm proporcionado por el Center for Research Libraries, que es una filmación de los libros originales que posee la Biblioteca Nacional de México. Las entradas de los catálogos impresos de Lafragua incluyen un número de volumen. En el proceso de catalogación del microfilm agregamos también el número de cada título dentro de cada volumen. Este proyecto enriqueció con mas de 17,000 registros a CCILA.  

Impresiones Cubanas (2012-2015)

Con fondos económicos de SALALM mejoramos el número de impresos cubanos e incrementamos significativamente CCILA. Comenzamos a recolectar registros electrónicos de las bibliotecas de Harvard University, New York Public Library, University of Florida, University of North Carolina at Chapel Hill, University of Texas, y Columbia University.  Mediante una combinación de procesamiento hecho a mano, y por computadora (ver Comparación Automatizada más abajo) agregamos más de 4,000 registros de títulos cubanos a CCILA. Al mismo tiempo, enviamos a una compañía a transcribir la colección de los ocho volúmenes de la Bibliografía Cubana creada por Carlos Trelles, una de las bibliografías más importantes no procesadas en nuestro trabajo inicial de hace diez años. Esos registros transcritos fueron entonces comparados de manera programática como manual, con los registros contribuidos, agregando aproximadamente 12,000 registros más a CCILA. A partir de agosto del 2018, CCILA cuenta con más de 16,000 registros impresos en Cuba antes de 1900.

Comparación Automatizada (2012-2014, y en curso conforme sea posible)

Desde el inicio de CCILA hemos coleccionado registros de instituciones de toda América. En el 2012 teníamos docenas de colecciones de datos. Una subvención de la parte del Institute of Museum and Library Services (IMLS) nos permitio procesar y agregar esos registros a CCILA.

Emprendimos este trabajo en tres pasos: primero, procesamos registros electrónicos proveídos por instituciones norteamericanas, y además contactamos a otras bibliotecas a fin de obtener los registros latinoamericanos de antes del 1900.  Segundo, una vez que la mayor parte de este trabajo se concluyó, pasamos a procesar los registros de las bibliotecas latinoamericanas.  Finalmente, transcribimos y procesamos algunas de las bibliografías impresas remanentes que no pudimos trabajarlas anteriormente (diez años antes). Escogimos este flujo de trabajo porque creíamos que los registros provenientes de bibliotecas norteamericanas eran más uniformes y detalladas que aquellas provenientes de bibliotecas latinoamericanas y los registros creados de bibliografías impresas.  Comparamos los registros de éstos dos últimos con los registros norteamericanos, y los agregamos como posesiones, o nuevos títulos.

A terminar el 2015 los proyectos Comparación Automatizada e Impresiones Cubanas juntos agregaron 33,958 nuevos registros bibliográficos, actualizaron 15,993 registros existentes con datos bibliográficos contribuidos, y agregaron o actualizaron 33,410 posesiones para 25,887 registros a CCILA.

Trabajo en Curso 

El proceso “comparación automatizada” es continuo, pero a un ritmo reducido. Lo siguiente es un resumen básico. Tomamos un archivo MARC de registros contribuidos (o un archivo similar al tipo MARC de registros transcritos) y lo pasamos por una serie de operaciones de limpieza para aislar y normalizar los campos de datos que utilizamos para hacer comparaciones. Cualquier título obviamente fuera del ámbito (por fecha, idioma, lugar, etc.) es eliminado inmediatamente sin ninguna consideración.

Comparamos autor, título, lugar y fecha de publicación de los datos contribuidos con los datos de CCILA usando algoritmos.  Si algún registro contribuido es compatible con un registro existente, agregamos algunos datos bibliográficos y las posesiones del registro contribuido al registro ya existente en CCILA. Si algún registro contribuido es compatible a múltiples registros de CCILA, o no es compatible a ningún registro entonces se procede a un proceso manual.

En el proceso manual, un estudiante entrenado investiga si el registro es compatible o no a un registro existente de CCILA, o si es un registro nuevo, o si está fuera del ámbito. Si el estudiante tiene cualquier duda acerca de un registro, lo refiere el registro a un catalogador para una investigación más exhaustiva. El resultado final de este proceso manual es contar con tres tipos de registros: registros que son compatibles con los ya existentes, registros nuevos a CCILA, o registros que se encuentran fuera del ámbito. A los registros compatibles con registros de CCILA, le agregamos algunos datos bibliográficos, y las posesiones. Agregamos a CCILA registros nuevos sin ninguna otra intervención humana.

Con las numerosas bibliografías impresas ya procesadas, y con la mayoría de las colecciones norteamericanas agregadas a nuestra base de datos, esperamos continuar enriqueciendo y mejorando CCILA en su representación de posesiones de instituciones latinoamericanas. Si gusta contribuir a CCILA, favor de contactarnos.

 

Spanish | English

At the start of this century the former CBSR Director, Dr. Henry Snyder, began work on a project to document the printing history of former Spanish and Portuguese colonies.  He imagined it would be a sister project to the English Short Title Catalog, which at the time was nearly a quarter century in the making.  After consultations with organizations such as La Asociación de Estados Iberoamericanos para el Desarrollo de las Bibliotecas Nacionales de Iberoamérica (ABINIA) and the Seminar on the Acquisition of Latin American Library Materials (SALALM), Dr. Snyder developed a plan for creating a foundational corpus of Latin American items using printed bibliographies, almost all of them published in the late nineteenth and early twentieth centuries.  The cutoff date for CCILA was originally 1850, in part because most printed bibliographies went no further.  In recent years we’ve expanded the end date to 1900, in large part due to the easy availability of electronic records from contributing institutions.

CCILA has grown in stages over the years based on available funds:

Transcribing and Loading Bibliographies (2001-2003)

Dr. Snyder chose a selection of bibliographies covering most of Latin America and the Philippines.  Two grants from the National Science Foundation funded the transcription and initial loading of records to create a “base file.”  The collection of bibliographies included many by the famed bibliographer Jose Toribio Medina.  See the “Bibliographies/Bibliografías” page for more information.

The first step to build the base file required developing a set of specifications for the company transcribing the bibliographies.  Creating the specs was no easy task as the text had to be transcribed into separate metadata elements like author and title and not simply as it appeared on the printed page.  Additionally, nearly every bibliography used unique typography to describe bibliographic entries, and then routinely violated its own rules.  For example, a bibliography might print the author's name in italics, except when it doesn’t. 

Despite the care taken to separate elements as accurately as possible in the beginning, we still had to do plenty of cleanup work on the transcribed data.  In addition to bibliographies that violated their own rules, some bibliographies did not typographically separate information such as the title or imprint at all.    These were all cleaned up programmatically after transcription.  Dates and places of publication, physical description information, library names, and authors were cleaned up and reformatted to modern cataloging standards as part of the cleanup process.

By the end of 2003 we had a database of just under 50,000 transcribed records in place and CCILA was officially publicly available.

Sutro Microfilm Project (2002-2003)

In 2002-2003, we cataloged the items on the Mexican Pamphlet Collection microfilm at the Sutro Library, California State Library; a microfilm set that Cengage planned to distribute.   Using a combination of transcribed records from the printed catalog and electronic records provided by the Sutro Library, we worked our way through the entire set of 161 reels to catalog each item.  The project enhanced or added over 6,000 records to CCILA.

CCILA Name Authority Project (2003-2005 and on-going)

Transcribing the bibliographies provided us with a pool of bibliographic records but did not include any work to identify or differentiate names, such as authors and publishers, listed in the records.  Bibliographies often provided the same names in different formats, none of which followed modern formatting.  The names might be in inverted order, as is the modern standard, but were often in direct order or were pseudonyms or initials.  There was no differentiation between personal and corporate names.  Some of the data in the author element actually consisted of filing titles and not names at all.  Sorting out and streamlining the names turned into an entire project all by itself.

Working with the initial batch of transcribed data, we collected all the entries identified as author names into a single database.  Similar names were grouped together programmatically.  We first examined the groups and decided whether the various forms likely represented one entity or different entities.  Then we identified the name types (personal, corporate, not a name) of each group of names (or titles) and converted them to modern formatting following Library of Congress (LC) practice (i.e. inverted order plus dates when available).  The majority of names were not initially compared to the LC Name Authority File (NAF).  Neither manual comparison of individual names nor batch comparison of the entire data set to the NAF data was feasible at the time.  We settled for establishing internal authority control that would be gradually upgraded with NAF data as resources allowed.

This project gave us the basic name authority database.  Data clean up and maintenance are ongoing tasks.  We add new names (and update existing ones) every time we add contributed data to CCILA.  Names are researched individually and upgraded to the LC NAF authorized form (when it exists) as we have resources.

As of August 2018, the name authority database contained roughly 63,000 records.  1,655 have been manually researched in the LC NAF file and not found, and then formatted to match LC data.  1,327 have been found in the LC NAF and the appropriate IDs entered.  Just over 60,000 still need to be checked against the LC NAF and processed accordingly. 

Holding Libraries Authority Project (2002-2004)

For modern libraries, an authority record has been (or can easily be) recorded by a national assignment agency such as LC or the British Library.  The library exists; it has a known name, an address, and possibly even a website.  None of this is necessarily true for the holding libraries described in  bibliographies that are more than 100 years old.
 
The transcribed data included a plethora of forms for naming libraries; everything from acronyms to fully written-out forms and seemingly every possible multi-lingual variation (and misspelling) in between.  We needed to consolidate the various forms into an authoritative list of library names.  Once again, we grouped similar names together programmatically and then manually reviewed the groupings. 

Then we searched, mostly on the internet, for the modern version of each library name and associated those used in the bibliographies with it.  While some were easy to trace, others offered tantalizing hints about the fate of the collection but no actual link to a modern institution. Therefore, the libraries recorded in our libraries database, and in CCILA holdings, fall into three groups: identifiable institutions, private collections, and unidentifiable, unknown institutions.  We use MARC codes when they exist, and codes roughly formatted in the same way when they don't exist (for unknown libraries, for example).  We also include a default unknown institution code assigned to each bibliography to indicate that no library location was identified in the original transcribed entry.

Lafragua Microfilm Project (2008-2012)

In a project similar to the Sutro Microfilm Project, we cataloged a microfilm set, owned by the Center for Research Libraries, of the Lafragua Collection housed at the Biblioteca Nacional de México.  In addition to the volume number found in the Lafragua printed catalogs, CCILA records also now contain the item number within each volume for each title.  This project enhanced or created over 17,000 records for CCILA.

Cuban Imprints (2012-2015)

With funding from SALALM we dramatically increased and improved CCILA’s representations of Cuban imprints.  We started by collecting electronic records from libraries at Harvard University, New York Public Library, the University of Florida, the University of North Carolina at Chapel Hill, the University of Texas, and Columbia University.  Through a combination of computer and manual processing (see Global Matching below) we added over 4,000 records to CCILA for Cuban items.  At the same time we had a company transcribe the eight volume set of Cuban bibliographies created by Carlos Trelles, one of the most important bibliographies not processed in our initial work ten years earlier.  Those transcribed records were then compared, programmatically and manually, to the contributed records, adding an additional roughly 12,000 records.  As of August 2018, CCILA contained more than 16,000 pre-1900 Cuban imprints.

Global Matching (2012-2014, ongoing as possible)

Since the start of CCILA we had been collecting, whenever possible, records from institutions throughout the Americas.  By 2012 we had dozens of datasets.  A grant from the Institute of Museum and Library Services (IMLS) allowed us to process and add those records.

We approached this work in three steps.  First, we processed electronic records provided by North American institutions and contacted libraries for which we didn’t have information to get records from them for pre-1900 Latin American imprints.  Once most of that work was completed, we moved on to processing records from Latin American libraries.  Finally, we transcribed and processed as many printed bibliographies leftover from our work ten years earlier as time and funding allowed.  We chose this workflow because we believed records from North American libraries were likely to be more uniform and detailed than those from Latin American libraries and records created from printed bibliographies.  Records from the latter two were compared against North American, and either added as holdings or as new items when existing records were not found.

By the end of 2015 the Global Matching and Cuban Imprints projects together had added 33,958 new bibliographic records to CCILA, updated 15,993 existing records with contributed bibliographic data, and added or updated 33,410 holdings for 25,887 CCILA records.

On-Going Work

The “global matching” process is still ongoing, though at a reduced pace.  Here is a basic overview; 

We take a MARC file of contributed records (or a MARC-like file of transcribed records) and run a series of cleanup operations on it to isolate and normalize the field data we use for comparison.  Any obviously out-of-scope items (by date, language, place, etc.) are eliminated from consideration right away. 

We compare the author, title, place, and date of publication between the contributed data and CCILA data using algorithms. If a contributed record matches an existing record, bibliographic data from the contributed record and any holdings are added to the existing CCILA record.  If a contributed record matches more than one CCILA record or doesn't match any CCILA record, it then goes to the manual process. 

In the manual process, a trained student worker evaluates whether the record matches an existing CCILA record, is new to CCILA or is out of scope.  Any records where the student has questions are referred to a cataloger for further evaluation.  The end result of the manual process are records that match an existing record, are new to CCILA, or are out of scope. For matched records, bibliographic data and any holdings are added to the existing CCILA record.  Contributed records deemed new to CCILA are loaded without any further human intervention.

With many printed bibliographies processed, and most North American collections added to the database, we hope to enlarge and improve CCILA’s representation of holdings in Latin American institutions.  If you’d like to contribute to CCILA, please contact us.