Análisis, edición y búsqueda de textos

Esta sección reúne herramientas para trabajar con textos en proyectos de Humanidades Digitales: desde editar y etiquetar documentos (por ejemplo, TEI/XML), hasta explorar corpus, crear buscadores e incorporar modelos para análisis automático (temas, entidades, OCR/HTR). Para facilitar la elección, las herramientas se han organizado en 5 grupos según la tarea principal.

1) Búsqueda e indexación (recuperación de información)

Para crear buscadores a gran escala: indexar documentos, recuperar resultados y filtrar de forma eficiente.

Incluye: Apache Lucene, Apache Solr y OpenSearch

2) Edición y etiquetado (TEI/XML)

Para preparar textos con estructura, metadatos y anotaciones reutilizables (ediciones digitales, aparato crítico, registros) y para anotar de forma colaborativa.

Incluye : TEI, EpiDoc, ediarum, Roma, TEIGarage, Tapas, oXygen, TextGrid, XML Copy Editor, Hypothesis, Recogito.

3) Exploración de corpus

Para explorar colecciones de textos rápidamente (concordancias, frecuencias, comparación) sin montar un “buscador” completo.

Incluye : AntConc, Voyant, Lexos, Lyneal, CorpusSearch 2, TEITOK, Callimachus.

4) Modelos y NLP

Para análisis automático del lenguaje (entidades, temas, clasificación, embeddings, transformers)

Incluye: CoreNLP, Stanza, OpenNLP, spaCy, NLTK, Transformers, fastText, Flair, Gensim y MALLET

5) Reconocimiento de texto OCR/HTR

Para convertir imágenes de documentos en texto editable y buscable. Incluye herramientas para preparar la página (detección de layout, líneas y regiones), ejecutar OCR/HTR, corregir resultados y, si hace falta, entrenar modelos adaptados a una colección concreta.

Incluye: dhSegment, docTR, eScriptorium, Kraken, LayoutParser, PaddleOCR, Tesseract OCR y Transkribus.

Algunas herramientas podrían encajar en más de un grupo. Aquí se muestran donde suelen ser más útiles en flujos de trabajo de Humanidades Digitales.