Análisis, edición y búsqueda de textos
Esta sección reúne herramientas para trabajar con textos en proyectos de Humanidades Digitales: desde editar y etiquetar documentos (por ejemplo, TEI/XML), hasta explorar corpus, crear buscadores e incorporar modelos para análisis automático (temas, entidades, OCR/HTR). Para facilitar la elección, las herramientas se han organizado en 5 grupos según la tarea principal.
1) Búsqueda e indexación (recuperación de información)
Para crear buscadores a gran escala: indexar documentos, recuperar resultados y filtrar de forma eficiente.
Incluye: Apache Lucene, Apache Solr y OpenSearch
2) Edición y etiquetado (TEI/XML)
Para preparar textos con estructura, metadatos y anotaciones reutilizables (ediciones digitales, aparato crítico, registros) y para anotar de forma colaborativa.
Incluye : TEI, EpiDoc, ediarum, Roma, TEIGarage, Tapas, oXygen, TextGrid, XML Copy Editor, Hypothesis, Recogito.
Para explorar colecciones de textos rápidamente (concordancias, frecuencias, comparación) sin montar un “buscador” completo.
Incluye : AntConc, Voyant, Lexos, Lyneal, CorpusSearch 2, TEITOK, Callimachus.
Para análisis automático del lenguaje (entidades, temas, clasificación, embeddings, transformers)
Incluye: CoreNLP, Stanza, OpenNLP, spaCy, NLTK, Transformers, fastText, Flair, Gensim y MALLET
5) Reconocimiento de texto OCR/HTR
Para convertir imágenes de documentos en texto editable y buscable. Incluye herramientas para preparar la página (detección de layout, líneas y regiones), ejecutar OCR/HTR, corregir resultados y, si hace falta, entrenar modelos adaptados a una colección concreta.
Incluye: dhSegment, docTR, eScriptorium, Kraken, LayoutParser, PaddleOCR, Tesseract OCR y Transkribus.
Algunas herramientas podrían encajar en más de un grupo. Aquí se muestran donde suelen ser más útiles en flujos de trabajo de Humanidades Digitales.