Pasar al contenido principal

Análisis, edición y búsqueda de textos 

Esta sección reúne herramientas para trabajar con textos en proyectos de Humanidades Digitales: desde editar y etiquetar documentos (por ejemplo, TEI/XML), hasta explorar corpus, crear buscadores e incorporar modelos para análisis automático (temas, entidades, OCR/HTR). Para facilitar la elección, las herramientas se han organizado en 5 grupos según la tarea principal.

 


1) Búsqueda e indexación (recuperación de información)

Para crear buscadores a gran escala: indexar documentos, recuperar resultados y filtrar de forma eficiente. 
 

Incluye: Apache Lucene, Apache Solr y  OpenSearch


2) Edición y etiquetado (TEI/XML)

Para preparar textos con estructura, metadatos y anotaciones reutilizables (ediciones digitales, aparato crítico, registros) y para anotar de forma colaborativa. 
 

Incluye : TEI, EpiDoc, ediarum, Roma, TEIGarage, Tapas, oXygen, TextGrid, XML Copy Editor, Hypothesis, Recogito.


3) Exploración de corpus

Para explorar colecciones de textos rápidamente (concordancias, frecuencias, comparación) sin montar un “buscador” completo.

 
Incluye : AntConc, Voyant, Lexos, Lyneal, CorpusSearch 2, TEITOK, Callimachus.


4) Modelos y NLP  

Para análisis automático del lenguaje (entidades, temas, clasificación, embeddings, transformers) 
 

Incluye: CoreNLP, Stanza, OpenNLP, spaCy, NLTK, Transformers, fastText, Flair, Gensim y MALLET


5) Reconocimiento de texto OCR/HTR  

Para convertir imágenes de documentos en texto editable y buscable. Incluye herramientas para preparar la página (detección de layout, líneas y regiones), ejecutar OCR/HTR, corregir resultados y, si hace falta, entrenar modelos adaptados a una colección concreta. 
 

Incluye: dhSegment, docTR, eScriptorium, Kraken,  LayoutParser,  PaddleOCR,  Tesseract OCR y Transkribus.  


 Algunas herramientas podrían encajar en más de un grupo. Aquí se muestran donde suelen ser más útiles en flujos de trabajo de Humanidades Digitales.