Corpus

Gestor de Corpus (GECO)
Nuestro Gestor de Corpus es una aplicación web enfocada en la construcción colaborativa de corpus. Produce corpus anotados, directamente de las fuentes documentales. Tiene la finalidad de ser un repositorio central de documentos para una variedad de aplicaciones orientadas al PLN, que pueden ser integradas a GECO por desarrolladores con herramientas de código abierto. Permite publicar un portal web del corpus, así como embeber aplicaciones, como el generador de concordancias y el extractor de términos. La mayoría de nuestros corpus fueron construidos con GECO.

Corpus Paralelo de Lenguas Mexicanas (CPLM)
El corpus está constituido por una colección de documentos de diferentes géneros de diversas lenguas mexicanas, por el momento se trabaja con chol, maya, mazateco, mixteco, náhuatl y otomí, además de un extenso catálogo de lenguas para los corpus conformados por textos de temática política y por la biblia. Los corpus son paralelos con el español.

Corpus de las Sexualidades en México (CSMX)
Una colección de documentos electrónicos reunida para la investigación en extracción automática de léxico (lengua general), términos (lenguaje de especialidad en sexualidad y sexología) y sus contextos definitorios.

Corpus Histórico del Español en México (CHEM)
El Corpus Histórico del Español en México (CHEM) tiene el propósito de reunir un corpus diacrónico que dé cuenta de la conformación del dialecto mexicano a partir de los materiales que lingüistas, filólogos e historiadores han considerado clave para representar el español escrito en México entre los siglos XVI y XXI.

Corpus Lingüístico en Ingeniería (CLI)
El Corpus Lingüístico en Ingeniería (CLI) contiene 151 documentos de diversas áreas de la ingeniería, y cuenta con las herramientas para su análisis: concordancias, extractor de términos y similitud.

Corpus de Contextos Definitorios (CORCODE)
Herramienta informática que permita la consulta de Contextos Definitorios de un corpus que reúna todas las definiciones que han surgido a través de los años de investigación en el GIL, para que cualquier usuario pueda tener acceso a ellas a través de internet.

Corpus Paralelo Axolotl
Un total de 38 libros dan vida a este repositorio español-náhuatl; entre ellos se incluyen recetarios, cuentos y hasta textos musicales.
Axolotl, creado por Ximena Guitiérrez, Elena Vilchis y Rocío Cerbón, representa un avance en la representación digital de lenguas indígenas mexicanas.

RST Spanish Treebank
Se pone a disposición del usuario el RST Spanish Treebank, el primer corpus en español anotado con relaciones retóricas de la Rhetorical Structure Theory (RST).

Corpus Electrónico para el Estudio de la Lengua Escrita (CEELE)
Ponemos a disposición de la comunidad interesada en los estudios de la adquisición de la lengua escrita una colección de 300 textos escritos por niños mexicanos. Los textos fueron recolectados cuando los alumnos iniciaban el segundo grado de educación básica (entre 7 y 8 años).

Corpus sobre trata de personas
Corpus lingüístico electrónico sobre trata de personas y su sistema de consulta, realizado para el Seminario universitario de Estudios del discurso forense (SUEDIF) de la UNAM.

Corpus del Español Mexicano Contemporaneo (CEMC)
El GIL tuvo la gran oportunidad de poner el línea uno de los más reconocidos y utilizados corpus de español mexicano. Este corpus fue producto del trabajo realizado en el proyecto del Diccionario del Español de México, de El Colegio de México A. C. Esperamos que el sitio del CEMC sea de gran utilidad para la comunidad científica interesada en el español de México.

Corpus Básico Científico del Español de México (COCIEM)
Modelo lingüístico integral del vocabulario básico de la ciencia en México fundado en el establecimiento de una serie de tipologías de sus componentes morfológicos, sintácticos y semánticos, su nivel de especialización y forma de difusión.