Corpus del Español en los Estados Unidos

El “Corpus del Español en los Estados Unidos” (CORPEEU) es un proyecto iniciado en el “Observatorio de la lengua española y las culturas hispánicas” del Instituto Cervantes en la Universidad de Harvard, con la colaboración de la Academia Norteamericana de la Lengua Española (ANLE). Los trabajos para la construcción del CORPEEU comenzaron en el otoño de 2017, dentro de la Universidad de Harvard, pero previamente se hizo necesaria una detenida reflexión sobre las implicaciones y dificultades, conceptuales y metodológicas, que suponía abordar una tarea tan compleja.

Corpus of Spanish in the United States

The "Corpus of Spanish in the United States" (CORPEEU) is a project initiated by the Instituto Cervantes’ Observatory of the Spanish Language and Hispanic Cultures in Harvard University, in collaboration with the Academia Norteamericana de la Lengua Espanola (North American Academy of the Spanish Language, ANLE). The work for the creation of the CORPEEU began in the fall of 2017 at Harvard University, but prior to that, a thorough consideration of the conceptual and methodological challenges was necessary in order to embark on such a complex project.

Director: Francisco Moreno-Fernández
Con la colaboración de: F. Javier Pueyo Mena
Ayudantes de investigación: Elisabeth Lagresa, Austin Mueller y Rosario Cardona

Este proyecto tiene como objetivo construir un corpus de la lengua española hablada y escrita que está documentado en Estados Unidos desde 1960. Este corpus lingüístico permitirá realizar estudios en diferentes campos de investigación a partir de datos lingüísticos. Estas muestras se clasifican según el origen geográfico y social de los hablantes, la fecha de producción de las muestras, así como según los estilos, géneros y contextos de la comunidad hispanohablante en Estados Unidos.

Tipologia de textos

Lengua escrita: Ficcion - Prosa (EFP) y Verso (EFV); No ficcion - Prensa (EPR) - Publicidad (EPU) - Información (EIN) - General (EGE)

Lengua hablada: Entrevistas (HEN) - Medios (HME) - Discursos e interacciones públicas (HDI)

Lengua tecleada: Blogs personales (TBL) - Páginas oficiales (TWO) - Páginas generales (TWG)

Regiones de residencia en los EU (según la Oficina del Censo):

Nueva Inglaterra (NIN), Atlántico Medio (ATM), Noreste Central (NEC), Noroeste Central (NOC), Atlántico Sur (ATS), Sureste Central (SEC), Suroeste Central (SOC), Montaña (MON), Pacífico (PAC).

Procedimiento de consulta

Contamos con dos interfaces diferentes para realizar consultas en el CORPEEU. La interfaz principal, abierta al público puede encontrarse en el siguiente enlace:

Consultar el CORPEEU

Hemos desarollado un pequeño manual de consulta con indicaciones sobre el uso de la aplicación, la sintáxis de búsqueda y la consulta de los resultados. Puede descarse iguiendo este enlace:

Descargar manual de consulta

Otra interfaz más compleja destinada a investigadores y cuyo uso requiere un registro previo puede encontrarse en el siguiente enlace:

Consultar el CORPEEU (investigadores registrados)

Este proyecto de investigación ha recibido el apoyo humano y económico del Centro de Estudios Iberoamericanos de Heidelberg

Cómo citar el CORPEEU

Moreno-Fernández, Francisco (dir.). CORPEEU: Corpus del Español en los Estados Unidos. Con la col. de F. J. Pueyo Mena. Cambridge, MA: Instituto Cervantes at Harvard University – ANLE, 2018.

 

 

 

 

Director: Francisco Moreno-Fernández
With the collaboration of: F. Javier Pueyo Mena
Research Assistants: Elisabeth Lagresa, Austin Mueller and Rosario Cardona

This project aims at building a corpus of the spoken and written Spanish language that has been documented in the US since 1960. This linguistics corpus will allow for studies to be carried out in different fields of research on the basis of linguistic data. These samples are classified according to the geographical and social origin of the speakers, the date the samples were produced, as well as based on the styles, genres, and contexts of the Spanish speaking community in the US.

Textual Tipology

Written language: Fiction - Prose (EFP) y Poetry (EFV); Non Fiction - Press (EPR) - Advertisement (EPU) - Information (EIN) - General (EGE)

Spoken language: Interviews (HEN) - Media (HME) - Speeches and Discursos and public interactions (HDI)

Keyboard language: Personal Blogs (TBL) - Official Web pages (TWO) - General Web pages (TWG)

Regions of residence in the USA (Census Bureau-designated regions):

New England (NIN), Mid-Atlantic (ATM), East North Central (NEC), West North Central (NOC), South Atlantic (ATS), East South Central (SEC), West South Central (SOC), Mountain (MON), Pacific (PAC).

Searching the corpus

The are two different interfaces to query the CORPEEU. The main interface, open to the public, can be found following this link:

Corpus CORPEEU

We have developed a minmimal reference manual with instructions on the use of the application, the search syntax, and the query of the results. It can be downloaded by following this link:

Download query manual

Another more complex interface, intended for researchers and requiring prior registration can be found at the following link:

CORPEEU (registered researchers)

This research project has received human and financial support from the Heidelberg Center for Ibero-American Studies

How to reference

Moreno-Fernández, Francisco (dir.). CORPEEU: Corpus del Español en los Estados Unidos. With the col. of F. J. Pueyo Mena. Cambridge, MA: Instituto Cervantes at Harvard University – ANLE, 2018.