Estadísticas básicas del Corpus del Español en Estados Unidos (CORPEEU)

 

El CORPEEU suma un total de 92.228.251 palabras recogidas en 59.794 textos escritos o en transcripciones de entrevistas, medios o interacciones orales.

 

·      Por tipología textual, se divide en tres grandes grupos: Lengua escrita, tecleada y hablada. El siguiente gráfico muestra la distribución por número de palabras:

 

 

·      Estas grandes áreas tipológicas se dividen igualmente en subáreas que se distribuyen de la siguiente manera por el número de palabras recogidas en cada una:

 

       

·      Siguiendo las divisiones geográficas de los Estados Unidos establecidas por la Oficina del Censo, el CORPEEU tratará de distribuirse teniendo en cuenta el número de población hispanohablante que vive en cada región. Por el momento la distribución geográfica del corpus por número de palabras queda recogida en el gráfico y tabla siguientes:

 

       

Región

Palabras

Textos/Transcripciones

Pacífico (PAC)

30.616.168 (33.19 %)

19.373

Atlántico Medio (ATM)

16.454.892 (17.84 %)

8.203

Atlántico Sur (ATS)

10.550.789 (11.43 %)

6.008

Suroeste Central (SOC)

9.133.701 (9.90 %)

3.192

Noreste Central (NEC)

7.257.953 (7.86 %)

3.990

Montaña (MON)

3.243.318 (3.51 %)

1.733

Nueva Inglaterra (NIN)

256.067 (0.27 %)

198

Sureste Central (SEC)

79.739 (0.087 %)

52

Noroeste Central (NOC)

556 (0.00060 %)

17

Desconocida

14.635.068 (15.86 %)

17.028

TOTAL

92.228.251

59.794