Estadísticas básicas del Corpus del Español
en Estados Unidos (CORPEEU)
El CORPEEU suma un total
de 92.228.251 palabras recogidas en 59.794 textos escritos o en transcripciones
de entrevistas, medios o interacciones orales.
·
Por
tipología textual, se divide en tres grandes grupos: Lengua escrita, tecleada y
hablada. El siguiente gráfico muestra la distribución por número de palabras:
·
Estas
grandes áreas tipológicas se dividen igualmente en subáreas que se distribuyen de
la siguiente manera por el número de palabras recogidas en cada una:
·
Siguiendo
las divisiones geográficas de los Estados Unidos establecidas por la Oficina
del Censo, el CORPEEU tratará de distribuirse teniendo en cuenta el número de
población hispanohablante que vive en cada región. Por el momento la
distribución geográfica del corpus por número de palabras queda recogida en el
gráfico y tabla siguientes:
Región |
Palabras |
Textos/Transcripciones |
Pacífico (PAC) |
30.616.168 (33.19 %) |
19.373 |
Atlántico Medio (ATM) |
16.454.892 (17.84 %) |
8.203 |
Atlántico Sur
(ATS) |
10.550.789 (11.43 %) |
6.008 |
Suroeste Central (SOC) |
9.133.701 (9.90 %) |
3.192 |
Noreste Central
(NEC) |
7.257.953 (7.86 %) |
3.990 |
Montaña (MON) |
3.243.318 (3.51 %) |
1.733 |
Nueva Inglaterra
(NIN) |
256.067 (0.27 %) |
198 |
Sureste Central (SEC) |
79.739 (0.087 %) |
52 |
Noroeste Central
(NOC) |
556 (0.00060 %) |
17 |
Desconocida |
14.635.068
(15.86 %) |
17.028 |
TOTAL |
92.228.251 |
59.794 |