Cantidad de palabras proporcionadas por RIMAR quasar, espacio ocupado en disco y factor de compresión.
1) Palabras cargadas directamente en la Base de Datos:
vocabulario básico 31389
verbos preconjugados 208785
NOTA: Estos números incluyen palabras repetidas con
diferente función gramatical.
Ejm: "anular", como verbo y también como adjetivo.
2) Palabras generadas:
básicos generan
adjetivos 6644 * 38 = 252472
sust.masculinos 9832 * 17 = 167144
sust.femeninos 9742 * 17 = 165614
Verbos que se conjugan "al vuelo"
Categoría 1 (general)
Sin pron. enclítico:
ar 5555 * 47 = 261085
er 279 * 55 = 15345
ir 313 * 50 = 15650
Con pron. enclíticos (solo transitivos)
ar 4406 * 790 = 3480740
er 74 * 838 = 62012
ir 107 * 782 = 83674
Con pron. enclíticos (pronominales o transitivos)
ar 1065 * 125 = 133125
er 27 * 130 = 3510
ir 22 * 123 = 2706
Categoría 2 (particulares)
Sin enclíticos 27951
Con enclíticos = 704936
------------------
Total de palabras suministradas: 5616138
Tamaño de la base de datos en bytes
(cada byte es una letra):
Archivos básicos diccionario 1338611
Archivos accesorios para generar palabras:
sust.femeninos 71118
adjetivos 50142
sust.masculinos 65175
Verbos _ar 45600
Verbos _er 5962
Verbos _ir 5688
Excepciones-claves 2232
Excepciones-datos 10604
Resumen verbos 8403
Total de bytes que ocupan los datos 1595132
(1.52 Mb, o sea 1595132 / (1024 * 1024)).
Factor de compresión resultante:
En un archivo de texto sin formato, generado a partir de un pasaje
literario cualquiera, con palabras no repetidas, hallé que 116140
palabras ocupan 1195492 bytes, o sea que cada palabra en promedio
ocupa 1195492 / 116140 = 10.29 bytes/palabra.
Dado el volumen de la muestra, y habiendo sido elegida totalmente
al azar, considero que es perfectamente representativa, centésimo
más o menos.
Si las palabras fueran repetidas abundarían los artículos, las
conjunciones y las preposiciones, con lo cual el largo promedio
se acortaría. Pero RIMAR quasar no da palabras repetidas, salvo
que tengan diferente función gramatical.
En nuestro caso:
1595132 bytes / 5616138 palabras = 0.284 bytes/palabra (¡Asombroso!)
El factor de compresión de RIMAR quasar sería entonces de:
10.29 / 0.284 = 36.2 a 1.
Pero el grueso de las palabras que da RIMAR quasar son más
largas, por ser derivaciones de otras; estimo en 3 el
promedio de letras agregadas (y tal vez me quedo corto,
porque hay terminaciones largas, como "mente", "ísimos",
"ínoslos", etc). Serían 13.29 bytes por palabra.
El factor de compresión corregido sería entonces de:
13.29 / 0.284 = 46.8 a 1
¿Qué tal? ¡Bastante más que un diesel!.