Estuve el sábado revisando si haya cambiado algo al respecto en la gramática y francamente es complicado de un vistazo rápido hacerse eco de ello... Básicamente obliga a leerse un tocho de cientos de páginas (siempre se puede acudir al índice para reducir al mínimo la lectura, pero es seguro que entonces se pierden ciertos detalles)...
http://aplica.rae.es/grweb/cgi-bin/v.cgi?i=feRKWpxYQmpczbvbConsultando el último libro que compré de gramática ("La gramática descomplicada" de Alex Grijelmo, 2009 7ªEd.), que a fin de cuentas data del mismo año que "La nueva Gramática Española" del link citado, sobre las sílabas no dice nada especial que uno no sepa, de hecho hasta pasa de largo por su 'anatomía'.
Es habitual considerar que las sílabas se componen de letras y luego saltar a los diptongos, triptongos e hiato, previo conocimiento de las vocales y consonantes.
Lo cierto es que yo tengo en mi recuerdo que la sílaba se compone de 3 partes que es lo que expondré y de lo que he partido... el domingo me tomó algo más de una hora elaborar el esquema de la formación del que sin detallar a fondo, doy una simples pinceladas.
silaba= [ataque] nucleo [coda]
Sí, estos son los componente de la sílaba en base a su estudio, a la especificdad con la que se forman.
Las palabras entre corchetes indica que son opcionales, pueden o no llevarlo, en cambio el núcleo es obligatorio.
ataque= C[C]
nucleo= V[ [V|H]V]
coda= C[C]
C refiere a consonantes y V a vocales... esto de modo genérico, las reglas exactas las pondré más abajo.
Que puede resumirse:
- El ataque (cuando la sílaba lo lleva), se compone de 1 ó 2 consonantes. Otra forma de decirlo, puesto que puede o no llevar ataque es decir que hay 0, 1 o 2 consonantes.
- El núcleo, viene a decir que siempre existe como mínimo una vocal, a veces lleva dos (diptongo) y a veces 3 (triptongo), la vocal del medio puede no existir o dicho de otro modo, estar remplazada por una 'H' que en ese caso es muda y por tanto se comporta como si fuera un vocal (so pena de insistir en considerarla consonante y complicar la estructura, que al final ofrece el mismo resultado, pero más complejo).
- La coda cuando la lleva se compone de 1 u 2 consonantes, y como con el ataque considerando de forma absoluta que siempre se tiene, podemos asumir que entonces se compone de 0, 1 o 2 consonantes.
Resumiendo:
Esto es lo que recuerdo, sin embargo ayer (el domingo) mientras hacía todo el esquema se me vino a la cabeza algunas palabras (ejemplos de cada situación), donde la coda está formada por 3 consonantes, y cito los ejemplos que se me vinieron a la cabeza (es posible que existan más, pero basta que exista una para indicar que la 'teoría' no es correcta).
Fi
lms, gá
ngster, tu
ngsteno, te
sts, nie
tzschismo, se
ltz, wa
ttsHay que aclarar que originalmente ninguna de estas palabras es nativo-española,
se puede asumir que las 'rarezas' en sílabas son casi en su totalidad de origen foráneo, es decir importadas del extranjero y al caso, si éstas dadas se hubiera importado siglos atrás, a buen seguro se escribirían distinto, posiblemente hubieran acabado mutando a: fi
lmes, gá
nster, tu
nsteno, te
ses, nie
schismo, se
lz, etc... Y que en mi opinión es hacia donde debiera haber mutado por indicación o regla gramatical a la sazón (que no existe, que yo sepa). Así como nos ha tocado vivir una época de empecinamiento purista absurdo, las palabras importadas tienden a mantenerse 'fieles al original en su idioma'...
No son el único caso por el que la procedencia extranjera aporte nuevas sílabas (sin uso o apenas uso en el español, previamente):
wagneriano,
hamster,
troll, etc...
Hay que recordar que la letra 'w' es una letra importada, su sonido en español al final cae siempre en (v|b|gü), luego es realmente innecesaria y es un aborto propio de ese purismo absurdo (a ver si en esas otras lenguas han adoptado la 'ñ').
También hay codas extrañas procedentes de las lenguas precolombinas como 'tl' que se ve en 'náhuatl'.
Quien sabe, a la vuelta de 100 años quizás hayan terminado su fase de mutación y todo lo que precisan es un rodaje y desgaste en el tiempo, que limen sus aristas y acaben como cantos rodados... como pasó con los términos procedentes del griego, latín,etc... que ya lo vemos con las perspectiva del tiempo.
Claramente la cosa se complica cuando pasamos al detalle intrincado, los diptongos lo son con la combinación de ciertas vocales, de lo contrario forman un hiato que separa la sílaba y forma dos sonidos... para rematar el caso, las vocales tildadas se encargan en buena medida de definir diptongos: 'hay' es un diptongo, pero no 'ahí', que forma un hiato 'a-hí', incluso en triptongos, como en 'bahía' que ni es triptogo, ni diptongo 'ba-hí-a'. No solo tenemos la 'h' intercalada (que se puede resumir que actúa como una vocal muda), también tenemos que la 'y' puede comportarse como la vocal 'i', como en 'rey', pero mantiene su origen en cambio en 're
yezuelo' como consonante aún procediendo de la misma raíz.
También podemos hablar de las consonantes:
- Si tomamos por ejemplo el ataque, no detrás de cualquier consonante aparece otra, por ejemplo: "'tp'-nucleo" es impronunciable en español, en cambio "'ps'-núcleo" se pronuncia obviando la 'p', como en psique, psicología... (sí una p muda se podría decir... que la gramática no señala por parte alguna, esto sucede básicamente con palabras importadas, incluso en la coda), muchas consonantes en cambio admiten como segunda consonante en el ataque la 'r' y la 'b', pero de nuevo una 'h' puede comparecer como segunda consonante (o tal vez considerada como primera vocal al ser muda), excepto que esa consonante sea precisamente la 'c' como 'cho-colate'. O la 'q' que no admite detrás de ella ninguna otra consonante.
- La coda en cambio parece ser más restrictiva, algunas de ellas no se dan, aunque opcionalmente podrían añadirse, so pena de alargar la cantidad de sílabas generadas a cambio de no hallar palabras donde se den (luego aclaro esta diferencia), como la 'ñ', 'v' o 'w'. Algunas de ellas, en cambio aceptan la pronunciación, aún cuando procedan de otro idioma. No es fácil encontrar palabras en español acabadas en k y ciertas otras consonantes como: ro
ck, crómle
ch, su
rf, tuare
g, tuare
gs, etc... e incluso no siendo algunas de nuestro idioma, si son pronunciables como: wa
tts, Maxwe
ll, sai
ntPara finalizar estas pinceladas, considerando el tamaño de las sílabas, hay que decir que es difícil encontrar sílabas de más de 5 letras, pero ahí está 'truhán', una sola sílaba y palabra de 6 letras, dado que la coda (como se ha demostrado) admite hasta 3 consonantes, quien me quita que yo no inventare la palabra: 'truhángs-ter' (mezcla de truhán y gángster), como se ve 'truhángs' es de 8 letras y es perfectamente pronunciable incluso algo como 'ñhehizz' forma una sola sílaba, es pronunciable y tiene 2 'h'.
Resumiendo. Limitarse a buscar solo las sílabas que contienen las palabras de nuestro diccionario, no reporta todas las sílabas posibles, es decir cualquiera puede crear una nueva palabra inexistente con cualquiera de la sílabas que aquí he generado. ...además el diccionario, aun conteniendo todas las palabras, no contiene las palabras de las conjugaciones de los verbos, que ofrecen muchas sílabas distintas que seguramente no constan en otras palabras (y que por tanto se perderían).
Veo por tanto más útil generar una lista con todas las sílabas que sean pronunciables (considerando además, la posibilidad de coda de 3 consonantes, precisamente por ser pronunciables), de las que luego uno pueda filtrar para eliminar las que quiera, que crear una lista con las sílabas que contienen x palabras a las que puedan añadirse otras, pués esto siempre será más complicado que lo previo. Por ejemplo, aunque no es fácil encontrar sílabas que acaben con la coda 'zz', surge facilmente 'jazz', si esto es pronunciable, también lo será 'jozz' y 'pazz' u 'pezz' y tazz', etc... luego en la lista si uno quiere, puede filtrar las sílabas que acaben en 'zz', por considerar que realmente existen muy pocas, del mismo modo uno puede querer considerar eliminar las sílabas de 8 o 7 letras, dado que es complicado encontrar sílabas incluso de 6 letras que existan en palabras de nuestra lengua. Igualmente las sílabas tildadas, puede uno asimilarlas o hacerlas equivalente a la misma sílaba con la vocal sin tilde, especialmente si la idea de uno es usar (no crear) diccionarios para tirar de fuerza bruta y un sitio no admite letras tildadas como parte de sus contraseñas.
Como digo que es más fácil eliminar ciertas sílabas existentes (en el fichero) que añadirlas si no estuvieran presentes, he considerado pués crear mejor una lista así. Ciertas condiciones me han parecido innecesarias, como añadir codas que empiecen por las consonantes :'ñ', 'v' y 'w', pero en cambio he dejado la posibilidad de acabar en 'q' y 'qs', por la simple razón de que puede pronunciarse como una 'c'... la infame: 'FAQS' (no la otra fucks), atestigua que es pronunciable aún cuando, sean siglas... Por supuesto cada cual puede tener su opinión al respecto y filtrar lo que desee o crear su propia lista desde cero si resulta que no se incluye cierta combinación que le parezca de interés... en ese caso esta explicación y la lista, pueden servirle de apoyo.
Esto reporta algo más de 400.000 sílabas, cuando no creo que en entre las palabras existentes haya más de 5.000 sílabas. El resultado se obtiene en menos de 1 minuto.
Nota que no me he metido a realizar una algoritmo expresamente para esto, pués ya tengo un programa de grafos para realizar análisis sintáctico basado en un conjunto de reglas, y opciones que puedo personalizar, y con ello puedo generar permutaciones con reglas muy dispares, simplemente programando el 'lenguaje' que suponen dichas reglas...
Este es el conjunto de reglas finalmente en juego:
1 - Máximo número de caracteres = 8
2 - Peso minimo = 4
3 - Reglas de producción:
#nucleoIni = a3:4|e3:4|y3:4|o3:4|u3:4
#nucleo = #nucleoIni|á3:1|é3:1|i3:1|í3:1|ó3:1|ú3:1|ü3:1
#hNucleo = h2:1|#nucleo
#hrl= r2:1|l2:1|#hNucleo
#diptongo= i4:1|u4:1|y4:1|h4:1
#triptongo= a4:1|á4:1|e4:1|é4:1|o4:1|ó4:1
#coda = b6:1|c6:1|d6:1|f6:1|g6:1|h6:1|j6:1|k6:1|l6:1|m6:1|n6:1|p6:1|q6:1|r6:1|s6:1|t6:1|x6:1|y6:1|z6:1
ataque = b1:1|c1:1|d1:1|f1:1|g1:1|h1:1|j1:1|k1:1|l1:1|m1:1|n1:1|ñ1:1|p1:1|q1:1|r1:1|s1:1|t1:1|v1:1|w1:1|x1:1|y1:1|z1:1|#nucleoIni
b1= #hrl
c1= #hrl
d1= #hrl
f1= #hrl
g1= #hrl
h1= #nucleo
j1= #hNucleo
k1= #hrl
l1= l2:1|#hNucleo
m1= #hNucleo
n1= #hNucleo
ñ1= #hNucleo
p1= s2:1|#hrl
q1= u3:4
r1= r2:1|#hNucleo
s1= #hNucleo
t1= #hrl
v1= #hNucleo
w1= #hNucleo
x1= #hNucleo
y1= #hNucleo
z1= #hNucleo
c2= #nucleo
h2= #nucleo
l2= #nucleo
r2= #nucleo
s2= #nucleo
a3= #diptongo|#coda
á3= #diptongo|#coda
e3= #diptongo|#coda
é3= #diptongo|#coda
i3= #triptongo|u4:1|ú4:1|h5:1|#coda
í3= #coda
o3= #diptongo|#coda
ó3= #diptongo|#coda
u3= #triptongo|i4:1|í4:1|h5:1|#coda
ú3= #coda
ü3= e4:1|é4:1|i4:1|í4:1
y3= #triptongo|#coda
a4= #coda
á4= #coda
e4= y5:1|#coda
é4= #coda
i4= #coda
í4= #coda
o4= #coda
ó4= #coda
u4= #coda
ú4= #coda
h4= i5:1|í5:1|u5:1|ú5:1
y4=
a5= #coda
á5= #coda
e5= #coda
é5= #coda
i5= #coda
í5= #coda
o5= #coda
ó5= #coda
u5= #coda
ú5= #coda
h5= a5:1|á5:1|e5:1|é5:1|o5:1|ó5:1
y5=
b6= s7:1
c6= h7:1|k7:1|s7:1
d6= s7:1
f6= t8:1
g6= s7:1
h6= m7:1
j6=
k6= h7:1
l6= f7:1|l7:1|m7:1|s7:1|t7:1
m6= p7:1|s7:1
n6= d7:1|c7:1|g7:1|s7:1|t7:1|z8:1
p6= s7:1
q6= s7:1
r6= d7:1|f7:1|s7:1
s6= h8:1|s7:1|t7:1
t6= c7:1|l8:1|s7:1|t7:1|z7:1
v6= s7:1
w6= s7:1
x6=
y6= s7:1
z6= s7:1|z8:1
c7= h8:1
d7= s7:1
f7=
g7= s7:1
h7= s7:1
k7= s7:1
l7= s7:1
m7= s7:1
p7= s7:1
s7=
t7= s7:1|z8:1
z7= s7:1
h8=
l8=
t8=
z8=
Las primeras reglas, se tratan como directivas, es decir cada otra regla de producción que la contiene en la parte derecha es remplaza por la equivalencia de aquella que aparece en la izquierda (el nombre de la regla). Esto es para 3 cosas, primero claridad, luego sencillez de revisión y tercero evitar errores al transcribir 40 veces los mismos valores. El programa por tanto preprocesa (también elimina las líneas en blanco) tales entradas de directiva y las convierte en:... bueno no veo necesario ponerlo todo, baste un ejemplo, para el ataque de 'r', 's' y 't':
r1= r2:1|h2:1|a3:4|e3:4|y3:4|o3:4|u3:4|á3:1|é3:1|i3:1|í3:1|ó3:1|ú3:1|ü3:1
s1= h2:1|a3:4|e3:4|y3:4|o3:4|u3:4|á3:1|é3:1|i3:1|í3:1|ó3:1|ú3:1|ü3:1
t1= r2:1|l2:1|h2:1|a3:4|e3:4|y3:4|o3:4|u3:4|á3:1|é3:1|i3:1|í3:1|ó3:1|ú3:1|ü3:1
El texto a la izquierda es el nombre de la regla-nodo, lo que está a la derecha son cada una de las opciones que pueden seguir a ese nombre (exactamente como sucede en la descripción de las reglas de un lenguaje de programación). Es decir sus opciones son iteraciones que sustituyen al 'actual', y el tamaño del 'sustrato' (el stack.ToString), es la concatenación que se resuelve por recursión.
Cada una de esas opciones son a su vez una regla, pero se adjunta con el 'peso' que supone añadir esa regla.
Un nombre-regla, sin parte derecha equivale a un terminal.
El límite de una silaba (condición de finales de los bucles), vienen dados por unas reglas simples:
1 - La regla es en sí misma un terminal (no admite que nada más se concatene detrás, acaba la recursión).
2 - La cantidad de caracteres máximos. También limita el final de la recursión, en este caso para no incurrir en desbordamiento.
3 - Final de iteración. La cantidad de 'hijo-nodos-opciones' que tiene la regla.
4 - De peso (en este caso condicionado a mínimo: (>= que) 4)... No es una sílaba si no reúne el peso mínimo.
Esta última regla en realidad define la salida de datos, siempre que el peso sea 4 o mayor se ha obtenido una sílaba. Nota como al núcleo (a las vocales grupo3) se le ha dado un peso de 4. Esto impide que cuando se tome la una o dos consonantes del ataque lo interprete como una sílaba, es decir hasta que no sume el valor de una vocal no se garantiza que sea tomada como sílaba...
El orden de las reglas, en esa lista previa, determina el orden en que saldrán la silabas, así por ejemplo la primera sílaba que sale es 'bra', porque 'b1' es la primera regla, y la primera opción de 'b1' es 'r1' y la primera opción de 'r1' es 'a3'. Si antepusiera las vocales a las consonantes en la regla 'ataque= vocales|consonantes' , pués entonces la primera sílaba sería la 'a', pués su peso por sí sola ya suma 4.
Las últimas sílabas son:
1 ---> u3t6c7h8 7
1 ---> u3t6l8 6
1 ---> u3t6s7 6
1 ---> u3t6t7 6
1 ---> u3t6t7s7 7
1 ---> u3t6t7z8 7
1 ---> u3t6z7 6
1 ---> u3t6z7s7 7
1 ---> u3x6 5
1 ---> u3y6 5
1 ---> u3y6s7 6
1 ---> u3z6 5
1 ---> u3z6s7 6
1 ---> u3z6z8 6
Número de nodos: 101
Total de caminos: 408694
Total de Salidas: 405294
Esta es la salida en la interfaz del programa, en el volcado a fichero se guarda solo las 'silabas' (el nombre completo con sus dígitos).
Como se ve a cada sílaba le sucede un dígito, ello obedece a que ese es el nombre para la regla, por debajo hay una pila que verifica si ya consta esa regla, en el stack, si es preciso añadir dos 'z', entonces no sería posible (como en 'zuz', 'jazz'), además si la constante 'r' tiene una regla cuando es la primera letra del ataque (la regla indica que otras letras pueden seguirle), cómo distinguimos entonces la regla si la 'r' aparece en otra posición, un ejemplo de sílaba con 3 'r': 'aho
rrarse'?...
Podría, al tomar el nombre para entregarlo a la salida, ser filtrado, pero me interesa mantenerlo así, resulta más sencillo de este modo comprobar que se comporta como se espera y si no es así, hacer ajustes, después de todo filtrarlo al término del programa es bastante sencillo y asequible. Nota sin embargo que esto duplica el tamaño del fichero de salida.
El número de 'nodos' es la cantidad de reglas, una vez procesadas las directivas, es decir el tamaño del array...
La diferencia entre el número de salidas y el de nodos visitados, responde a las consonantes del ataque que por la regla del peso, no logran formar sílaba. Con cada iteración se suma un nodo visitado y con cada sílaba hallada se suma una sílaba de salida.
Te dejo enlace a un fichero para descargar, 2 txts, uno tal como sale (más el conjunto de reglas) y otro tras filtrar los dígitos (el primero es para tu análisis si merece (a ti o cualquier otro interesado) el tiempo dedicado en indagar sobre la cuestión y proponer sus propias reglas para crear su variante de reglas para su propio algoritmo:
https://workupload.com/file/HbqAsXLsrES (1'94Mb. Aprox. decomprimido son de 5'37Mb. y 3'07Mb.)
Y con esto salvo alguna duda al respecto dejo el tema zanjado.
Debe quedar claro que un diccionario de 400.000 sílabas es manejable frente a uno de millones, decenas o miles de millones, pués no es más que concatenar x sílabas... o incluso variaciones, donde (por ejemplo) se solicita intercalar 1,2 o 3 dígitos en un punto concreto (nonecesariamente al inicio o final de sílaba), o determinado carácter que se admite como contraseña pero que no es parte del alfabeto A-Z. también hay que tener en cuenta que se dan en minúsculas, una palabra como: 'orden', tiene 120 variaciones (contraseñas distintas) considerando para cada letra si es mayúscula o minúscula (1*2*3*4*5), etc... sobre otras opciones de interés. Ahí en esos detalles es donde uno puede darle juego y esmerarse en programar y no perdiendo tiempo en crear diccionarios gigantes que no aportan nada interesante, de hecho hasta cuesta a uno elegir que conjunto quiere aplicar, por que las reglas son 'el conjunto de palabras que consta en el diccionario', e inntentar filtrarlo por tus propias reglas siendo tan enormes conlleva igualmente mucho tiempo y al caso es preferible perder ese tiempo programando tus propias reglas en tu propio algoritmo.
Al final los diccionarios de tamaño medio (pongamos superiores a x Mb. solo tienen utilidad para personas que por no saber programar, tienen que conformarse con algún programa que sea capaz de cargar diferentes diccionarios, si el propio programa no dispone de reglas adecuadas que poder aplicar...