1Universidad de Oriente. Patricio Lumumba s/n, Santiago de Cuba. Cuba.
2Dr. C. Prof. Titular. Universidad de Oriente. Patricio Lumumba s/n, Santiago de Cuba. Cuba.

Introducción

Lo propio del período neonatal es la adaptación que exige el paso de la vida intrauterina a la extrauterina. Son múltiples los cambios que afectan al neonato en esta etapa. “A través del tiempo, y con el desarrollo de investigaciones sobre el tema se ha venido evidenciando que el llanto puede reflejar la integridad neurofisiológica del niño” (Escobedo, 2006, p. 13). Por tanto, el llanto infantil y su análisis acústico nos lleva a: Distinguir características del llanto de niños recién nacidos vinculados a su neurodesarrollo, en relación con la dicotomía normal versus patológico, es decir, caso normal o caso con presencia de patología debido a Hipoxia, esta última como causa importante de mortalidad perinatal y morbilidad neurológica antes, durante y después del nacimiento (Escobedo, 2006, p. 14). Según lo anterior, prima la idea de la correlación del llanto con el desarrollo del niño por lo cual, a partir del llanto, se puede estimar usando un conjunto de parámetros la presencia de algún estado patológico, como, por ejemplo: la Hipoxia o alguna patología relacionada con ésta. En esto son las RNA una forma de aproximación respecto a la validez del estudio que se esté efectuando de llanto provocado ante dolor en neonatos con algún tipo de Hipoxia, lo que deriva al Objetivo General de este trabajo: Implementar una RNA supervisada Back-Propagation (BP) para clasificar el llanto en neonatos con Hipoxia a partir de parámetros acústicos. Desde hace varias décadas se viene incursionado en el tema del llanto infantil mediante equipos o grupos multidisciplinarios en la Península Escandinava, Estados Unidos, Canadá, Alemania, Italia, México y Cuba, entre otros. Estos equipos llevaron a cabo importantes estudios del llanto provocado ante estímulo de dolor de niños con Asfixia y daño cerebral, y sus características acústicas y perceptuales. Además, contribuciones de estudio de llanto usando RNA y otros algoritmos, por ejemplo, sobre la extracción de coeficientes cepstrales de frecuencia mel (MFCC) del llanto para clasificación usando redes Feed-Forward, entre otros Orozco y Reyes (2000), Orozco y Reyes (2003). Desde entonces el Grupo de Procesamiento de Voz de la Facultad de Ingeniería Eléctrica de la Universidad de Oriente de Cuba tiene un cúmulo importante de investigaciones sobre el llanto infantil con muestras de diferentes tipos de Hipoxia, usando de forma experimental y con un carácter de aproximación las RNA, entre otros algoritmos (Cano et al., 1999; Diez et al., 1999; Escobedo et al., 2015; Torres et al., 2000; Torres et al., 1999). Otras contribuciones en esta universidad sobre el estudio del llanto son una tesis de maestría Gámez de la Rosa (2013) y dos tesis de pregrado Monteagut (2017), Veranes (2018). En el marco de este trabajo estos algoritmos son comprendidos para hacer discriminaciones del llanto en neonatos, que se obtienen a partir de procedimientos relacionados con un conjunto importante de propiedades de las RNA con las que se logran distintas funcionalidades en dependencia de la complejidad del problema, tomando como referencia la experimentación, observación y modelación de conceptos relacionados con la arquitectura o topología de una RNA, la regla de aprendizaje o algoritmo de aprendizaje, las funciones de transferencia o de activación, la validación cruzada, entre otras. Todas estas propiedades contribuyen al logro de un modelo de neurona artificial que clasifica a partir de parámetros acústicos presentes y definidos en el llanto de neonatos la presencia o no de los distintitos tipos de Hipoxia, coincidiendo los resultados de este clasificador artificial con el criterio médico sobre un llanto (normal o patológico).

Marco teórico

Llanto patológico. Es una forma de comunicación que puede causar curiosidad por ser prolongado el llanto, en este fenómeno se manifiestan transiciones de cantidad y calidad del llanto, indicando que no es normal y puede deberse a daños fisiológicos en diferentes sistemas (Escobedo, 2006).

Llanto provocado ante dolor. Los parámetros extraídos del llanto de un neonato y que son usados en este trabajo son los vinculados a la inducción del llanto provocado ante dolor, donde la estimulación usada es pellizco en el calcáneo y puntura por vacunación o antibiótico Escobedo (2006), Escobedo (2018). El llanto provocado ante un estímulo de dolor, desde el punto de vista acústico, consiste en un tiempo o latencia como respuesta a un estímulo para a seguidas aparecer una total vocalización, la cual ocurre durante una simple inspiración o espiración (Wasz-Höckert, 1968). La vocalización referida constituye una Fase Espiratoria del Llanto, denominada por algunos investigadores Unidad de Llanto (Reyes et al., 2012).

Metodología

Materiales y métodos. Elementos necesarios. Con el método de selección de casos se escogen grabaciones de llanto de neonatos para entrenar y generalizar con un Perceptrón Multicapa. Las once neuronas de entrada constituyen la matriz de entrada a la RNA, son definidas a partir de parámetros acústicos para clasificar llanto y sus valores máximos están en la tabla 1, se hace uso de un total de 30 casos, 20 señales de llanto en la fase de entrenamiento (10 de casos con llanto normal y 10 de casos con llanto patológico). En la fase de generalización se usan 10 señales de llanto (5 de casos con llanto normal y 5 de casos con llanto patológico). Se generaliza también con casos virtuales Escobedo (2018), siendo el conjunto de estos casos de 10, de éstos 5 casos virtuales normales y 5 casos virtuales patológicos.

Parámetros acústicos del llanto provocado. Los parámetros acústicos cuantitativos utilizados en este trabajo se presentan a continuación Torres et al. (1999). Parámetros de duración en milisegundos: PUL: primera unidad de llanto; SUL: segunda unidad de llanto; SL: segunda latencia. Parámetros de frecuencia en Hertz (Hz) o ciclo por segundo: la Frecuencia Fundamental (F0) es la frecuencia a la cual vibran las cuerdas vocales cuando se produce un sonido. La Frecuencia del Primer Formante (F1) de un segmento sonoro, es una región de frecuencias de mayor intensidad donde se produce un reforzamiento de frecuencias que coincide con los resonadores bucales. F0min: valor mínimo de la frecuencia fundamental; F0max: valor máximo de la frecuencia fundamental; F1min: valor mínimo del primer formante; F1max: valor máximo del primer formante; VMF0: valor medio de la frecuencia fundamental; VMF1: valor medio de la frecuencia del primer formante. Por último, los Parámetros de intensidad o amplitud en decibeles: VMPul: valor medio de la primera unidad de llanto; VMSul: valor medio de la segunda unidad de llanto. Parámetros acústicos cuantitativos del llanto, valores máximos de parámetros y normalización. Estos valores máximos (divisor en la normalización) son usados para normalizar los parámetros de la matriz de entrada a la RNA con lo cual los datos tienen valores normalizados (cociente) entre cero y uno. Esto se observa en el ejemplo de la tabla 1.

Tabla 1.

Normalización de parámetros acústicos.

tabla1

Un elemento necesario es un mecanismo computacional inteligente y de utilidad que permita la clasificación del llanto en los neonatos de manera automática, uso de las RNA (algoritmo Perceptrón Multicapa) para validar la posible presencia de estado patológico o no en el recién nacido. Métodos empleados. Consecuentemente las propiedades de las RNA son contempladas como la forma de incidir en la correcta implementación de un sistema de neurona artificial, de manera que a través de la experimentación, observación y modelación se formaliza todo lo relacionado a una correcta arquitectura o topología de RNA, es decir, a la organización del conjunto de neuronas artificiales que forman el modelo. Esta organización comprende la distribución espacial de las mismas y los enlaces entre ellas, por consiguiente, la cantidad de neuronas artificiales presentes en la capa de entrada y el número de capas ocultas contemplando el número de neuronas artificiales en ellas donde se realiza el computo, va a definir el buen diseño de la arquitectura de red; por ende, la envergadura del problema a resolver define la arquitectura de red que se necesita.

Debe evitarse la aparición de sobreajuste o sobre entrenamiento lo cual degrada considerablemente la capacidad de generalización de la RNA. Otros aspectos claves son las funciones de activación o transferencia de datos que propician el flujo de la información entre las capas del modelo en dependencia del intervalo de acotación con que opera cada función, que de conjunto con el algoritmo o regla de aprendizaje propicia que la RNA sea entrenada correctamente, y con ello se pueda generalizar. Un aspecto clave es la evaluación del aprendizaje de la red lo que precisa de técnicas de validación cruzada (cross validation), es decir, entrenando y validando a la red simultáneamente para detectar un punto óptimo de aprendizaje. Los procesos de validación cruzada son ampliamente utilizados en el desarrollo de redes supervisadas como por ejemplo en la red Perceptrón Multicapas Del Brio y Sanz (2006), Simpson (1996), Matich (2001), Moody y Utans (1994), Moody (1991), Freeman y Skapura (1991), Golub et al. (1979), Kohavi (1995).

Otras propiedades a considerar son el error cuadrático medio y el número de iteraciones, las cuales indican cuando detener el entrenamiento de la red para evitar un sobre aprendizaje y una incorrecta generalización de la misma, que conlleva a una memorización de patrones durante la etapa de aprendizaje y no proporciona una respuesta correcta ante individuos no presentados en la etapa de entrenamiento Del Brio y Sanz (2006), Moody y Utans (1994). Por último, las particularidades referidas a valores mínimos y máximos, acotar en el intervalo entre menos uno y uno, dividir en muestras representativas, definir el entrenamiento de la red de forma aleatoria, definir el entrenamiento de la red en un mismo orden de entrada (ascendente), que establecen conexiones con la validación cruzada y con ellas se logran distintos resultados en el entrenamiento. En resumen, hay que optimizar el mayor número de configuraciones posibles con estas propiedades para obtener los resultados esperados. Connotación de las RNA por sus particularidades. Por su importancia la generalización es vital y se precisa que exista una convergencia adecuada entre, por ejemplo, el criterio médico sobre cada caso en particular y las salidas que aporta la red cuando se generaliza con ella, debe de haber un número de aciertos de la red que confluya a las salidas deseadas target, que no es más que un resultado en correspondencia con el criterio médico. Referirse a salidas deseadas enmarca que el tipo de RNA tiene la cualidad de ser una red supervisada Del Brio y Sanz (2006). Algoritmos supervisados o predictivos, predicen un dato o conjunto de ellos desconocido a priori, a partir de otros conocidos Del Brio y Sanz (2006), Simpson (1996), Matich (2001), Moody y Utans (1994). Perceptrón multicapas. El perceptrón multicapas es un algoritmo matemático de clasificación, de representación de funciones booleanas. Potencia la resolución de problemas prácticos y complejos; se compone de alguna regla de aprendizaje en el modelo que comprueba automáticamente los pesos sinápticos que clasifican un conjunto de patrones a partir de un conjunto de ejemplos deseados (target). Con tres capas, una oculta, es posible que se obtenga un buen diseño de arquitectura de red, debido a que es capaz de representar complejos mappings y abordar problemas de clasificación de gran envergadura, aproxima hasta el nivel deseado cualquier función continua en un intervalo Del Brio y Sanz (2006). Ante todo, el perceptrón multicapas con cuatro capas, dos ocultas, tiene un único límite, el número de nodos (neuronas) empleados, con este diseño en ocasiones se obtienen resultados de generalización más eficientes Del Brio y Sanz (2006).

Algoritmo del perceptrón multicapas. Posee arquitectura neuronal de tipo multicapa, el flujo de datos de la RNA es unidireccional (feed-forward), la información circula en un único sentido, desde las neuronas de entrada hacia las de salida y con un aprendizaje supervisado. Su regla de aprendizaje es Back-Propagation (retropropagación) o BP, o algunas de sus variantes derivadas del BP, como el algoritmo Levenberg- Marquardt o Gavin H.P (2013), Ananth (2004), Wilamowski y Yu (2010).

En este trabajo se implementa el Perceptrón Multicapas, con el uso respectivamente del algoritmo de aprendizaje LM y la función de activación tangente sigmoidal (tansig(n)) cuyo intervalo de acotación [-1; 1] da un margen de recorrido amplio para alcanzarse un punto óptimo de aprendizaje. La topología para esta investigación queda definida como (11-10-1) once neuronas de entrada, diez neuronas ocultas y una neurona de salida binaria.

Resultados y discusión

Utilizando la metodología descrita, con la configuración establecida se clasifica en este trabajo señales de llanto (normal-patológico) de recién nacidos. La topología y funcionalidades de la RNA supervisada BP que se establece clasifica el llanto provocado ante dolor en neonatos con Hipoxia a partir de parámetros acústicos de ese llanto. En este trabajo se obtiene un resultado cualitativamente superior a diferencia del de Torres et al. (1999) donde no se logra una optimización de las funcionalidades de la fase de entrenamiento, la contribución de Torres precede a esta investigación. En cambio, la presente investigación perfeccionó las configuraciones de las particularidades de estos modelos, el uso de la función de activación tangente sigmoidal contribuyó a la generalización correcta de la RNA pues cuenta con un intervalo más amplio que la función usada en el trabajo de Torres et al. (1999). En la contribución que se presenta se obtiene el punto óptimo de aprendizaje gracias a la parada temprana ya que es usada la validación cruzada. La regla de aprendizaje de este trabajo LM converge más rápidamente a la solución, además fueron formalizadas las demás propiedades expuestas en este trabajo. En cuanto al número de casos a estudiar, en el trabajo actual se usan 30 señales acústicas de llanto de neonatos para toda la experimentación, además de casos virtuales, y en Torres et al. (1999) solo se utilizan 17 casos.

Hay que resaltar que el clasificador obtenido se valida con pruebas diagnósticas, por consiguiente, de un conjunto de pruebas realizadas una dio el mejor porciento de clasificación (normal-patológico). La RNA generaliza con una sensibilidad (casos identificados en la prueba que son verdaderos patológicos) de 80 %, la especificidad (casos identificados en la prueba que son verdaderos normales) de 100 %, porcientos en un orden satisfactorios, es decir, la red ha generalizado correctamente. Con una precisión (porciento de todos los resultados correctos en las pruebas) de 90%, significa que se está en condiciones de enriquecer este clasificador con la implementación de un software con interacción con base de datos de llantos de neonatos con Hipoxia. Es importante indicar que la calidad de las salidas del clasificador es evaluada también con intervalos de clasificación, entre éstos el Índice de Anormalidad (IANOR) Escobedo (2006), en el cual si la salida binaria de la red es mayor o igual a cero y menor o igual a 0.20 el caso es normal y si el valor de dicha salida binaria de la red es mayor o igual a 0.21 y menor o igual a 1, el caso es patológico.

Conclusiones

El proceso de clasificación del llanto en neonatos revela las potencialidades de estos algoritmos, manifiesta que las RNA son modelos computacionales que se basan en el aprendizaje a través de la experiencia, con la consiguiente extracción del conocimiento a partir de la misma. Desde estas reflexiones podemos contemplar el uso de estos modelos matemáticos con la pretensión de apoyar a los médicos, teniendo en cuenta que las salidas de la red son prácticamente coincidentes con el criterio médico emitido sobre cada caso se sustenta la idea de contribuir al desarrollo futuro de una herramienta computacional a estos efectos o dispositivos de ayuda.