Procesamiento del Lenguaje Natural, breve introducción .

El Procesamiento del Lenguaje Natural (PLN) es un campo de la ciencia de la computación y de la linguistica que se ocupa de las interacciones entre las computadoras y el lenguaje humano. El entendimiento del lenguaje natural se refiere muchas veces como un problema IA-Completo, porque el reconocimiento parece requerir un extenso conocimiento del mundo exterior y la habilidad de manipularlo y por ello se suele considerar como un subcampo de la Inteligéncia Artificial Los algoritmos modernos de PLN estan basados especialmente en el aprendizaje estadístico automático. La investigación de los modenos algoritmos PLN requiere el entendimiento de varios campos distintos, lingüística, ciencia de la computación, estatidística, haciendo especial incapié en las estadisticas bayesianas, tambien el álgebra lineal y teoría de la optimización. Las primeras implementaciones de las tareas para el procesamiento del lenguaje implican la codificación manual de un largo numero de reglas. El paradigma del aprendizaje automático amenudo utiliza la inferencia estadística para aprender automáticamente estas reglas a través del análisis de un conjunto de documentos que han sido anotados manualmente con Los valores correctos para ser aprendidos. Estos documentos son llamados Corpus. Como ejemplo consideremos la tarea de identificar correctamente la cada palabra en una frase cualquiera, sin que esta frase halla sido analizada anteriormente. Un aprendizaje automático típico para identificar palabras procedería en dos pasos. Primero un entrenamiento, y luego un test. El entrenamiento. Para el entrenamiento se utiliza lo que se llama corpus de entrenamiento, que consiste en un gran numero de frases, todas ellas con su correspondiente solución superpuesta. Este corpus es analizado y de él se extrae un modelo, que consiste en reglas autogeneradas para identificar correctamente cada palabra en la frase correspondiente, estas reglas se basan normalmente en la naturaleza de la palabra en si, las palabras que la rodean El modelo generado tiene que cumplir a la vez estos dos sencillos principios. Tiene que cubrir lo mejor posible todas las palabras del corpus y además tiene que ser lo mas simple posible, para evitar el sobre entrenamiento y las reglas superfluas. Para el test utilizamos el modelo que hemos obtenido del paso anterior y procesamos un nuevo el corpus. Es muy importante que no se utilice el mismo corpus para el entrenamiento que para el test, puesto que los resultados del test no serían fiables al ser demasiado optimistas. Hay muchas clases de algoritmos de aprendizaje automático aplicados a procesamiento del lenguaje natural. Actualmente las investigaciones se centran principalmente en los modelos estadísticos, los cuales toman decisones relativas a los valores obtenidos experimentalemente para cada palabra a analizar. Estos modelos tienen la ventaja de que pueden discernir entre las muchas posibles respuesta, con relativa certeza de acierto, creando resultados mucho mas resistentes y confiables, cuando forma parte de un sistema mayor Ademas son muy robustos cuando los datos contienen errores, como es un caso muy frecuente en el mundo real. Esto solo ha sido una pequeñisima y muy general introducción al procesamiento del lenguaje natural, si desea saber mas continue atento a los siguientes videos. Muchas gracias por su tiempo.