Tip:
Highlight text to annotate it
X
Hola. Maria Antònia Martí nos va hablar de semántica y pragmática como niveles de
análisis del lenguaje. Esta lección la ha realizado conjuntamente con Mariona Taulé
y ambas son doctoras de la Universitat de Barcelona.
Semántica y Pragmática son dos disciplinas de la lingüística estrechamente relacionadas.
Ambas tienen en común el estudio del significado. La Semántica se circunscribe al estudio del
significado de las palabras y de las oraciones contenidas en los enunciados orales o escritos
producidos por los hablantes. Para la semántica, la oración es la unidad máxima del análisis.
El objetivo de la Pragmática es el estudio del uso del lenguaje, teniendo en cuenta tanto
el contexto lingüístico como el contexto extralingüístico. Se trata por lo tanto
del estudio del lenguaje en el marco de la comunicación humana.
¿Qué otras disciplinas tienen también como objetivo el estudio del significado además
de la lingüística? Dentro de la psicología, la psicolingüística
tiene como objetivo el estudio experimental de cómo los significados se representan en
la mente y qué procesos mentales tienen lugar en la producción y comprensión de los mensajes.
La neurolingüística se interesa por el modo en que los procesos de comprensión y producción
están implementados a nivel neuronal y la localización en el mapa cerebral de la actividad
lingüística. Por otra parte, el significado es un componente
indispensable en cualquier sistema de signos, como son el código de circulación, la iconografía,
etc. y, por lo tanto, es también objeto de estudio de la semiótica o ciencia general
de los signos. ¿Qué incluye el análisis semántico del
lenguaje? Dentro del análisis semántico del lenguaje
distinguiremos la semántica léxica o semántica de las palabras tomadas individualmente y
la semántica oracional que estudia cómo se combinan las palabras para formar significados
complejos. La Semántica léxica estudia el significado
de las palabras, que en su conjunto constituyen el vocabulario de una lengua. Corresponde,
en gran medida, al contenido de los diccionarios. El vocabulario de una lengua incluye dos grandes
grupos de palabras: El grupo correspondiente a las denominadas
categorías cerradas (preposiciones, conjunciones, determinantes, pronombres) cuyo significado
es fundamentalmente gramatical, es decir, que permiten establecer relaciones entre otras
palabras o bien expresan contenido gramatical como el género, el número, la definitud,
la relación con el hablante, etc. Este grupo de palabras se caracteriza por su estabilidad
i fijeza a través del tiempo. En lingüística Computacional constituyen el núcleo fundamental
de las llamadas 'stopwords', que suelen tratarse como una lista cerrada.
El grupo correspondiente a las denominadas categorías abiertas: nombres, verbos, adjetivos
y adverbios. Estas palabras se caracterizan por tener un significado referencial, objeto
fundamental de las definiciones de los diccionarios. En Lingüística Computacional el reconocimiento
de estas palabras, paso previo a la interpretación semántica, se realiza mediante analizadores
morfológicos o algoritmos de 'stemming', dependiendo de la mayor o menor complejidad
morfológica de la lengua en cuestión. El objeto de estudio de la semántica léxica
es, fundamentalmente, las clases abiertas. El signo lingüístico, unidad básica del
lenguaje, consiste en la asociación entre una 'forma fónica' (una palabra, una construcción...)
y su representación conceptual, que se denomina 'sentido' o 'intensión'. El 'referente' o
'extensión' es el conjunto de objetos y situaciones del mundo a los que podemos referirnos mediante
el signo. Tanto en teoría semántica como en semántica
computacional un tema fundamental es como se representa o formaliza el sentido de las
palabras. La representación o formalización del significado léxico es un tema común
y compartido entre la lexicografía, la semántica lingüística y la semántica computacional:
los diccionarios en soporte electrónico, los léxicos derivados de las diferentes teorías
gramaticales y los recursos léxicos desarrollados en semántica computacional son utilizados
como fuente de información y como modelo de representación en todas estas disciplinas.
El contenido léxico es tan extenso y complejo que necesariamente se reutilizan los materiales
existentes desarrollados desde diferentes ámbitos de conocimiento.
Un ejemplo representativo lo tenemos en la DBpedia, una red de redes semánticas interconectadas
mediante una ontología común. El léxico es un componente imprescindible
en cualquier sistema de Procesamiento del lenguaje. Aquí nos ceñiremos a tratar exclusivamente
el contenido semántico del léxico. El sistema de representación más común
campo semántico al que pertenecen. Además de la definición, en los diccionarios se
en soporte electrónico. Las definiciones constituyen una manera sistemática de representar
el significado de las palabras. Siguen unas pautas preestablecidas que garantizan su comprensión.
Así, las definiciones nominales suelen empezar con el término genérico o hiperónimo de
las palabras que se definen. Los adjetivos se definen generalmente, mediante sinónimos,
y los verbos mediante sinónimos o bien hiperónimos. En el caso de partido,
La definición 1 tiene como genérico su sinónimo, 'dividido'
La 2, organización La 3, Provecho
La 4, Territorio La 5, Competición
Como se puede observar, el término genérico clasifica los diferentes sentidos según el
campo semántico al que pertenecen. Además de la definición, en los diccionarios se
suele incluir para cada sentido, sus sinónimos y ejemplos de uso.
Un paso más en la formalización del significado léxico lo tenemos en las redes semánticas,
como WordNet (véase la presentación de Antoni Oliver). En este caso los sentidos se representan
mediante las relaciones de sinonimia, hiperonimia, hiponimia, meronimia, etc.
Finalmente, desde la semántica teórica y computacional tenemos una gran variedad de
propuestas para la representación del significado léxico, siendo las estructuras de rasgos
el tipo de formalización más extendido. Las estructuras de rasgos se basan en la idea
de que el significado de las palabras se puede analizar y descomponer en primitivas (o átomos
de significado): Como hemos podido observar en el ejemplo de
'partido', las palabras pueden tener más de un sentido. Una palabra es monosémica
cuando tiene un único sentido (es el caso de 'cronómetro'), y polisémica cuando tiene
dos o más sentidos que guardan una relación entre sí, como es el caso de 'sierra':
En teoría SEMÁNTICA la relación entre forma (fónica o gráfica) y significado léxico
presenta una casuística que debe ser tenida en cuenta.
Son homónimas aquellas formas que tienen la misma categoría y forma gráfica (y fónica)
pero cuyos significados no tienen ningún tipo de relación, como vemos en el ejemplo
No se acuerda de ti Lo cree a pies juntillas
diferentes pero relacionados etimológicamente, es decir con un origen común.
Son homógrafas aquellas formas que coinciden casualmente en la forma gráfica pero que
no tienen la misma categoría y cuyo significado es totalmente distinto. Es el caso de 'sobre'
preposición y 'sobre' sustantivo masculino. Formas homófonas son aquellas que presentan
una misma forma fónica y diferente forma gráfica y significado. Es el caso de 'haya'
del verbo 'haber' y 'aya', sustantivo femenino. Unidades en lexicografía: Un problema básico
de la semántica léxica es la delimitación sintagmática de sus unidades. Veamos unos
ejemplos: Juan ha llegado tarde
No se acuerda de ti Lo cree a pies juntillas
El clamor popular lo catapultó a la fama 'ha llegado' es una forma compuesta del verbo
llegar y debería considerarse como una única unidad. 'Acordarse_de' tiene un sentido totalmente
diferente de 'acordar', lo que nos permite concluir que 'acordarse_de' constituye una
única unidad léxica. El significado de 'a pies juntillas' no es compositivo y va asociado
a la expresión en su conjunto. Finalmente, 'clamor popular' si bien se puede interpretar
de manera compositiva, es decir, el significado del conjunto es la suma del significado de
las partes, la frecuencia de coaparición es alta lo que es indicio de su proceso de
lexicalización, es decir, de constituirse como una única unidad.
La mayoría de los ejemplos que acabamos de ver corresponden a lo que en LC Y EN PLN se
denominan expresiones o unidades multipalabra (Multi Word Expressions, MWE). La importancia
de su detección e interpretación automática queda demostrada por el creciente número
de workshops y grupos de discusión para su tratamiento:
Actualmente, la mayoría de sistemas de PLN resuelve estas expresiones tratándolas en
una lista con la información idiosincrática asociada a cada una de ellas. Dada la gran
cantidad y variedad de expresiones multipalabra de una lengua, se están realizando esfuerzos
en su detección o extracción automática. A pesar de todo, de momento, su tratamiento
requiere un componente importante de trabajo manual.