LENGUA ESPAÑOLA BLOG 3
NOMBRE: LUIS FELIPE RIVERA F. MATRICULA: 21-MISN-2-006 CARREA: ING EN SISTEMA Y COMPUTACION
Aun Así, los sonidos y son fonemas del español porque existen palabras como /pata/ y /bata/ que tienen significado distinto y su pronunciación solo difiere en relación con esos dos sonidos .
El morfema gramatical, que tiene menos carga semántica, aparece siempre asociado al lexema, con más carga semántica.
Raíz + Sufijo = Palabra
LA PALABRA Y SU ESTRUCTURA
MONEMAS: Los monemas es uan seccuencia o unidad unica que es formada por los fonemas que lo cual provoca cambios de significado sistemático y regular allí donde se añade o aplica. Por ejemplo, la palabra "ala" está formada por un solo monema; sin embargo, la palabra "alón" esta formada por dos monemas, el primer monema "ala", seguido del monema "-ón".
Hay dos tipos de monemas según la autonomía y la capacidad de ser interpretados semánticamente
Lexemas.- Los monemas de significado léxico concreto y autónomo, que constituyen una base invariable de las palabras sobre la que actúan o se añaden el resto de monemas. Generalmente están formados por una secuencia contigua de fonemas . Por ejemplo: Leon-as. Los lexemas forman parte de las palabras que aportan el concepto al mensaje: sustantivos, adjetivos, verbos, adverbios y pronombres.Morfemas.
Lexemas.- Los monemas de significado léxico concreto y autónomo, que constituyen una base invariable de las palabras sobre la que actúan o se añaden el resto de monemas. Generalmente están formados por una secuencia contigua de fonemas . Por ejemplo: Leon-as. Los lexemas forman parte de las palabras que aportan el concepto al mensaje: sustantivos, adjetivos, verbos, adverbios y pronombres.Morfemas.
los morfemas independientes no necesitan unirse a otro lexema para tener significado, estos son los determinantes, preposiciones, conjunciones, pronombres e interjecciones. Los morfemas dependientes necesitan unirse a un lexema para tener significado, y a su vez hay dos tipos. Estas partículas aparecen cuando la suma del lexema y el sufijo produce un efecto malsonante pec-ec-ito en lugar de pec-ito.
FONEMAS: Los fonemas son la articulación mínima de un sonido vocálico y consonántico. Es decir, un fonema es cada una de las unidades segmentales postuladas para un sistema fonológico que dé cuenta de los sonidos de una lengua. Sin embargo, es difícil encontrar lenguas que usen simultáneamente todos estos puntos de articulación. Respecto al modo de articulación se tienen oclusivas, fricativas, africadas y aproximantes.
Los fonemas no son sonidos con entidad física, sino abstracciones mentales o abstracciones formales de los sonidos del habla. En este sentido, un fonema puede ser representado por una familia o clase de equivalencia de sonidos , que los hablantes asocian a un sonido específico durante la producción o la percepción del habla.
MORFEMAS: Un morfema es un fragmento mínimo capaz de expresar un significado, y que o bien coincide con un lexema, o bien unido a uno modifica su definición. En muchas lenguas los morfemas generalmente están constituidos por una secuencia de fonemas, aunque en otras lenguas algunos elementos fonéticos suprasegmentales como el tono, el acento o la nasalidad pueden constituir una diferencia fonética que realiza un fonema, en esos casos los morfemas no son un fragmento separable de la palabra. Tradicionalmente, se ha señalado que el «morfema es la unidad más pequeña con significado de la lengua» aunque dicha definición no es demasiado útil porque no aclara qué debe entenderse por significado, ni establece qué es una unidad relevante. En las lenguas flexivas los morfemas constituyen la parte variable de la palabra.
El morfema gramatical, que tiene menos carga semántica, aparece siempre asociado al lexema, con más carga semántica.
CLASIFICACION DE MORFEMAS
Este tipo de morfemas permiten la inserción entre él y el lexema de otros morfemas y palabras, no provocan ciertos cambios fonéticos, evidenciando la presencia de una barrera para dichos cambios, etc. En español, estos morfemas independientes o clíticos están formados por elementos como los determinantes, las preposiciones y las conjunciones. Añaden matices al significado del lexema. Estos matices y significados derivados son sistemáticamente relacionables a partir del significado del lexema si se compara el mismo morfema actuando en diferentes campos semánticos. Generalmente estos morfemas están más cerca de la raíz que los morfemas flexivos.
No comportan un cambio de significado referencial básico, y generalmente se interponen entre ellos y el lexema básico otros morfemas de tipo derivativo. En español, por ejemplo, este tipo de morfemas son los encargados de marcar en el nombre y el adjetivo el género y número y en el verbo indican tiempo gramatical, modo, persona, número, etc...
No comportan un cambio de significado referencial básico, y generalmente se interponen entre ellos y el lexema básico otros morfemas de tipo derivativo. En español, por ejemplo, este tipo de morfemas son los encargados de marcar en el nombre y el adjetivo el género y número y en el verbo indican tiempo gramatical, modo, persona, número, etc...
Los métodos para la formación de nuevas palabras.
Hay tres procedimientos o mecanismospara formar palabras nuevas:
La derivación: es la manera de formar palabras nuevas que consiste en añadir un afijo a un lexema (frutero, inútil, carnicería...).
La composición: es la manera de formar palabras nuevas que consiste en la unión de dos lexemas (cortauñas...).
Parasíntesis:
a) Tipo de derivación que consiste en formar un derivado añadiendo al mismo tiempo un prefijo y un sufijo.
En/triste/cer
b) Una palabra parasintética es también la formación de una palabra compuesta y derivada al mismo tiempo.
Quince/añ/ero
Centro/camp/ista
La derivación: es la manera de formar palabras nuevas que consiste en añadir un afijo a un lexema (frutero, inútil, carnicería...).
La composición: es la manera de formar palabras nuevas que consiste en la unión de dos lexemas (cortauñas...).
Parasíntesis:
a) Tipo de derivación que consiste en formar un derivado añadiendo al mismo tiempo un prefijo y un sufijo.
En/triste/cer
b) Una palabra parasintética es también la formación de una palabra compuesta y derivada al mismo tiempo.
Quince/añ/ero
Centro/camp/ista
Los monemas
-Palabra compuesta = lexema + lexema
-Palabra derivada = lexema + morfema derivativo
-Palabra derivada = lexema + morfema derivativo
La derivación
Hay tres tipos de derivación:
1. La prefijación: es el tipo de derivación que consiste en añadir un prefijo al lexema.
2. La sufijación: es el tipo de derivación que consiste en añadir un sufijo a un lexema.
3. La parasíntesis: es el tipo de derivación que consiste en añadir un prefijo y un sufijo al mismo tiempo.
1. La prefijación: es el tipo de derivación que consiste en añadir un prefijo al lexema.
2. La sufijación: es el tipo de derivación que consiste en añadir un sufijo a un lexema.
3. La parasíntesis: es el tipo de derivación que consiste en añadir un prefijo y un sufijo al mismo tiempo.
¡ RECUERDA!
-Los prefijos y los sufijos son morfemas derivativos (afijos) y que por tanto tienen significado.
La composición
Nombre + NombreLos lexemas que forman una palabra compuesta pueden ser la misma categoria gramatical o de diferentes categorias.
Punta=N Pie=N
Puntapié (N+N)
Adjetivo + Adjetivo
Agrio=A Dulce=A
Agridulce (A+A)
Nombre + Adjetivo
Pelo=N Rojo=A
Pelirrojo (N+A)
Verbo + Nombre
Parar=V Caída=N
Paracaídas (V+N)
Algunas palabras compuestas tienen un sentido literal y en canvio otras palabras compuestas tienen un sentido figurado.
familias de palabras raíces griegas y latinas
RAICES GRIEGAS Y LATINAS
Las raíces son una parte históricamente irreducible de una alabra de la cual proceden otras voces.
Las raíces son una parte históricamente irreducible de una alabra de la cual proceden otras voces.
Raíz + Sufijo = Palabra
Si nos fijamos en la palabra peticiones -ure, tiene sentido, ya que la eliminación de sus hojas sufijo la misma raíz que en ruegos -e. Por lo tanto, la palabra celda en inglés es realmente la cella latina , de la cual hemos eliminado el sufijo a.
Sufijos
Cuando se agrega a una forma de combinación, forma una palabra completa y determinará si la palabra es un sustantivo, adjetivo, verbo o adverbio.
La adquisición de la información léxica necesaria para popular lexicones computacionales plantea serios problemas, tanto en lo que se refiere a la efectividad de los diferentes métodos que se han empleado como a la inversión de tiempo, dinero y recursos humanos y computacionales que estos métodos requieren.
Se puede considerar que existen tres métodos o fuentes principales para la adquisición de conocimiento léxico: adquisición manual de información léxica diccionarios en formato magnético los córpora textuales informatizados
Debemos advertir, sin embargo, que la adquisición de conocimiento léxico es un área de estudio vasta en sí misma, y nuestro interés en este trabajo de investigación se centra en los aspectos de diseño e implementación de lexicones computacionales, así como en lo que concierne a la representación de la información léxica. Como hemos dicho antes, la tarea de adquirir información léxica para popular un lexicón computacional es enorme, y por ello ha existido tradicionalmente un gran interés en el estudio de las posibilidades de construcción automática de bases de datos a partir de una o varias fuentes en formato magnético, tales como los diccionarios electrónicos , o los córpora textuales informatizados. Aunque en principio las fuentes electrónicas pueden aportar una gran cantidad de información lingüística muy valiosa, que puede servir como punto de partida para la creación de una base de datos léxica , en la práctica es difícil aprovechar toda la información que esas fuentes electrónicas contienen. Los diccionarios en formato electrónico, por ejemplo, parecen particularmente apropiados como base para la construcción de lexicones automáticos9, ya que la información que en ellos se encuentra está estructurada en cada una de las entradas, y parece posible extraer cierta información con bastante facilidad.
Sin embargo, después de muchos años de investigación y de multitud de proyectos dedicados a ello, los resultados obtenidos en la adquisición de información léxica a partir de MRDs están lejos de ser satisfactorios. El problema fundamental es que los diccionarios están diseñados por humanos para ser usados por humanos. Los lexicógrafos, a la hora de compilar un diccionario, explotan el conocimiento lingüístico de sus usuarios potenciales, de modo que las entradas de un diccionario contienen sólo la información necesaria para que un hablante de una lengua sea capaz de conectarla con su conocimiento lingüístico general. Incluso los diccionarios diseñados especialmente para los estudiantes de una lengua tienen en cuenta las propiedades generales del lenguaje, aunque contengan información mucho más detallada que cualquier otro tipo de diccionario.
Esto provoca que la mayoría de ellos sean inconsistentes e incompletos , y que, por ejemplo, palabras que tienen un comportamiento similar no reciban un tratamiento homogéneo en los diccionarios, ya sea por falta de tiempo, por haber sido compiladas por diferentes lexicógrafos, o simplemente por que el lexicógrafo no fue capaz de reconocer las similitudes10. Han sido numerosos los proyectos orientados a la extracción de información de versiones electrónicas de diccionarios impresos en papel. Si atendemos a la cantidad de bibliografía que se puede encontrar relativa a este tema, puede parecer a primera vista que un gran número de diccionarios han sido usados con este propósito, aunque en realidad no es así, puesto que casi todos los proyectos en este área se han centrado en un número reducido de diccionarios, bien por problemas con los derechos de publicación o bien por la falta de las cintas magnéticas correspondientes a las versiones publicadas en papel. Las diferencias que se puede apreciar en las entradas léxicas de estos diccionarios han sido ya analizadas en diversas publicaciones , por lo que no nos detendremos a hacerlo aquí.
Esta distinción es muy relevante, ya que los «datos» constituyen una fuente de información «explícita» que se pensaba que podía ser extraída con facilidad, y de hecho la mayoría de los proyectos iniciales estaban orientados a obtener información de la parte de las entradas que contenía los datos léxicos. En estos proyectos no se hacía uso del potencial de información que la «estructura» de una entrada léxica también ofrece. Posteriormente, algunos investigadores observaron que hay muchos aspectos en la estructura de las entradas que contienen, de forma «implícita», información que puede ser muy relevante, ya que los códigos que controlan el formato de la entrada, así como los diferentes tipos de letra y otros caracteres especiales son siempre significativos a la hora de leer una entrada en un diccionario. Un lector humano se acostumbra a ellos con rapidez y es capaz de darles el significado que tienen, aunque este significado esté implícito en la forma en la que la información aparece.
En este sentido, algunos proyectos orientados a la extracción de información de MRDs han intentado dar cuenta tanto de la información explícita en las entradas como de la implícita, aunque esto último es bastante más complejo de lo que a priori puede parecer. Los primeros trabajos realizados con los diccionarios electrónicos se dedicaron a estudiar frecuencias de palabras en las definiciones, una tarea muy costosa en términos computacionales, sobre todo si tenemos en cuenta los recursos informáticos de la época. Algunas de estas circularidades mantienen una distancia semántica reducida, como por ejemplo las definiciones mutuas de «good» y «excellent», y son por tanto fáciles de observar y asimilar por un lector humano, pero son muy difíciles de localizar a nivel formal y esto puede dificultar enormemente la labor de extracción de información de las definiciones, sobre todo si se aplican nociones empíricas de derivación circular. A partir de la segunda mitad de los años ochenta se puede apreciar un cambio en las investigaciones relacionadas con los diccionarios en formato magnético, cambio que vino precedido por la sucesiva publicación de diccionarios especializados para estudiantes de inglés.
La estructura de estos diccionarios parecía a priori muy adecuada para su uso en NLP, ya que cuentan con una formalización interna mucho mayor que otros diccionarios y son mucho más explícitos en lo que se refiere a las características sintácticas, morfológicas y semánticas de cada una de las entradas. De entre estos diccionarios, los que han recibido una mayor atención han sido, sin lugar a dudas, los diccionarios LDOCE y COBUILD y en menor medida el OALD. La versión magnética del LDOCE contiene 41.000 entradas, con información adicional a la que se encuentra en la edición en papel. Uno de los problemas más serios que ha planteado el uso del LDOCE es que los códigos, en algunos casos, mezclan información sintáctica y semántica, mientras que en otros sólo ofrecen información sintáctica superficial y en otros casos estos códigos han sido modificados por el lexicógrafo para hacer que el aspecto visual de la entrada sea más claro o más compacto.
Es necesario analizar los códigos con rutinas informáticas muy complejas para poder separar la información semántica de la sintáctica y aun así los procesos que se han desarrollado hasta la fecha no han alcanzado resultados demasiado satisfactorios, incluso en aquellos casos en los que las rutinas automatizadas se han combinado con procesos manuales. Hemos nombrado ya algunos de los problemas y desventajas que los MRDs plantean, en cuanto a la falta de consistencia e inexactitud de la información que contienen , pero aún nos parece más importante la falta de aquella información detallada que no aparece en ningún diccionario y que un lexicón diseñado para un sistema de NLP necesita, por no mencionar aquellas unidades léxicas que, por falta de espacio o por motivos editoriales, no aparecen en el diccionario. No nos parece apropiado detenernos aquí a hacer un repaso exhaustivo de los numerosos proyectos llevados a cabo para la extracción de información de MRDs, puesto que nuestra intención inicial era sólo destacar los inconvenientes y las ventajas que éstos ofrecen en cuanto a la adquisición de conocimiento léxico, por lo que, para ofrecer una visión equilibrada de las investigaciones llevadas a cabo con MRDs, debemos también nombrar algunas iniciativas en las que el uso de diccionarios electrónicos ha dado resultados positivos. Por otro lado, el proyecto Acquilex también ha ofrecido resultados bastante satisfactorios en cuanto a la construcción de redes semánticas extraídas de diccionarios.
Cada una de estas teorías puede representar información similar de manera muy diferente o puede incluso trazar una línea divisoria diferente entre la información que ha de aparecer en el lexicón y la información que debe aparecer en otros componentes del sistema. Otra de las razones que se han esgrimido en contra del uso de diccionarios electrónicos para la adquisición de conocimiento léxico es el hecho bien conocido y estudiado de que, mientras que el lenguaje es un objeto dinámico que evoluciona constantemente, los diccionarios son, por definición, objetos estáticos. Éste, junto con alguno de los problemas que ya hemos señalado anteriormente, ha provocado que en los últimos diez años se haya considerado en algunos proyectos de enorme magnitud la entrada manual de datos como el método más económico y seguro de adquisición de conocimiento léxico, aunque consideraciones de este tipo también han llevado a contemplar los córpora textuales informatizados como fuentes potenciales para la adquisición de información léxica actualizada. Esta tendencia a considerar los córpora textuales como fuentes de información léxica en sistemas de NLP es consecuencia del reciente resurgimiento de la aplicación de métodos empíricos y estadísticos al análisis lingüístico, que ha desarrollado una corriente propia en el ámbito de la lexicografía comercial que se conoce como Lexicografía de Corpus.
Las crecientes posibilidades de obtener y almacenar enormes cantidades de texto informatizado han hecho posible que algunas editoriales hayan usado intensivamente los córpora textuales en el proceso de compilación de sus diccionarios, tanto en la creación de las entradas léxicas del diccionario como en la división de significados de las entradas, la selección de los ejemplos de uso o la información gramatical y colocacional que se incluye en las entradas. La mayoría de los experimentos llevados a cabo para la adquisición de información léxica a través de córpora se hallan aún en fase experimental, por lo que quizás sea aún pronto para extraer conclusiones definitivas sobre su utilidad17. Aunque ésta es un área en la que se está avanzando con gran rapidez, parece claro que queda aún un largo camino por recorrer, ya que la información que se puede obtener hoy día de los córpora a través de análisis cuantitativos representa sólo una parte de la que un lexicón computacional requiere, y la extracción automática de información es aún muy costosa en lo que respecta a recursos computacionales y humanos. Tal y como ya señalamos en referencia al uso de diccionarios en formato electrónico, la extracción automática de información léxica de un corpus textual informatizado requiere de antemano la capacidad de analizar automáticamente el texto de diversas maneras, para lo que se necesita un sistema de procesamiento de lenguaje natural con unas capacidades de comprensión lingüística muy sofisticadas.
Nuestra línea de investigación también apunta en esta dirección, ya que estamos convencidos de que los córpora pueden ofrecer información léxica muy relevante, sobre todo en aspectos relativos a los hábitos colocacionales de las unidades léxicas o sus propiedades combinatorias, y son una herramienta de gran utilidad para la extracción de ejemplos reales de uso, así como en el enriquecimiento y refinamiento de la información ya contenida en un lexicón computacional . En su trabajo, ellos explican el proceso mediante el que se obtienen representaciones semánticas de un gran número de palabras extrayéndolas de cálculos estadísticos de co-ocurrencia léxica, aumentando y reubicando los elementos del lexicón, y haciéndolo más apropiado para otras tareas específicas a un dominio determinado , como por ejemplo la recuperación de información . 2, a la vez que una combinación de adquisición de información léxica vertida a mano en un lexicón con conocimiento sobre uso derivado estadísticamente de corpus textual. En conclusión, hemos visto en este apartado que las fuentes electrónicas están lejos aún de ofrecer la información léxica detallada que un lexicón computacional requiere y que, en la mayoría de los casos, el esfuerzo y dinero que se debería invertir para extraer de ellos una cantidad mínima de tal información puede ser bastante mayor a la que supondría la populación manual de un lexicón computacional.
Por ejemplo el proyecto Cyc , que está aún en fase inicial, está orientado a la construcción de una base de conocimiento que contenga el conocimiento humano necesario para hacer inferencias, por lo que sus investigadores están vertiendo manualmente lo que ellos consideran que conforma la información morfológica, sintáctica, semántica y pragmática que los hablantes asociamos con una palabra.
NOTAS
De hecho, los primeros intentos de usar diccionarios electrónicos en el proceso de construcción de bases de conocimiento léxico se remontan a finales de los años 60. También podríamos detenernos a considerar las importantes diferencias que se observan si consultamos la misma entrada léxica en varios diccionarios, no sólo en cuanto a la división de los significados de una palabra, sino también en cuanto a su comportamiento sintáctico, colocacional, etc. Esta diferencia se hace mayor si la información contenida en las entradas se compara con la que se podría extraer de las ocurrencias de esa palabra en un corpus textual informatizado. Por ejemplo, se tardó casi un año en comprobar y corregir la cinta magnética que contenía el OALD ya que un elevado número de errores fueron introducidos en el proceso de teclear en el ordenador la información contenida en el diccionario en papel.
Se puede considerar que existen tres métodos o fuentes principales para la adquisición de conocimiento léxico: adquisición manual de información léxica diccionarios en formato magnético los córpora textuales informatizados
Debemos advertir, sin embargo, que la adquisición de conocimiento léxico es un área de estudio vasta en sí misma, y nuestro interés en este trabajo de investigación se centra en los aspectos de diseño e implementación de lexicones computacionales, así como en lo que concierne a la representación de la información léxica. Como hemos dicho antes, la tarea de adquirir información léxica para popular un lexicón computacional es enorme, y por ello ha existido tradicionalmente un gran interés en el estudio de las posibilidades de construcción automática de bases de datos a partir de una o varias fuentes en formato magnético, tales como los diccionarios electrónicos , o los córpora textuales informatizados. Aunque en principio las fuentes electrónicas pueden aportar una gran cantidad de información lingüística muy valiosa, que puede servir como punto de partida para la creación de una base de datos léxica , en la práctica es difícil aprovechar toda la información que esas fuentes electrónicas contienen. Los diccionarios en formato electrónico, por ejemplo, parecen particularmente apropiados como base para la construcción de lexicones automáticos9, ya que la información que en ellos se encuentra está estructurada en cada una de las entradas, y parece posible extraer cierta información con bastante facilidad.
Sin embargo, después de muchos años de investigación y de multitud de proyectos dedicados a ello, los resultados obtenidos en la adquisición de información léxica a partir de MRDs están lejos de ser satisfactorios. El problema fundamental es que los diccionarios están diseñados por humanos para ser usados por humanos. Los lexicógrafos, a la hora de compilar un diccionario, explotan el conocimiento lingüístico de sus usuarios potenciales, de modo que las entradas de un diccionario contienen sólo la información necesaria para que un hablante de una lengua sea capaz de conectarla con su conocimiento lingüístico general. Incluso los diccionarios diseñados especialmente para los estudiantes de una lengua tienen en cuenta las propiedades generales del lenguaje, aunque contengan información mucho más detallada que cualquier otro tipo de diccionario.
Esto provoca que la mayoría de ellos sean inconsistentes e incompletos , y que, por ejemplo, palabras que tienen un comportamiento similar no reciban un tratamiento homogéneo en los diccionarios, ya sea por falta de tiempo, por haber sido compiladas por diferentes lexicógrafos, o simplemente por que el lexicógrafo no fue capaz de reconocer las similitudes10. Han sido numerosos los proyectos orientados a la extracción de información de versiones electrónicas de diccionarios impresos en papel. Si atendemos a la cantidad de bibliografía que se puede encontrar relativa a este tema, puede parecer a primera vista que un gran número de diccionarios han sido usados con este propósito, aunque en realidad no es así, puesto que casi todos los proyectos en este área se han centrado en un número reducido de diccionarios, bien por problemas con los derechos de publicación o bien por la falta de las cintas magnéticas correspondientes a las versiones publicadas en papel. Las diferencias que se puede apreciar en las entradas léxicas de estos diccionarios han sido ya analizadas en diversas publicaciones , por lo que no nos detendremos a hacerlo aquí.
Esta distinción es muy relevante, ya que los «datos» constituyen una fuente de información «explícita» que se pensaba que podía ser extraída con facilidad, y de hecho la mayoría de los proyectos iniciales estaban orientados a obtener información de la parte de las entradas que contenía los datos léxicos. En estos proyectos no se hacía uso del potencial de información que la «estructura» de una entrada léxica también ofrece. Posteriormente, algunos investigadores observaron que hay muchos aspectos en la estructura de las entradas que contienen, de forma «implícita», información que puede ser muy relevante, ya que los códigos que controlan el formato de la entrada, así como los diferentes tipos de letra y otros caracteres especiales son siempre significativos a la hora de leer una entrada en un diccionario. Un lector humano se acostumbra a ellos con rapidez y es capaz de darles el significado que tienen, aunque este significado esté implícito en la forma en la que la información aparece.
En este sentido, algunos proyectos orientados a la extracción de información de MRDs han intentado dar cuenta tanto de la información explícita en las entradas como de la implícita, aunque esto último es bastante más complejo de lo que a priori puede parecer. Los primeros trabajos realizados con los diccionarios electrónicos se dedicaron a estudiar frecuencias de palabras en las definiciones, una tarea muy costosa en términos computacionales, sobre todo si tenemos en cuenta los recursos informáticos de la época. Algunas de estas circularidades mantienen una distancia semántica reducida, como por ejemplo las definiciones mutuas de «good» y «excellent», y son por tanto fáciles de observar y asimilar por un lector humano, pero son muy difíciles de localizar a nivel formal y esto puede dificultar enormemente la labor de extracción de información de las definiciones, sobre todo si se aplican nociones empíricas de derivación circular. A partir de la segunda mitad de los años ochenta se puede apreciar un cambio en las investigaciones relacionadas con los diccionarios en formato magnético, cambio que vino precedido por la sucesiva publicación de diccionarios especializados para estudiantes de inglés.
La estructura de estos diccionarios parecía a priori muy adecuada para su uso en NLP, ya que cuentan con una formalización interna mucho mayor que otros diccionarios y son mucho más explícitos en lo que se refiere a las características sintácticas, morfológicas y semánticas de cada una de las entradas. De entre estos diccionarios, los que han recibido una mayor atención han sido, sin lugar a dudas, los diccionarios LDOCE y COBUILD y en menor medida el OALD. La versión magnética del LDOCE contiene 41.000 entradas, con información adicional a la que se encuentra en la edición en papel. Uno de los problemas más serios que ha planteado el uso del LDOCE es que los códigos, en algunos casos, mezclan información sintáctica y semántica, mientras que en otros sólo ofrecen información sintáctica superficial y en otros casos estos códigos han sido modificados por el lexicógrafo para hacer que el aspecto visual de la entrada sea más claro o más compacto.
Es necesario analizar los códigos con rutinas informáticas muy complejas para poder separar la información semántica de la sintáctica y aun así los procesos que se han desarrollado hasta la fecha no han alcanzado resultados demasiado satisfactorios, incluso en aquellos casos en los que las rutinas automatizadas se han combinado con procesos manuales. Hemos nombrado ya algunos de los problemas y desventajas que los MRDs plantean, en cuanto a la falta de consistencia e inexactitud de la información que contienen , pero aún nos parece más importante la falta de aquella información detallada que no aparece en ningún diccionario y que un lexicón diseñado para un sistema de NLP necesita, por no mencionar aquellas unidades léxicas que, por falta de espacio o por motivos editoriales, no aparecen en el diccionario. No nos parece apropiado detenernos aquí a hacer un repaso exhaustivo de los numerosos proyectos llevados a cabo para la extracción de información de MRDs, puesto que nuestra intención inicial era sólo destacar los inconvenientes y las ventajas que éstos ofrecen en cuanto a la adquisición de conocimiento léxico, por lo que, para ofrecer una visión equilibrada de las investigaciones llevadas a cabo con MRDs, debemos también nombrar algunas iniciativas en las que el uso de diccionarios electrónicos ha dado resultados positivos. Por otro lado, el proyecto Acquilex también ha ofrecido resultados bastante satisfactorios en cuanto a la construcción de redes semánticas extraídas de diccionarios.
Cada una de estas teorías puede representar información similar de manera muy diferente o puede incluso trazar una línea divisoria diferente entre la información que ha de aparecer en el lexicón y la información que debe aparecer en otros componentes del sistema. Otra de las razones que se han esgrimido en contra del uso de diccionarios electrónicos para la adquisición de conocimiento léxico es el hecho bien conocido y estudiado de que, mientras que el lenguaje es un objeto dinámico que evoluciona constantemente, los diccionarios son, por definición, objetos estáticos. Éste, junto con alguno de los problemas que ya hemos señalado anteriormente, ha provocado que en los últimos diez años se haya considerado en algunos proyectos de enorme magnitud la entrada manual de datos como el método más económico y seguro de adquisición de conocimiento léxico, aunque consideraciones de este tipo también han llevado a contemplar los córpora textuales informatizados como fuentes potenciales para la adquisición de información léxica actualizada. Esta tendencia a considerar los córpora textuales como fuentes de información léxica en sistemas de NLP es consecuencia del reciente resurgimiento de la aplicación de métodos empíricos y estadísticos al análisis lingüístico, que ha desarrollado una corriente propia en el ámbito de la lexicografía comercial que se conoce como Lexicografía de Corpus.
Las crecientes posibilidades de obtener y almacenar enormes cantidades de texto informatizado han hecho posible que algunas editoriales hayan usado intensivamente los córpora textuales en el proceso de compilación de sus diccionarios, tanto en la creación de las entradas léxicas del diccionario como en la división de significados de las entradas, la selección de los ejemplos de uso o la información gramatical y colocacional que se incluye en las entradas. La mayoría de los experimentos llevados a cabo para la adquisición de información léxica a través de córpora se hallan aún en fase experimental, por lo que quizás sea aún pronto para extraer conclusiones definitivas sobre su utilidad17. Aunque ésta es un área en la que se está avanzando con gran rapidez, parece claro que queda aún un largo camino por recorrer, ya que la información que se puede obtener hoy día de los córpora a través de análisis cuantitativos representa sólo una parte de la que un lexicón computacional requiere, y la extracción automática de información es aún muy costosa en lo que respecta a recursos computacionales y humanos. Tal y como ya señalamos en referencia al uso de diccionarios en formato electrónico, la extracción automática de información léxica de un corpus textual informatizado requiere de antemano la capacidad de analizar automáticamente el texto de diversas maneras, para lo que se necesita un sistema de procesamiento de lenguaje natural con unas capacidades de comprensión lingüística muy sofisticadas.
Nuestra línea de investigación también apunta en esta dirección, ya que estamos convencidos de que los córpora pueden ofrecer información léxica muy relevante, sobre todo en aspectos relativos a los hábitos colocacionales de las unidades léxicas o sus propiedades combinatorias, y son una herramienta de gran utilidad para la extracción de ejemplos reales de uso, así como en el enriquecimiento y refinamiento de la información ya contenida en un lexicón computacional . En su trabajo, ellos explican el proceso mediante el que se obtienen representaciones semánticas de un gran número de palabras extrayéndolas de cálculos estadísticos de co-ocurrencia léxica, aumentando y reubicando los elementos del lexicón, y haciéndolo más apropiado para otras tareas específicas a un dominio determinado , como por ejemplo la recuperación de información . 2, a la vez que una combinación de adquisición de información léxica vertida a mano en un lexicón con conocimiento sobre uso derivado estadísticamente de corpus textual. En conclusión, hemos visto en este apartado que las fuentes electrónicas están lejos aún de ofrecer la información léxica detallada que un lexicón computacional requiere y que, en la mayoría de los casos, el esfuerzo y dinero que se debería invertir para extraer de ellos una cantidad mínima de tal información puede ser bastante mayor a la que supondría la populación manual de un lexicón computacional.
Por ejemplo el proyecto Cyc , que está aún en fase inicial, está orientado a la construcción de una base de conocimiento que contenga el conocimiento humano necesario para hacer inferencias, por lo que sus investigadores están vertiendo manualmente lo que ellos consideran que conforma la información morfológica, sintáctica, semántica y pragmática que los hablantes asociamos con una palabra.
NOTAS
De hecho, los primeros intentos de usar diccionarios electrónicos en el proceso de construcción de bases de conocimiento léxico se remontan a finales de los años 60. También podríamos detenernos a considerar las importantes diferencias que se observan si consultamos la misma entrada léxica en varios diccionarios, no sólo en cuanto a la división de los significados de una palabra, sino también en cuanto a su comportamiento sintáctico, colocacional, etc. Esta diferencia se hace mayor si la información contenida en las entradas se compara con la que se podría extraer de las ocurrencias de esa palabra en un corpus textual informatizado. Por ejemplo, se tardó casi un año en comprobar y corregir la cinta magnética que contenía el OALD ya que un elevado número de errores fueron introducidos en el proceso de teclear en el ordenador la información contenida en el diccionario en papel.
Comentarios
Publicar un comentario