Semántica distribucional

La semántica distribucional es un área de investigación que desarrolla y estudia las teorías y métodos para cuantificar y categorizar las similitudes semánticas entre elementos lingüísticos, según sus propiedades distribucionales en grandes muestras de datos lingüísticos. La idea básica de la semántica distribucional se puede resumir en la llamada hipótesis distribucional: «elementos lingüísticos con distribuciones similares tienen significados similares».

Hipótesis distribucional

La hipótesis distribucional se origina de la teoría semántica del uso lingüístico, es decir, palabras que se usan y aparecen en los mismos contextos tienden a transmitir significados parecidos.^[1] La idea subyacente de que «una palabra se define por sus compañías» fue popularizada por Firth.^[2]

La hipótesis distribucional es la base de la semántica estadística. Aunque se originó en lingüística,^[3] actualmente la ciencia cognitiva está prestando mucha atención a la hipótesis, especialmente en el contexto de uso lingüístico.^[4]

los últimos años, la hipótesis distribucional ha sentado las bases para la teoría de la generalización por similitudes en adquisición del lenguaje: la idea de que los niños aciertan en el uso de palabras que rara vez habían oído antes extrapolando a partir de distribuciones de palabras parecidas.^[5]^[6] La hipótesis distribucional sugiere que cuanto más semánticamente similares son dos palabras, más similares distribucionalmente serán a cambio, y por eso tenderán a aparecer en contextos lingüísticos similares. Que esta hipótesis se sostenga o no, tiene implicaciones significativas tanto para el problema de la escasez de datos en modelado computacional como para la cuestión de que los niños aprendan el lenguaje tan rápido con tan poca exposición a datos (también conocido como pobreza del estímulo).

Modelado semántico distribucional (DSM)

La semántica distribucional favorece el uso del álgebra lineal como herramienta computacional y como marco de representación. El enfoque básico consiste en recoger información distribucional en vectores de muchas dimensiones, para después definir la similitud semántica como la similitud entre vectores.^[7] Se pueden extraer diferentes tipos de similitud, dependiendo del tipo de información distribucional que se use para formar los vectores: similitud tópica si la información consiste en la región del texto en que aparecen los elementos lingüísticos; paradigmática si los vectores contienen información sobre otros elementos lingüísticos que coaparecen con el elemento en cuestión. Este último tipo de vectores puede utilizarse también para extraer similitudes sintgmáticas si se presta atención a los componentes individuales de cada vector. La idea básica de la existencia de una correlación entre la similitud distribucional y la semántica puede operar de varias maneras. Hay una amplia variedad de modelos computacionales para implementar semántica computacional, como el análisis semántico latente (ASL, o LSA por sus siglas en inglés, latent semantic analysis),^[8] el hiperespacio análogo al lenguaje (HAL), los modelos basados en sintaxis o en dependencias,^[9] el indexado aleatorio, el plegado semántico^[10] y numerosas variantes del topic modeling o categorización. Los modelos de semántica distribucional difieren entre sí principalmente por los siguientes parámetros:

Tipo de contexto (regiones textuales vs. elementos lingüísticos
Ventana de contexto (tamaño, extensión, etc.)
Peso de la frecuencia (por ejemplo, entropía, punto de información mutua, etc.)
Reducción de las dimensiones (por ejemplo, indexado aleatorio, descomposición en valores singulares, etc.)
Medida de la similitud (por ejemplo, similitud coseno, distancia de Minkowski, etc.)

A los modelos de semántica distribucional que usan elementos lingüísticos como contexto también se les ha llamado word space models.^[11]^[12]

Semántica distribucional composicional

Los modelos de semántica distribucional composicional son una extensión de los modelos semánticos distribucionales que se caracteriza por tratar la semántica de frases u oraciones enteras. Esto se consigue uniendo las representaciones distribucionales de las palabras que contiene la oración. Se han explorado diferentes enfoques de composición, de hecho están sujetos a debate en congresos consolidados como SemEval.^[13]

Otros modelos más simples, no composicionales, no logran capturar la semántica de las unidades lingüísticas más largas, ya que ignoran las estructuras gramaticales o los conectores, cruciales para su entendimiento.

Aplicaciones

Los modelos de semántica distribucional se han usado con éxito para completar las siguientes tareas:

Encontrar similitud semántica entre palabras y expresiones multipalabra
Clusterización de keywords o de palabras según similitud semántica
Creación automática de tesauros y diccionarios bilingües
Resolución de ambigüedad léxica
Expansión de peticiones de búsqueda con sinónimos y asociaciones
Definir el tema de un documento
Clusterización de documentos para recuperación de información
Minería de datos y reconocimiento de entidades
Creación de mapas semánticos de diferentes dominios
Parafraseado
Análisis de sentimiento
Modelado de preferencias en la selección de palabras

Software

Véase también

Personas

Referencias

↑ Harris, 1954
↑ Firth, 1957
↑ Sahlgren, 2008
↑ McDonald y Ramscar, 2001
↑ Gleitman, 2002
↑ Yarlett, 2008
↑ Rieger , 1991
↑ Deerwester et al., 1990
↑ Padó y Lapata, 2007
↑ De Sousa Webber, Francisco (2015). «Semantic Folding Theory And its Application in Semantic Fingerprinting». arXiv:1511.08855.
↑ Schütze, 1993
↑ Sahlgren, 2006
↑ «SemEval-2014, Task 1».

Bibliografía

Harris, Z. (1954). «Distributional structure». Word 10 (23): 146-162.
Firth, J.R. (1957). «A synopsis of linguistic theory 1930-1955». Studies in Linguistic Analysis (Oxford: Philological Society): 1-32. Reprinted in F.R. Palmer, ed. (1968). Selected Papers of J.R. Firth 1952-1959. London: Longman.
Sahlgren, Magnus (2008). «The Distributional Hypothesis». Rivista di Linguistica 20 (1): 33-53. Archivado desde el original el 15 de marzo de 2012. Consultado el 1 de abril de 2018.
McDonald, S.; Ramscar, M. (2001). «Testing the distributional hypothesis: The influence of context on judgements of semantic similarity». Proceedings of the 23rd Annual Conference of the Cognitive Science Society. pp. 611-616. Parámetro desconocido |citeseerx= ignorado (ayuda)
Gleitman, Lila R. (2002). «Verbs of a feather flock together II: The child's discovery of words and their meanings». The Legacy of Zellig Harris: Language and information into the 21st century: Philosophy of science, syntax and semantics. Current issues in Linguistic Theory (John Benjamins Publishing Company) 1: 209-229. doi:10.1075/cilt.228.17gle.
Yarlett, D. (2008). Language Learning Through Similarity-Based Generalization (Tesis de PhD). Stanford University. Copia archivada. Archivado desde el original el 19 de abril de 2014. Consultado el 1 de abril de 2018.
Rieger, Burghard B. (1991), On Distributed Representations in Word Semantics, ICSI Berkeley 12-1991, archivado desde el original el 27 de abril de 2024, consultado el 1 de abril de 2018 Parámetro desconocido |citeseerx= ignorado (ayuda).
Deerwester, Scott; Dumais, Susan T.; Furnas, George W.; Landauer, Thomas K.; Harshman, Richard (1990). «Indexing by Latent Semantic Analysis» (PDF). Journal of the American Society for Information Science 41 (6): 391-407. doi:10.1002/(SICI)1097-4571(199009)41:6<391::AID-ASI1>3.0.CO;2-9. Archivado desde el original el 17 de julio de 2012.
Padó, Sebastian; Lapata, Mirella (2007). «Dependency-based construction of semantic space models». Computational Linguistics 33 (2): 161-199. doi:10.1162/coli.2007.33.2.161.
Schütze, Hinrich (1993). «Word Space». Advances in Neural Information Processing Systems 5. pp. 895-902. Parámetro desconocido |citeseerx= ignorado (ayuda)
Sahlgren, Magnus (2006). The Word-Space Model (Tesis de PhD). Stockholm University. Archivado desde el original el 19 de junio de 2012. Consultado el 1 de abril de 2018.
Thomas Landauer; Susan T. Dumais. «A Solution to Plato's Problem: The Latent Semantic Analysis Theory of Acquisition, Induction, and Representation of Knowledge». Consultado el 2 de julio de 2007.
Kevin Lund; Curt Burgess; Ruth Ann Atchley (1995). Semantic and associative priming in a high-dimensional semantic space. Cognitive Science Proceedings. pp. 660-665.
Kevin Lund; Curt Burgess (1996). «Producing high-dimensional semantic spaces from lexical co-occurrence». Behavior Research Methods, Instruments, and Computers 28 (2): 203-208. doi:10.3758/bf03204766.

Enlaces externos

Zellig S. Harris

Datos: Q5283209

[1] Harris, 1954

[2] Firth, 1957

[3] Sahlgren, 2008

[4] McDonald y Ramscar, 2001

[5] Gleitman, 2002

[6] Yarlett, 2008

[7] Rieger , 1991

[8] Deerwester et al., 1990

[9] Padó y Lapata, 2007

[10] De Sousa Webber, Francisco (2015). «Semantic Folding Theory And its Application in Semantic Fingerprinting». arXiv:1511.08855.

[11] Schütze, 1993

[12] Sahlgren, 2006

[13] «SemEval-2014, Task 1».

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]