Minería de conceptos

La minería de conceptos es una actividad que resulta de la extracción de conceptos procedente de artefactos. Soluciones a esta labor típicamente implican aspectos de la inteligencia artificial y la estadística, tales como la minería de datos y minería de textos.^[1] Ya que los artefactos son, típicamente, una secuencia poco estructurada de palabras y otros símbolos (en lugar de conceptos), el problema no es trivial, pero puede proporcionar ideas de gran alcance en el significado, procedencia y similitud de documentos.

Métodos

Tradicionalmente, la conversión de palabras a conceptos se ha realizado utilizando un tesauro,^[2] y para las técnicas computacionales la tendencia ha sido la misma. Los tesauros utilizados son creados especialmente para la tarea, o un modelo de lenguaje preexistente, usualmente relacionado con WordNet de Princeton.

Las asignaciones de las palabras a conceptos^[3] ason a menudo ambiguas. Normalmente, cada palabra en un idioma determinado se relacionará con varios posibles conceptos. Los seres humanos utilizan el contexto para eliminar la ambigüedad de los distintos significados de una determinada pieza del texto, a diferencia de los sistemas de traducción automática disponibles, que no pueden inferir fácilmente el contexto.

Para los propósitos de la minería de conceptos, estas ambigüedades tienden a ser menos importantes de lo que son al usar la traducción automática, en documentos de gran tamaño las ambigüedades tienden a ser igualadas de la misma manera que a la minería de textos.

Hay muchas técnicas para la desambiguación lingüística que pueden ser utilizadas. Ejemplos de ello son el análisis lingüístico del texto y el uso de la asociación palabra-concepto que pueden deducirse de grandes cuerpos del texto. Recientemente, las técnicas que se basan en similitud semántica entre los posibles conceptos y el contexto han aparecido y ganado gran interés en la comunidad científica.

Aplicaciones

Detección e indexación de documentos similares en grandes cuerpos

Una de los efectos indirectos de calcular estadísticas de documentos en el dominio de los conceptos, más que el dominio de las palabras, es que los conceptos forman estructuras de árbol basados en hiperonimia y meronimia. Estas estructuras pueden ser utilizadas para producir simples estadísticas de ciertos miembros del árbol, que a su vez, se puede utilizar para localizar cualquier documento en un espacio euclidiano de conceptos. Si el tamaño de un documento también es considerado como otra dimensión de este espacio entonces, un sistema de indexación extremadamente eficiente puede ser creado. Actualmente, esta técnica se usa de manera comercial para localizar documentos legales en un total de 2.5 millones de documentos similares.

Agrupación de documentos por tema

Técnicas estándar de agrupamiento numérico se pueden utilizar en el "espacio concepto" como se describió anteriormente para localizar e indexar documentos por un tema inferido. Estos son, numéricamente, mucho más eficientes que sus primos de la minería de textos y tienden a comportarse de forma más intuitiva, en la que asignan con mayor similitud a la que mediría un ser humano.

Véase también

Referencias

↑ Yuen-Hsien Tseng, Chun-Yen Chang, Shu-Nu Chang Rundgren, and Carl-Johan Rundgren, " Mining Concept Maps from News Stories for Measuring Civic Scientific Literacy in Media", Computers and Education, Vol. 55, No. 1, Agosto de 2010, pp. 165-177.
↑ Yuen-Hsien Tseng, " Automatic Thesaurus Generation for Chinese Documents", Journal of the American Society for Information Science and Technology, Vol. 53, No. 13, Noviembre de 2002, pp. 1130-1138.
↑ Yuen-Hsien Tseng, " Generic Title Labeling for Clustered Documents", Expert Systems With Applications, Vol. 37, No. 3, 15 de marzo de 2010, pp. 2247-2254 .

Datos: Q5158396

[1] Yuen-Hsien Tseng, Chun-Yen Chang, Shu-Nu Chang Rundgren, and Carl-Johan Rundgren, " Mining Concept Maps from News Stories for Measuring Civic Scientific Literacy in Media", Computers and Education, Vol. 55, No. 1, Agosto de 2010, pp. 165-177.

[2] Yuen-Hsien Tseng, " Automatic Thesaurus Generation for Chinese Documents", Journal of the American Society for Information Science and Technology, Vol. 53, No. 13, Noviembre de 2002, pp. 1130-1138.

[3] Yuen-Hsien Tseng, " Generic Title Labeling for Clustered Documents", Expert Systems With Applications, Vol. 37, No. 3, 15 de marzo de 2010, pp. 2247-2254 .

[1]

[2]

[3]