Keith van Rijsbergen
Cornelius Joost van Rijsbergen (Róterdam, 1943), más conocido como Keith van Rijsbergen, es un informático teórico, informatólogo e investigador del procesamiento del lenguaje natural y de la disciplina Recuperación de información.
Keith van Rijsbergen | ||
---|---|---|
Información personal | ||
Nacimiento |
1943 Países Bajos, Róterdam | |
Nacionalidad | holandesa | |
Lengua materna | Inglés | |
Educación | ||
Educado en | ||
Supervisor doctoral | John Kenneth Montague Moody | |
Información profesional | ||
Ocupación | informático teórico, informatólogo | |
Conocido por | Técnica de clusters, Modelo probabilístico de Recuperación de información. Procesamiento del lenguaje natural | |
Miembro de | Association for Computing Machinery (desde 2003) | |
Distinciones | Premio Tony Kent Strix (2004), Premio Gerard Salton (2006) | |
Biografía
editarNace en Róterdam (Holanda) y durante su niñez y juventud vivió en distintos países como Holanda, Indonesia, Namibia y, finalmente, Australia. Realiza estudios universitarios en Western (Australia), donde empieza a interesarse por las matemáticas. En 1972 es investido como doctor por la Universidad de Cambridge con una tesis sobre programación informática.
Hasta 1975 permanece en la Universidad de Monash estudiando la inteconexión entre la Inteligencia artificial y la Recuperación de información. Vuelve al Laboratorio de Informática de Cambridge como miembro honorario (fellowship) de la Royal Society Information Research. En 1980 ocupa la cátedra de informática de la Universidad de Dublín y en 1986 se integra a la Universidad de Glasgow para dirigir el grupo de investigación en Recuperación de información.
En 1993 fue designado como redactor-jefe de la revista científica The Computer Journal hasta 2000.
Obra científica. Las técnicas de clúster
editarDesde 1969, Rijsbergen lleva investigando la base teórica de los sistemas de recuperación de información, dotándola de sólidos principios. Definió la diferencia entre Recuperación de datos y Recuperación de información distinguiendo la primera como un proceso de obtención de datos exactos y concretos, y la segunda como un proceso basado en una inferencia inductiva; es decir, buscar fechas o nombres es recuperación de datos, mientras que buscar temas sería recuperación de información.
Durante la década de los 70 y principio de los 80, ideó las técnicas de clúster, también llamadas clustering, o clasificación automática. Son técnicas estadísticas multivariantes que se utilizan para hacer agrupaciones de objetos similares en un espacio multidimensional. Las similitudes pueden ser calculadas entre pares de documentos, basándose en el número de descriptores que tienen en común. La aplicación en una base de datos documental dará como resultado el agrupamiento de documentos que tengan un gran número de términos en común.
Estás técnicas también son aplicadas a descriptores, cuyas similitudes nos permiten identificar relaciones semánticas entre términos. Este método resulta muy útil para construir tesauros.
Las técnicas de clúster se apoyan en los algoritmos de indización ponderada que ya diseñó Karen Spärck Jones. Esta indización automatizada considera mediante conclusiones estadísticas, qué términos representan mejor los contenidos de un documento. Esto daría fin al dilema conocido como conflicto de Rijsbergen: cuanto más términos del documento estén disponibles para la equiparación, más fácil el documentos será equipado en una búsqueda, pero más difícil distinguirlo de otros documentos.
Rijsbergen planteó además dos hipótesis:
- Hipótesis de clúster: donde definía qué documentos similares tienden a ser relevantes para las mismas preguntas, y por tanto, ser útil para agrupar documentos relevantes para un petición concreta. Esta aplicación permitiría realizar búsquedas de alta precisión en una base de datos documental previamente clasificada.
- Hipótesis de asociación: donde dice que un término de indización es bueno para discriminar documentos relevantes de aquellos que no lo son, cualquier término de indización estrechamente relacionado con ese es, probablemente, tan bueno como ese.
El uso de estas técnicas fue empleado dentro del modelo probabilístico de recuperación de información, en redes de inferencia bayesiana y en técnicas de retroalimentación por relevancia.
A mediados de los 80, comenzó a abordar la investigación a través de los modelos cognitivos de recuperación de información. Esto modelos otorgan al usuario una importancia mayor al tener en cuenta tanto la formación del usuario como a la naturaleza y propiedades de sus búsquedas. Rijsbergen utilizó el principio de incertidumbre lógica al considerar que una colección documental no es, en su conjunto, ni completa y coherente para los usuarios, llegando incluso a haber elementos contradictorios entre sí. Propuso un paradigma nuevo donde el proceso de recuperación sea considerado como un proceso de inferencia incierta, y las consultas y los documentos puedan ser representados como declaraciones lógica-probabilísticas.
Obras y reconocimientos
editarEn 1975 publicó Information retrieval, obra con abundante material original sobre el modelo probabilístico, además de aportar reformulaciones originales de trabajos de otros autores. Es considerado como un texto clásico de la materia. Ha sido editado también en CD.
En 1999 publicaría en coautoría con Crestani y Lalmas Recuperación de información: la incertidumbre y la lógica, donde trataría sus aportaciones en lógica inferencial. También ha publicado numerosos artículos en prestigiosas revistas científicas.
Ha sido premiado con el Premio Tony Kent Strix en 2004 y el Premio Gerard Salton 2006.
Es miembro del Institut of Electrical Engineers (IEE), de la British Computer Society (BCS) y de la Association of Computing Machinery (ACM)(SIGIR).
Obras de referencia
editar- MOYA ANEGÓN; Félix de (2002): Técnicas avanzadas de recuperación documental. En: Manual de Ciencias de la Documentación. Madrid : Pirámide.