Okapi BM25 es una función de ranking utilizada en Recuperación de información para la asignación de relevancia a los documentos en un buscador, dicho de otra forma, es una función que nos permite ordenar por relevancia los documentos que contienen las palabras que el usuario ha introducido en la caja de búsqueda de un buscador como Google, Yahoo! o Live.

Esta función está basada en los modelos probabilísticos de Recuperación de información, concretamente en el BIR (Binary Independent Retrieval) desarrollado por Stephen E. Robertson y Karen Spärck Jones en los años 70.

El nombre de Okapi viene del primer sistema que implementó esta función de ranking, el cual fue desarrollado por Stephen Walker en la City University de Londres


La función de ranking

editar

BM25 se basa en el concepto de bolsa de palabras mediante al cual se representan los documentos que deseamos ordenar en función de su relevancia con una consulta dada.

Dada una consulta  , que contiene las palabras clave  , el valor de relevancia asignado mediante la función BM25 para el documentos   será:

 

donde   es la frecuencia de aparición en el documento   de los términos que aparecen en la consulta  ,   es la longitud del documento   (en número de palabras), y   es la longitud media de los documentos en la colección sobre la cual estamos realizando la búsqueda.   y   son parámetros que permiten ajustar la función a las características concretas de la colección con la que estamos trabajando. Aunque estos parámetros suelen depender de las características concretas de cada colección normalmente se asignan los valores   o   y  , los cuales se han establecido a partir de los experimentos que durante años se han realizado en las conferencias TREC.   es el peso IDF (inverse document frequency) de las palabras clave que aparecen en la consulta  . Normalmente el IDF se calcula mediante la siguiente función:

 

donde   es el número total de documentos en la colección, y   es el número de documentos que contienen la palabra clave  .

Véase también

editar

Bibliografía

editar

Enlaces externos

editar