Wikipedia:Test de buscador

Atajo WP:TBWP:TB

«WP:TB» redirige aquí. Quizás estabas buscando Wikipedia:Tablón de anuncios de los bibliotecarios

Un test de buscador o prueba de buscador es una forma rápida de confirmar que una página fue copiada directamente de otro sitio web y, por lo tanto, puede estar infringiendo derechos de autor. Que un artículo pase la prueba lo exculpa solo de copia textual de otro sitio, no de copyrights en general, ya que el artículo puede haber sido copiado de CD-ROMs, papel o traducido de cualquier medio. Traducir directamente de una fuente con copyright también es una violación, aunque más difícil de detectar. Además, los sitios realizados en Flash tampoco son leídos por los motores de búsqueda.

La prueba consiste en hacer una búsqueda de un grupo de palabras cercanas en el artículo en un buscador como Google. Si el artículo fue copiado textualmente de un sitio web, aparecerá entre las primeras páginas de los resultados.

Ver la forma más frecuente en que un concepto se presenta es un uso alternativo. En este caso, la opción más utilizada no tiene por qué coincidir con la más correcta, según los criterios de un experto en la materia. Wikipedia ha de preferir estos últimos criterios si se conocen.

Otra utilidad es conocer la existencia o grado de celebridad de un tema, persona o teoría para saber si es merecedor de entrar en una enciclopedia universal. De esta manera, tampoco el test Google debería tener la última palabra pero puede ser un argumento más a favor o en contra del borrado.

Además del buscador Google, existe Google Books, que permite buscar violaciones al copyright en libros. Todavía está en su fase beta pero puede ser útil.

Hay varias formas de usar Google ([1]), Alexa ([2]), Yahoo! ([3]) y Clusty ([4]) para verificar artículos y otra información.

Tipos de pruebas Google

En Wikipedia, se llama un test Google o prueba Google a cualquier uso de Google o cualquier otro motor de búsqueda como referencia. Hay varios tipos de información que pueden ser recabados por este método. Ha de señalarse que ninguna de estas aplicaciones es evidencia concluyente sino simplemente una heurística inicial o una mera orientación. Así:

Temas no enciclopédicos o espurios. Algunos temas plasmados en artículos no pertenecen a Wikipedia. Algunos de éstos pueden ser detectados realizando una búsqueda Google en una expresión relevante y contar el número de resultados. Esta técnica funciona razonablemente bien para descubrir bulos, invenciones y teorías e hipótesis personales. Se puede emplear también para asegurar que una temática sea suficientemente relevante, aunque esta aplicación está fuertemente sujeta a sesgos (véase más abajo). Véase Wikipedia:Lo que Wikipedia no es para una lista detallada de temas no enciclopédicos.

Obras con copyright. Largos fragmentos de texto poco wikificado, pegados a la wiki de una vez, particularmente por un usuario anónimo o recién registrado, son frecuentemente un copia-pega de otras páginas web. Algunas de estas ediciones son violaciones de los derechos de autor. Una edición copia-pega desde una fuente web puede ser detectada realizando búsquedas de fragmentos pegados.

Uso común. El español frecuentemente ofrece varios términos para un mismo concepto, en general por dialectos regionales. Una serie de búsquedas de distintas formas de un nombre revelan aproximadamente su popularidad relativa. Para una comparación rápida pruébese googlefight. Nótese que hay casos en que esta prueba puede ser inservible, como cuando un estándar internacional se ha impuesto.

Sitios relacionados. Si un artículo es de alta calidad (véase Wikipedia:Artículos destacados), Google puede haber sido usado para buscar sitios que se hayan interesado en él y lo hayan enlazado.

Investigación. Desde luego, los motores de búsqueda son buenos para encontrar fuentes de información detallada.

Técnicas

La búsqueda a través de la página principal de Google no es la única posible. Al efectuar un test google, puedes probar a buscar en groups (grupos de noticias Usenet). La búsqueda en grupos es especialmente útil para identificar aquellas entidades cuya presencia web ha sido inflada artificialmente mediante técnicas promocionales; sería sospechoso si, por ejemplo, una frase obtiene 100 000 respuestas por la vía convencional pero sólo 20 en los grupos.

Los mensajes de Usenet están etiquetados cronológicamente y están almacenados desde hace más de veinte años, haciéndolos más útiles que las búsquedas web normales como registro de la historia reciente. Empleando una búsqueda avanzada es posible restringir la búsqueda por fecha, lo que puede ayudar a identificar lo reciente que puede haberse extendido el uso de un término.

Las búsquedas en Google News pueden orientarnos sobre la relevancia de un evento. Una característica de Google News es que mientras es fácil y gratuito crear sitios web o escribir a Usenet, es más difícil convencer a una fuente de noticias de Google para que publique lo deseado. Así, Google News, comparándolo con la web o los grupos, es menos susceptible de manipulación por autopromotores. Nótese que Google News apunta a muchas fuentes de «noticias» que reflejan específicos puntos de vista y que muchas de ellas son sólo de interés local o regional.

Dependiendo del tema, la búsqueda avanzada puede ser útil. Por ejemplo, añadiendo «site:gov» o «site:edu» restringiremos la búsqueda a sitios del gobierno de los Estados Unidos o a instituciones educativas, respectivamente.

Otras herramientas que pueden ser útiles para la investigación incluyen a Google Scholar, que rastrea fuentes literarias académicas.

Google Book Search puede ser de ayuda igualmente. Al rastrear sólo fuentes impresas, Google Book Search tiene un rango de búsqueda más acorde con el contenido de una enciclopedia tradicional que la web, en general. Si está sesgado, el sesgo será distinto que las búsquedas web. Varias respuestas para una frase concreta darán evidencia concluyente del uso real de la frase o concepto. Google Book Search puede localizar testimonio escrito de la importancia de una persona, evento o concepto. Puede también ser usado para sustituir un dato sin fuentes dentro de un artículo por una versión contrastada del mismo. Las búsquedas de www.a9.com, restringidas sólo a libros, se pueden usar de la misma manera. Su base de datos es aparentemente la misma de Amazon (opción «look inside this book/search inside the book»).

Test Alexa

Aunque Wikipedia no es un directorio de páginas web, podemos tener artículos sobre páginas web si encajan en el mismo criterio de interés enciclopédico que otros artículos. (Nótese que los webmasters de sitios corporativos han reivindicado a menudo que no deberían existir artículos separados para la compañía y su página excepto en casos muy excepcionales).

Para efectuar la prueba Alexa sobre un sitio web particular, sólo es necesario ir a Alexa (http://www.alexa.com), y escribir la URL. Algunos colaboradores emplean la clasificación Alexa para determinar si Wikipedia debe incluir el artículo, sosteniendo que no deberíamos tener artículos por encima del puesto 100, posiblemente por encima del 1000, y normalmente ninguno por encima del 100 000. Sin embargo, las clasificaciones de Alexa no forman parte de las recomendaciones de relevancia para sitios web por varias razones:

Por debajo de un cierto nivel, la puntuación Alexa prácticamente no tiene sentido por el limitado tamaño de muestreo. La propia Alexa afirma que los puestos por debajo de 100 000 no son fiables, y algunos críticos creen que la situación es incluso peor.
Colocar el listón en 100 y 1000 es arbitrario.
La clasificación Alexa varía con el tiempo.
La clasificación Alexa no refleja si existen fuentes para construir un artículo enciclopédico. Un sitio web muy bien clasificado puede no tener nada escrito sobre él, o un sitio web muy mal clasificado tener muchas referencias escritas.
Cierto número de temas incuestionablemente relevantes tienen una puntuación Alexa bastante mala. Por ejemplo, http://www.avrillavigne.com tuvo una clasificación de tráfico de 1 261 091 el 27 de enero de 2006 [5], pero nadie podrá cuestionar que Avril Lavigne merece un artículo, y es razonable asumir que el sitio web es más visitado que el indicado por Alexa.

Sesgo en la prueba Alexa

La clasificación Alexa muestra un sesgo significativo, debido a varios factores. Por ejemplo, el código de Alexa sólo es disponible para Microsoft Windows y Microsoft Internet Explorer, y requiere instalación. Así, un sitio especializado relacionado con Apple Macintosh no tendrá una clasificación en Alexa que represente su tráfico real. En el extremo opuesto, algunos webmasters instalan la barra Alexa con el sólo objetivo de mejorar sus propias clasificaciones, visitando sus sitios con ella. La cantidad de usuarios con la barra instalada es tan pequeña que un visitante frecuente puede marcar la diferencia. [6] Asimismo, Alexa no registra visitas a páginas web seguras, incluso aunque representen la mayor parte del tráfico para algunos sitios.

Además, muchos usuarios rechazan instalar la barra de herramientas Alexa, ya que creen que el registro de los sitios por donde navegan lo convierten en una aplicación spyware.

Sesgo en Google

Al usar Google para probar la existencia o importancia de algo hay que tener en cuenta que los resultados serán más favorables para temas modernos, de interés para personas de países desarrollados con acceso popularizado a Internet. Por eso hay que tener ser prudentes al valorar un resultado en Google. Por ejemplo, un grupo musical famoso en los Estados Unidos necesitarán probablemente varios miles de respuestas Google antes de que los colaboradores de Wikipedia lo consideren válido para un artículo. Un grupo de similar fama en un país con menos arraigo de Internet necesitará menos respuestas, si es que las necesita. Un músico importante del siglo XIV puede carecer absolutamente de presencia en Internet.

Pregunta: ¿Cuál es el número mínimo de respuestas para verificar la validez de un término?

Respuesta: Tal vez varios cientos, pero esto depende de distintos factores:

La temática del artículo: si es muy específica, se necesitarán pocas referencias. Por ejemplo, nótese la diferencia entre Ontología y Ontología (informática)
El sujeto del artículo: si trata sobre alguna personalidad histórica, una o dos menciones en textos acreditados puede ser suficiente; si se trata de un neologismo sobre Internet, puede que se necesiten 100 o más respuestas para considerarlo válido.
La clase de sitios que encuentres: presta atención a la posibilidad de contribuir libremente en las páginas de las respuestas. The Urban Dictionary, por ejemplo, acepta cualquier tipo de colaboración. Esto es especialmente importante si sospechas que un autor se está autopromocionando, o está incurriendo en propaganda de sus ideas o teorías. Un solo usuario de Internet podría enviar las mismas ideas a foros de discusión y sitios de colaboración libre por toda la Red.
Tiempo que el término ha estado presente en Wikipedia: Algunas veces, cuando se crea un artículo, el término al que se refiere no existe en ningún sitio de Internet, y el test google habría determinado su irrelevancia. Después de haber estado presente durante un tiempo, el término (o sea, el título, jerga empleada, opiniones, ideas,...) se copiará a muchos sitios mirror, oficiales y no oficiales, así como en sitios de spam que aparecen en cualquier búsqueda. Wikipedia es una de las fuentes más usadas como fuente de información de la Web y es importante que no se nutra, directa o indirectamente, a sí misma como referencia.

Más allá de lo dicho: el test google verifica un uso popular, pero no la corrección. Por ejemplo, una búsqueda del nombre incorrecto Charles Windsor da 10 veces más resultados que lo correcto, Charles Mountbatten-Windsor

Igualmente, algunos temas no figurarán en la Red por el bajo uso de Internet en ciertas zonas y culturas del mundo.

Los resultados en Google están fuertemente sesgados hacia la cultura popular. Por ejemplo, este artículo, Los científicos emplean Google para estimar la fama respecto al mérito, señala que Barry Williams («Greg Brady» de la serie Brady Bunch) tiene un 45 % más de respuestas que Albert Einstein (2 400 000 contra 1 660 000).

Especialmente al tratar de determinar la frecuencia del uso de versiones «correctas» frente a las «no correctas» de una palabra, Internet (y por tanto Google) está extremadamente sesgado hacia las versiones «no correctas». Es más un ejemplo de la pereza y la ignorancia de los creadores de las páginas que una prueba real de uso. Por ejemplo, en inglés, escribir el fenómeno meteorológico El Niño como «El Nino» es sencillamente un error. Cuando las palabras en español que tienen la letra ñ se han arraigado en inglés, la letra frecuentemente se convierte en «ny» (como en canyon), pero El Niño raramente se escribe como «El Ninyo» (y aparecerá más probablemente en sitios web en lengua no inglesa). A pesar del hecho de que la escritura debería ser El Niño, un test Google revela que hay más páginas web con «El Nino» que «El Niño» (8 830 000 contra 7 970 000 en septiembre de 2005). El criterio más objetivo para decidir una versión de la palabra sería recurrir a las entradas de un diccionario, otras enciclopedias y los libros de estilo.

Nótese que otras búsquedas Google, en particular Google Books, tienen un sesgo diferente que las búsquedas de páginas y dan una comprobación interesante y una visión más o menos independiente.

Sesgo favorable a las leyendas urbanas

Como se mencionó más arriba, Google verifica el uso popular, pero no la corrección. Sólo porque un conjunto particular de hechos están repetidos cientos de veces en una búsqueda no las convierte en correctas. Por ejemplo, hay una leyenda urbana sobre el barco USS Constitution, que remonta su botadura al año 1779. Hay cientos de sitios que repiten esta información [7]. De hecho, sin embargo, el barco no se botó hasta 1797. Historias parecidas que se repiten literalmente, de fuente en fuente y de página en página, tienden a alterar cualquier información obtenible a través de un buscador.

No es aplicable en algunos casos, como la pornografía

Un simple test google por número de respuestas no es aplicable a gente o títulos relacionados con empresas de Internet, especialmente (pero no restringido a) la pornografía. Esto se debe a que ha aparecido toda una sub-industria con el solo objetivo de incrementar el número de respuestas en Google para ciertas búsquedas. Lo consiguen a través de una serie de técnicas, como los mirror y el spam en grupos de noticias y Wikipedia. También los actores pornográficos que han aparecido en películas irrelevantes tienden a figurar desproporcionadamente en las respuestas. Es por tanto necesario para el investigador probar que el actor tiene una relevancia sólida. Esto requiere por lo general encontrar artículos periodísticos, biografías independientes o múltiples clubes de fans.

Validez del test google

Dado que los resultados de un test google son interpretables subjetivamente, su aplicación no siempre es consistente. Esto refleja la naturaleza del test al ser usado cuidando caso por caso.

Algunas veces se han mantenido artículos que sólo obtenían 15 resultados en Google y algunos reclaman que esto quebranta totalmente la validez del test. Sin embargo, esto refleja la naturaleza subjetiva y accidentada del proceso de borrado de artículos más que en la utilidad del test. El test siempre ha sido y probablemente será una herramienta imperfecta usada para obtener una medida general de relevancia. No es ni nunca debería ser considerado definitivo.

Otros factores de peso que pueden afectar al número de respuestas son los relativos a asuntos de países con una baja implantación de Internet o temas que son de naturaleza histórica pero que no han sido bien documentados en Internet. En otros casos, es tan conjetural como saber si un concepto con menos de 100 respuestas tiene méritos para entrar en Wikipedia mientras otros artículos son frecuentemente borrados.

Hay que resaltar que el número de respuestas que Google ofrece es (algunas veces o quizá siempre; los detalles son secretos) una estimación, no una estadística exacta. El número de respuestas ofrecido tiene poco significado hasta que uno navega a la última página de resultados, dado que sólo entonces Google aplica todos los criterios para una búsqueda (como eliminar duplicados y controlar el spam). A veces el número de respuestas se reduce diez veces (o más) tras hacer esto. Saltar al final de los resultados (en la medida de que sea práctico) también revela si el número está relacionado con el significado del término buscado. Las búsquedas mejoran sensiblemente si configuramos Google para que muestre el máximo número de respuestas por página (lo que reduce los resultados duplicados) y excluya un dominio que sesgue el resultado. Por ejemplo, «JoesRockBand.com» debería excluirse al buscar referencias de «Joe's Rock Band». También, eliminar el término «Wikipedia» de la búsqueda ayuda a eliminar parte de las respuestas influidas por la permanencia de un artículo en Wikipedia durante mucho tiempo. De hecho, la propia discusión sobre la relevancia de un término aparecerá poco tiempo después en las respuestas de Google. Finalmente, se necesita cierta labor humana: una muestra manejable de sitios de respuesta puede ser abierta individualmente para verificar la representatividad del número total.

Sobre resultados «únicos»

Para los términos que devuelven muchos resultados, Google usa un proceso que elimina los resultados que son «muy similares» a otros resultados listados. Esto parece que se realiza eliminando las páginas que son casi duplicados y limitando el número de páginas que se devuelven desde un dominio. Por ejemplo, una búsqueda de "Taco Bell" sólo dará un par de páginas desde tacobell.com incluso cuando muchas de ese dominio se corresponden a la búsqueda. Es más, la lista de resultados únicos se construye seleccionando los 1000 primeros resultados y eliminando entonces los duplicados sin sustituirlos. De ahí que la lista de resultados únicos contendrá siempre menos de 1000 resultados sin importar cuántas páginas web hayan coincidido con los términos de búsqueda. Por ejemplo, de los 742 millones de páginas relacionadas con "Microsoft", Google devuelve 552 resultados «únicos» (a 9 de enero de 2006 [8]). Por esto, hay que tener precaución al juzgar la importancia relativa de los sitios web que tienen más de 1000 respuestas. Una vez que el recuento de sitios únicos rebasa los pocos cientos, se hace difícil o imposible determinar cuántos debería haber realmente. Si el número de únicos es extremadamente bajo (sólo unas pocas decenas), ello podría ayudar a determinar si la mayoría de las respuestas viene de una sola página. Una página podría aportar cientos de miles de respuestas por sí sola.

En el final de la lista de resultados es posible pulsar un enlace pidiéndole a Google buscar con los resultados suprimidos incluidos; no obstante, en ningún caso Google te dejará ver más de 1000 resultados.

Limitaciones de los motores de búsqueda

Muchas, probablemente la mayoría, de las páginas web existentes no están indexadas. Cada motor de búsqueda captura un porcentaje diferente del total, pero nadie puede decir exactamente qué porción ha sido la capturada.

El tamaño estimado de la World Wide Web es al menos de 5000 millones de páginas, pero existe una mucho mayor Red profunda, estimada en alrededor de 500 000 millones de páginas, dentro de bases de datos cuyos contenidos no son capturados por los buscadores. Estas páginas web dinámicas toman forma dentro de un servidor web cuando un usuario se lo pide; por eso un buscador convencional no podrá acceder a ellas. La página de United States Patent and Trademark Office (oficina de patentes y marcas registradas de los Estados Unidos) es un ejemplo: aunque un buscador pueda encontrar su página principal, uno sólo podrá buscar en su base de datos de patentes individuales insertando búsquedas en el propio sitio.

Otras lenguas y escritura no latina

Las acusaciones de irrelevancia para un artículo se basan frecuentemente en las pocas respuestas de Google, cuando se hubieran obtenido un número sustancialmente mayor de haber buscado con el alfabeto correcto o mediante varias transcripciones. Un nombre árabe, por ejemplo, necesita ser buscado en la grafía original, fácil en Google, una vez que se sepa qué buscar, pero también hay que tener en cuenta que las páginas en español, inglés, francés y alemán, por ejemplo, transcribirán el nombre según distintas convenciones.

Además, se deben buscar las diferentes formas de un nombre en el idioma original. Un nombre propio ruso debe buscarse tanto incluyendo como excluyendo el patronímico, y en cualquier búsqueda de nombres y otras palabras de idiomas fuertemente flexivos debería tenerse en cuenta que para obtener un número lo más fiel de respuestas quizá haga falta buscar distintas variaciones gramaticales que no son obvias para quien no conoce el lenguaje.

Realizar una búsqueda como ésta requiere unos conocimientos lingüísticos que no todo usuario de Wikipedia posee; pero la comunidad sí posee a gentes multilingües y es importante para los votantes y nominadores en una votación de borrado que al menos sean conscientes de las propias limitaciones y no se dejen convencer sólo por un pequeño número de resultados en Google, como, por ejemplo, para un poeta serbio, sin señalar la validez limitada de una búsqueda preliminar usando sólo la forma transcrita del nombre.

Véase también

Mirror filter (en inglés), una manera de filtrar en Google para eliminar los sitios que duplican los contenidos de Wikipedia
CopyPatrol, herramienta de detección de plagios
Earwig's Copyvio Detector, herramienta de detección de plagios