¿Cómo funcionan los robots semánticos?

Un robot semántico es como un programa que recorre una estructura de hipertexto recuperando uno y todos los enlaces que están referenciados para, subsiguientemente, alimentar las grandes bases de datos de los motores de búsqueda de la Web. Lo que hacen es visitar los sitios y extraer los enlaces que están incluidos dentro de estos. Prestan atención al significante y al significado de las búsquedas. Es decir, que la consulta  tiene como objetivo no sólo encontrar palabras clave, sino determinar la intención y el significado contextual de las palabras que una persona está utilizando para la búsqueda.[1] Su objetivo es brindarnos los mejores resultados posibles, y para ello necesita más información que unas simples palabras claves; precisa conocer el contexto en el que las estamos insertando para saber qué es lo que queremos.

Estos robots son potentes programas que recorren la Web de forma automática y buscan textos, a través de los documentos HTML (u otro tipo de formatos como pdf, imágenes, etc.), donde se incluyan determinadas palabras. Estos textos, junto con las direcciones URL que los contienen, son indexados, clasificados y almacenados en grandes bases de datos para que los internautas, a la postre, dirijan allí sus consultas e interroguen a la base de datos buscando alguna palabra o frase. Los robots vuelven a recorrer periódicamente estas páginas para buscar alguna modificación o la incorporación de nuevas palabras. Comienzan con un listado de enlaces y URLs preseleccionadas y, recurrentemente, de forma automática, visitan los documentos que se referencian desde las mismas.

Coexisten disimiles robots rastreando la red. Muchos de ellos no respetan las convenciones de operación, por lo que las indicaciones de acceso o las instrucciones de restricción de dicho acceso sólo serán respetadas por aquellos que operen siguiendo la ética de la red. Estos estándares se pueden consultar en Robots Exclusion.

Cada motor de búsqueda sigue unas diferentes características de rastreo o crawling (rastreo profundo, soporte de: marcos, mapas de imágenes, lectura del archivo robots.txt, metaíndice robot, rastreo de enlaces de popularidad, aprender de la frecuencia, inclusión de pago, etc.), características de indización (texto completo, palabras vacías, metadescripción, meta palabras clave, texto alternativo, comentarios, etc.) y características de clasificación (estímulos de clasificación por meta-índices, enlaces de popularidad, por aciertos directos, etc.). También reaccionan de forma distinta ante el uso de técnicas para mejorar la clasificación, lo que se denominan técnicas de spam, entre las que destacan: redireccionamiento que conducen a otras páginas y colocar texto invisible al ojo humano, pero legible por el motor de búsqueda; entre otras. Muchos robots prohíben el uso de estas técnicas y directamente no indizan estas páginas, mientras que otros robots no indizan el texto pequeño porque lo suelen confundir con spam, por ejemplo.

The Web Robots Page ofrece información sobre los robots que operan en la Web y una base de datos por tipos de robots con las principales características de cada uno: propósito, plataforma de utilización, contacto, etc.

Varios investigadores se enfrascan en diseñar e implementar sistemas de navegación semántica que gestionen una mayor cantidad de conceptos y relaciones, al mismo tiempo que se estudian las implementaciones más eficientes. Esto permite clasificar de una manera precisa el entorno y dota de mayor autonomía al robot a la hora de encontrar rutas que le acerquen a su destino.

Todos los navegadores necesitan manejar un mapa que sirve para que el robot se localice en el mundo que le rodea. La navegación semántica requiere además que se incorporen al robot varios subsistemas que aporten distintas habilidades, por ejemplo: (1) la capacidad sensorial, puesto que el robot necesita percibir los objetos del entorno y (2) la capacidad de interacción con los usuarios humanos.

Para un robot semántico lo más importante es el contenido de los artículos, que deben estar escritos en lenguaje natural. Los usuarios ya no tienden a escribir como robots, sino que preguntan al buscador como si estuvieran hablando con otra persona. Esta tendencia se va a incrementar con las búsquedas por voz, lo que significa que nuestros contenidos deben estar adaptados a esta tendencia.

 

[1] El SEO semántico. Disponible en: http://seocoaching.co/que-es-el-seo-semantico/

 

Comentarios

mood_bad
  • No hay comentarios todavía.
  • Agrega un comentario