Ayuda:Introducción a la Web Semántica

De NuestraCiudad
Saltar a: navegación, buscar

La Web Semántica es un paradigma emergente que incluye un grupo de tecnologías que hacen más fáciles la búsqueda y el uso de datos de todo tipo en Internet. Es también llamada Web de Datos o Web 3.0.

Una Web más estructurada

Cuando navegamos en Internet, casi todos los documentos están presentados para ser leidos por seres humanos. Pero a veces estaría bueno que también una máquina - es decir, un software - pueda procesar y "comprender" algunos de los datos, para que nos puedan asistir en la búsqueda de información y hasta para realizar distintos trabajos totalmente de manera automatizada.

Los buscadores actuales aún trabajan principalmente con búsquedas por palabras, es decir, detectan páginas en las cuales están incluidas las palabras ingresadas en el campo de búsqueda, pero no pueden detectar si la página realmente contiene información sobre el tema que buscamos.

Por ejemplo, si buscamos la fecha de un recital en la ciudad de Córdoba e ingresamos para tal fin las palabras recitales y cordoba a un buscador como Google, Bing o Yahoo, es muy probable que el buscador también "tire" datos sobre fechas de recitales en Córdoba, España, en otras localidades de la provincia de Córdoba, y sobre todo también páginas generadas automáticamente "optimizadas para buscadores" que contienen las palabras "Recitales" y "Córdoba" pero sin proveer ninguna información útil y cuya única finalidad es generar ingresos con publicidades (un gran problema últimamente).

Para que esto cambie las páginas deberían proveer información adicional para los buscadores y asistentes, para que estos puedan acceder directamente al contenido de las páginas, y diferenciar, en nuestro ejemplo, los recitales de Córdoba, España de los de Córdoba, Argentina.

Otro campo en el cual la Web Semántica ya comienza a asomarse es el de los servicios web, páginas web especializadas para proveer distintas informaciones a programas de software que resuelven distintos problemas de manera automatizada. Existen ya muchos servicios web de distintos tipos, desde pronósticos de tiempo hasta sofisticadas bases de datos automáticas en el ámbito de las ciencias exactas y de la salud. Pero la mayoría de estos web services tienen funciones únicas y usan vocabularios muy específicos; es decir, para cada servicio web hay que programar otras aplicaciones para que puedan procesar su información.

La Web Semántica pretende cambiar esto proveyendo una serie de lenguajes y estándares para que un buscador inteligente o agente personal pueda acceder a una gran cantidad de páginas y servicios web y encontrar realmente la información buscada.

Es importante comprender que la Web Semántica no es una "nueva Internet" ni un reemplazo de las tecnologías que la componen, como HTML. En cambio, se trata de recursos adicionales o "extensiones" para los sitios web y servicios web, para hacer más accesibles sus contenidos y hacer posible una búsqueda más "inteligente". Y, dicho sea de paso, tampoco tiene mucho que ver con la inteligencia artificial (aunque un buscador inteligente podrá tener capacidades sorprendentes) sino que se basa en tecnologías conocidas de las bases de datos.

Transformando la visión en realidad

Para poner en práctica la visión, los productores de contenidos web pueden marcar las palabras claves en sus páginas con un lenguaje especial. Solo así los buscadores semánticos pueden "comprender" sus contenidos.

Para seguir con nuesto ejemplo de arriba: En una página sobre recitales, es probable que haya información sobre los artistas que se presentan, el lugar dónde tocan, el precio y el horario. Podemos imaginarnos que esto, para el lector, sea presentado de la siguiente manera:

Baile de la Mona
  • Artista: La Mona Jiménez
  • Lugar: Estadio del Centro
  • Fecha: 22 de junio de 2012
  • Hora: 22:30

Para que un buscador semántico pueda "comprender" la primera frase, se marca el texto con el nombre del artista (en nuestro ejemplo: La Mona Jiménez) con una pequeña etiqueta - un fragmento de código - que le señaliza al buscador que se trata efectivamente del nombre del músico.

Ahora no te asustes, pero en la notación "Turtle" para el lenguaje RDF esto puede representar así:


ex:BaileDeLaMona ex:conArtista ex:LaMonaJiménez .


Básicamente, se puede leer esto como una oración normal: el primero de este triplete es el sujeto, el segundo el predicado o la propiedad y el tercero el objeto. En este caso, el "BaileDeLaMona" es el sujeto, ya que es el recital del que habla la página. "conArtista" lo relaciona con un músico, "LaMonaJiménez". (ex: es el llamado "espacio de nombre", una abreviación para un vocabulario o una parte de un vocabulario.)

Lo mismo podemos hacer con el lugar donde se desarrolla el evento, el precio y el horario en el cual tocan los músicos. Todo pasa a través de estas pequeñas etiquetas, que pueden ser agregados con software especial también por gente que no sabe programación.

RDF, el código que vimos recién, es el lenguaje más conocido y también el más expresivo para estas etiquetas. Es acompañado por una serie de llamados vocabularios que permiten agregar infomación de contexto. Los vocabularios se componen de términos ordenados de manera lógica.

Por un lado, con estos vocabularios podemos armar clasificaciones con los términos que usamos. Por ejemplo, podemos agrupar a todos los recitales bajo una categoría Eventos de Música. A ésta a su vez la podemos definir que sea sub-categoría de Eventos de Arte, en la cual encontraremos también muestras de Plástica y funciones de teatro y cine.

De la misma manera podemos agrupar todos los Eventos en la Ciudad de Córdoba en una categoría más amplia Eventos en la Provincia de Córdoba y esta en Eventos en Argentina. Un usuario de un buscador inteligente puede, entonces, elegir si quiere buscar solo los recitales o todos los eventos artísticos, o, de manera similar, si quiere ver los eventos en toda la Argentina, en la provincia de Córdoba o solamente los de la Ciudad de Córdoba. Las clasificaciones de este tipo se realizan con los vocabularios RDF Schema (RDFS) y OWL.

Además, con los vocabularios podemos definir explícitamente propiedades para relacionar dos o más términos entre si. Las propiedades se pueden describir como los "predicados" o verbos de una frase, que relacionan un sujeto con un objeto. Arriba ya hemos visto un ejemplo simple: conArtista relaciona a un evento con un artista. Pero además, nos puede interesar saber la fecha de nacimiento de un músico, conocer los integrantes de un grupo de teatro, o investigar sobre la técnica que suele usar un artista plástico. En todos estos casos queremos relacionar entidades con otras. Los términos que usamos para estas relaciones son las propiedades: por ejemplo Tiene Fecha de Nacimiento puede ser una propiedad para relacionar a una persona con su fecha de nacimiento, y Utiliza técnica artística la que correspondería para relacionar a un artista plástico con la técnica que utiliza.

Los nombres de tanto clases como propiedades son, en un principio, libres - y ahí radica uno de los desafíos que enfrenta la Web Semántica: encontrar estándares para que un buscador semántico realmente pueda comprender los contenidos de la mayor cantidad posible de páginas.

Si usamos vocabularios estandarizados - es decir, vocabularios que son usados ampliamente en la Web - para denominar clases y propiedades nos aseguramos que muchos buscadores inteligentes puedan encontrar la información porque ya "saben" que significan los términos. Los grandes buscadores Google, Yahoo y Bing en junio de 2011 se han unido y han definido un vocabulario, aún muy básico, para muchos tipos de páginas web llamado Schema.org. Sin embargo, muchas veces es necesario crear vocabularios nuevos. Con RDF, RDF Schema y OWL podemos modelar ontologías propias, relaciones complejas entre términos. Y cuando muchos usuarios se ponen de acuerdo cómo usar una ontología, puede emerger un nuevo vocabulario estandarizado.

La Web Semántica Social y los Wikis Semánticos

La Web Semántica Social es la combinación de tecnologías de la Web Social ("Web 2.0") con las de la Web Semántica.

En la Web Social, los contenidos son producidos no por una redacción central sino por usuarios ("User Generated Content"). El desafío de la Web Semántica Social ahora es proveer tecnologías para que también los usuarios de típicas comunidades 2.0, redes sociales, wikis et cétera puedan marcar sus contenidos con lenguajes como RDF para que sean "comprendidos" por los buscadores semánticos.

El desafío pasa principalmente por la usabilidad: Personas que no han estudiado informática normalmente no conocen RDF y sería muy difícil que todos ellos lo aprendan. Por eso, en las aplicaciones de la Web Semántica Social se trata de reducir la complejidad de RDF para que pueda ser utilizado también por usuarios que no lo entienden.

Los Wikis Semánticos son una de las primeras aplicaciones maduras de la Web Semántica Social. Permiten usar unos códigos muy simples para marcar contenido. Editar un wiki semántico no es mucho más difícil que editar en Wikipedia o escribir en un blog. Así, todos los interesados pueden producir textos enriquecidos con "significado" semántico y contribuir a la construcción de la gran visión de la Web Semántica. NuestraCiudad.info es uno de estos sitios.

Glosario de la Web Semántica

En el contexto de la Web Semántica hay muchos términos técnicos que están circulando y en su mayoría no son conocidos por los navegantes. A algunos los explicamos aquí brevemente:

  • Atributo: Sinónimo de propiedad.
  • Clase: Una categoría de cosas. Las clases normalmente están ordenadas de manera jerárquica. Por ejemplo, una página web biológica puede tener información sobre las clases Animales y Plantas, y los Animales pueden tener sub-clases de Mamíferos, Reptiles, Peces, Insectos etc. Todos los indivíduos que son miembros de las sub-clases también lo son de sus clases superiores (relación transitiva). En nuestro ejemplo: Todos los Reptiles también son Animales.
  • Etiqueta: Un lugar definido en un documento para anotar información contextual.
  • FOAF: acrónimo para Friend of a Friend, un vocabulario usado para contactos e información personal popular en redes sociales.
  • GoodRelations: Un vocabulario que se usa en el comercio electrónico, para marcar productos, marcas, precios etc.
  • Metadatos: Datos adicionales sobre un documento en la Web, por ejemplo el autor, el formato y la licencia de un video.
  • Microdata: Un estandar simple, alternativo a RDF, desarrollado por un consorcio de empresas liderado por Google. Microdata se incluye directamente en el código HTML y forma parte del estándar emergente HTML 5.
  • Microformatos: Una familia de estándares muy específicos, desarrollados por una comunidad web, muchos más simples que RDF y de alcance limitado, pero también de más fácil implementación.
  • Ontología: En la informática denomina a un modelo informacional que describe relaciones entre entidades de manera formal. Por ejemplo, una ontología simple podría describir la relación entre padre, madre, hijos, abuelos y nietos con los siguientes términos:
Cada hijo/hija tiene un padre y una madre.
El abuelo puede ser: el padre del padre o el padre de la madre.
La abuela puede ser: la madre del padre o la madre de la madre.
  • OWL: Acrónimo de Web Ontology Language. Un lenguaje en forma de un vocabulario para RDF que sirve para representar ontologías, es decir modelos de relaciones entre entidades y términos. Su alcance es superior a la de RDF Schema y casi similar al lenguaje natural. Por ejemplo, si queremos expresar formalmente que una empresa tiene al menos dos socios, podemos recurrir a OWL.
  • RDF: Acrónimo de Ressource Description Framework. Se puede considerar la base de los lenguajes y vocabularios que describen relaciones formales entre entidades y recursos. Fue desarrollado en 1999 por el World Wide Web Consortium, la organización que regula los estándares de la Web.
  • RDFa: Un estándar para poder integrar anotaciones en RDF, RDF Schema o OWL directamente en el código HTML de las páginas web.
  • RDF Schema: Un vocabulario para RDF para construir ontologías simples, basadas en taxonomías de clases y propiedades.
  • Schema.org: Un vocabulario simple, implementable a través de Microdata (y posiblemente RDFa), que usan los buscadores Google, Bing y Yahoo para mejorar sus resultados de búsquedas.
  • Wiki semántico: Un wiki es un sitio editable por sus usuarios. Los wikis semánticos además permiten agregar metadatos y otras anotaciones para poder ser utilizados tanto en las búsquedas internas de la página, como por programas externos.
  • XML: Acrónimo de eXtendible Markup Language. Un estandar para documentos de texto que puedan ser procesados por programas de software. RDF, RDFS y OWL son normalmente codificados en este formato. La alternativa es hacerlo directamente en el código fuente HTML, con RDFa.

Para seguir leyendo

En la web

  • Pablo Castells: La Web Semántica. Una introducción a los términos y las tecnologías básicas.
  • En el sitio web del W3C hay mucha información disponible sobre el tema: Semantic Web. Lamentablemente la mayoría de las informaciones solo está disponible en inglés.


Literatura sobre el tema

En castellano:

Ya está un poco desactualizado (es de 2007) pero parece ser el único libro sobre el tema en español. Se pueden hojear las primeras páginas en Google Books: [1] En Lulu.com se puede comprar el libro o bajarlo (por menos de 3 dólares): [2]

En inglés:

Descripción de las tecnologías de la Web Semántica y su inclusión en aplicaciones de Social Media como Wikis y Redes Sociales.
Libro técnico que introduce las principales tecnologías XML, RDF, RDFS, OWL y SPARQL. Muy útil sobre todo para los que desean introducirse al tema con mayor profundidad, por ejemplo para crear aplicaciones propias. Son de utilidad conocimientos básicos en Lógica e Informática.