Del curso: Aprende data science: Conceptos básicos

Comparte datos semiestructurados

Del curso: Aprende data science: Conceptos básicos

Comparte datos semiestructurados

Los equipos de data science trabajan con muchos tipos de datos. Las bases de datos relacionales son la mejor opción para datos estructurados. Con un modelo de datos estricto, los datos estructurados caben en el esquema. Es como una hoja de cálculos con filas y columnas fijas. Con los datos estructurados, los informes se crean con facilidad. Puedes usar un lenguaje de consulta estructurada como SQL para extraer los datos de tu base de datos y mostrarlos en un formato estándar. Cuando los datos estructurados se anidan en la base de datos relacional, parece que el mundo entero estuviera organizado. Es como las especias en sus especieros. Sabes dónde está cada cosa y dónde ir a buscarla. El problema es que muy pocas aplicaciones son tan sencillas. Tenemos una web de zapatillas deportivas, e imagina que utilizas una base de datos relacional. Tienes cuatro tablas, una para los zapatos, otra para los clientes, otra para sus direcciones y opciones de envío. Todos los datos estructurados caben en un modelo de datos. Las fechas son estándar, los códigos postales también. Sale todo bien, el mundo parece un lugar maravilloso. Hasta que recibes un mensaje de la compañía de reparto. El repartidor dice que podrías bajar los costos de forma sustancial añadiendo la información directamente en su base de datos. Debes consultar su base de datos, descargar uno de los códigos de envío regionales y añadirlo al pedido para crear un nuevo registro. Debería ser fácil, porque las bases de datos son similares. Son datos estructurados en bases de datos relacionales. El problema es que su esquema no es igual al tuyo. Tu código postal se llama ZIPCode. Ellos lo han llamado código PostalCode. A ti no te afecta si el envío va a una empresa o a una residencia. A ellos, sí. Tú no necesitas especificar si es una casa o un apartamento. Para ellos son tarifas diferentes. Tienes que encontrar la forma de intercambiar tus datos estructurados con los suyos, aunque tengan esquemas diferentes. Para resolverlo, tienes que descargar los datos y su base de datos. Cuando te envían una dirección, tiene que incluir los nombres de los campos y el modelo de datos. Cuando un cliente pide unas zapatillas, tu base de datos enviará el código postal a su base de datos. Te devolverá unos cuantos datos que incluyan su versión de la dirección con los nombres de campo que usan. Recuerda que usan la etiqueta «codigopostal» para el CP. Se incluirá en el dato de nueva creación. Los datos del repartidor tienen características de datos estructurados. Están bien organizados y tienen formato estándar. El campo de texto siempre será de texto. Los campos de fechas siempre serán de fechas. Pero los datos incluyen el esquema del repartidor, que puede utilizar los nombres que quiera. Por eso, este tipo de datos se llaman semiestructurados. Estos datos son más populares que los estructurados. Tienen cierta estructura, pero esta depende de la fuente. Trabajas con datos semiestructurados todo el tiempo. El correo electrónico es de datos semiestructurados, con una estructura bastante coherente. Siempre tienes un emisor y un destinatario, pero los nombres y el contenido del campo pueden variar. Los equipos de ciencia de datos trabajan más con datos semiestructurados que con los de tipo estructurado. Hablamos de cantidades de correos, blogs y redes sociales que se pueden analizar. Hay algunas formas establecidas de trabajar con datos semiestructurados. Uno de ellos es XML, el tipo antiguo de datos semiestructurados que se usa para intercambiar información. También existe JSON o JavaScript Object Notation, que es una forma actualizada de intercambiar datos de este tipo. Es el tipo de datos preferido para los servicios web. Es muy probable que tu página web de zapatillas reciba datos JSON del repartidor de envíos. Con datos semiestructurados, puedes hacerte preguntas más interesantes. Supón que queremos conocer la opinión de los clientes. ¿Están satisfechos con sus pedidos? Puedes descargar datos semiestructurados de redes sociales. Luego, combinas esos datos con los datos estructurados que tienes acerca del cliente. Si no está satisfecho, puedes enviarle un cupón de resarcimiento. Este tipo de preguntas son las que surgen del uso combinado de datos estructurados y semiestructurados.

Contenido