7. Modelos de negocio para la publicación editorial digital

7.3. Nuevos modelos digitales

7.3.5. Modelos avanzados (en implantación)

En el apartado 2 «Producción editorial digital: objetos, formatos y herramientas» hemos hablado sobre la web semántica y, en general, sobre la importancia de los metadatos para crear nuevos modelos de clasificación, acceso y manipulación de la información, que permiten desarrollar nuevos modelos de negocio relacionados con los contenidos digitales.

Estos modelos se basan en desmontar los objetos digitales y clasificar su contenido en función de información extra (metadatos) que el creador ha facilitado para identificar y dar valor semántico al contenido que forma cualquier publicación. Este procedimiento necesita un marcaje semántico del contenido (identificación de las diferentes partes de la publicación: títulos, párrafos, imágenes, citas, listas, etc.) y un añadido de información que defina el valor de cada elemento en un lenguaje que los sistemas informáticos puedan entender.

De este modo, si yo, con el uso de lenguajes de marcado semántico como HTML, defino la estructura de un documento indicando los elementos que lo forman, a posteriori podré identificar y seleccionar estos elementos independientemente del resto de la publicación. Si he identificado todos los títulos de una publicación, dando al sistema información que permita discernirlos del resto del contenido, será sencillo informáticamente copiar, manipular y mostrar estos elementos. Si, al contrario, todo el contenido tiene el mismo valor, y no hemos definido cuál es el papel de cada elemento en el conjunto de la publicación, este procedimiento será imposible.

Sin embargo, ¿qué podemos hacer con el contenido cuando este tiene un buen sistema de metadatos asociado y debemos definir el valor semántico de los elementos?

Las opciones son bastante amplias, a pesar de que la mayoría piden todavía una evolución de las herramientas y los lenguajes que usamos en la publicación editorial digital. Principalmente, giran en torno a la clasificación inteligente de los contenidos, la creación de compendios en función de determinados parámetros y la personalización de los contenidos en función de los tópicos de interés que nos facilite un lector.

Veámoslo con un poco más de detalle.

Si recordamos la estructura de un EPUB, uno de los formatos que nos permitirá acceder a este tipo de nuevas funcionalidades, el contenido textual que lo forma está marcado con HTML. Y decimos marcado porque HTML es un lenguaje que define la estructura del documento mediante marcas, identificando los diferentes elementos que lo forman y definiendo dónde empiezan y dónde acaban, marcas e identificadores que permiten discernir entre los distintos elementos de un texto en función de su valor semántico y el papel que ocupan en la estructura del texto.

Es muy fácil técnicamente identificar un tipo de elemento del código HTML y copiar su contenido, manipularlo, etc.

Además, gracias a las aportaciones de EPUB y los lenguajes web, podemos usar también características como el atributo epub:type para perfeccionar y afinar estos procesos. HTML, a pesar de que nos ofrece algunos elementos semánticos, a veces se queda corto para abrazar la complejidad de las publicaciones editoriales. Epub:type nos permite definir, para cada uno de los elementos que forman el código HTML, su valor semántico de acuerdo con un vocabulario preestablecido que los sistemas de lectura pueden reconocer.

Exemple d'ús de epub:type
Figura 33. Ejemplo de uso de epub:type aplicado al elemento section de HTML.
El elemento section define secciones de un documento.

Así, definiremos qué parte del texto es un preámbulo, identificaremos capítulos, portadas, subcapítulos, divisiones, resúmenes, prólogos, introducciones, conclusiones y un largo etcétera de opciones que nos permiten definir de manera muy cuidadosa cada uno de los elementos que forman una publicación.

Este proceso de identificación semántica de los elementos, sumado al añadido de metadatos avanzados que dan información extra sobre el contenido (EPUB utiliza el sistema DCcore), permite a los sistemas informáticos manipular el contenido con mucho más conocimiento de causa, y abre así la puerta al tratamiento inteligente del contenido mediante algoritmos.

Estos modelos permiten, por ejemplo, identificar la parte más importante de un conjunto de artículos, o de una colección, capturarla y crear un nuevo documento con este nuevo contenido, de manera automática, o seleccionar, de entre un catálogo en EPUB, las novelas en las que el curso narrativo tiene lugar en una localización concreta. Las opciones son infinitas.