Tem alguns minutos para viajar no tempo comigo antes de pedir para o ChatGPT escrever seus próximos textos? Sim, está tudo bem. Quer dizer, eu acho. Tem muita gente entupindo sites com artigos redigidos por inteligência artificial, consumindo ferramentas que prometem indexação de páginas em massa no Google e transformando o processo em cursos (ou infoproduto). Que, por sua vez, vão precisar de novos sites, novos artigos escritos por IA, novas ferramentas de divulgação, enfim.
Mesmo com o barulho das “pastelarias do ChatGPT”, vale a pena compreender melhor esse lugar onde essas barraquinhas de fritar texto se espalharam.
Como isso tudo começou?
No final dos anos 1980, a Web era descrita em uma proposta assinada por Tim Berners-Lee. Baseava-se em uma linguagem pioneira de marcação (o SGML) e tratava especificamente para a estruturação e apresentação de documentos: hierarquia de informação com títulos e intertítulos, além da cereja do bolo: os links entre recursos únicos (ou URI).
Mesmo depois de 30 anos, muitos ainda enxergam a World Wide Web como este lugar simples: uma rede de sites e suas páginas codificadas em HTML, traduzidas por um navegador e planejada para ser consumida, em essência, por seres humanos.
A Web, no entanto, não é um lugar simples de explicar. Ela tem propriedades inesperadas em função da sua estrutura simples, porém global, a partir da forma como documentos se conectam entre si. Esse comportamento coletivo e complexo ficou ainda mais sofisticado a partir dos primeiros sistemas de recuperação da informação na Web. Procure no Google a diferença entre o próprio Google e o que era, por exemplo, o AltaVista – sinônimo de “Google” até 1998.
O que isso tem a ver com semântica?
Antes do ChatGPT, ferramentas como blogs e sites amigáveis quebraram a barreira técnica para produção de textos, tornando a Web ainda mais complexa e repleta de conteúdos. Isso trouxe expectativa diante de uma etapa avançada de desenvolvimento desse ambiente, proposta pelo próprio Tim Berners-Lee. Grosso modo, a Web passaria a interligar dados, e não apenas documentos, para que as máquinas pudessem processar informação, permitindo que entendessem contexto e estabelecessem conexões entre si.
Chegamos, então, à ideia por trás da semântica. Ou seja, estruturar o significado das coisas.
Para que o Google e outros sistemas possam indexar, processar e responder “qual o significado das coisas” em cada página, foram desenvolvidos esforços para que fosse possível representar a informação associada a cada palavra. Isso se traduz em padrões e vocabulários relacionados à estrutura e sintaxe. Uma forma comum de nomear um padrão de categorizações envolvendo termos e seus significados é denominada taxonomia.
Essa não é a única forma de organizar informação. Áreas do conhecimento como Biblioteconomia e Ciência da Informação sugerem várias formas para estruturar dados. Procure no Google por Dublin Core, Dita, FOAF, SIOC, SKOS, DOAP… Voltando para a Web, vimos o progresso do que chamamos de “semantic web stack”. Jogue outras siglas no seu rol de termos para pesquisar mais tarde: XML, RDF, SPARQL, OWF…
Para não detalhar cada um desses recursos, vamos simplificar: usar qualquer padrão para representar o conhecimento é o que diferencia uma biblioteca de uma sala cheia de livros.
O que isso tem a ver com metadados?
Vamos dar mais um passo atrás. Se a informação de uma página web, um livro, uma fotografia, arquivos de áudio e vídeo podem ser melhor compreendidos por meio de etiquetas descritivas, dentro de padrões estabelecidos, precisamos de metadados.
Mais do que simplesmente rotular dados para que possam ser entendidos por humanos e máquinas, são eles que permitem a preservação, recuperação, reutilização e recontextualização da informação. Em outras palavras: é o que permite o Google ajustar sua página de resultados quando perguntam “qual o elenco da novela Mandala” ou “onde fica o estádio Strahov”. Pode testar.
Nossa viagem no tempo termina no instante em que inteligências artificiais se beneficiam diretamente do conhecimento fornecido por dados estruturados na web, organizados a partir de tecnologias semânticas apoiadas por metadados. Da mesma forma, sistemas como o Google podem construir ou aprimorar suas bases de conhecimento (ou “knowledge graphs”) a partir de grandes modelos de linguagem ou aprendizado de máquina.
É a interação entre modelos de linguagem e bases de dados estruturadas que vai dar impulso à web semântica. É o que pode separar o conhecimento corporativo aberto e organizado da pastelaria do ChatGPT.
A Soyuz é especialista em Arquitetura de informação! Fale com a gente!