Indice
Trabalhar com dados
Dados estruturados x não estruturados x dados semiestruturados
Essas são as três formas de dados mais relevantes para Business Intelligence e Data Science. Os dados estruturados já existem há algum tempo, e os sistemas de relatórios tradicionais ainda dependem dessa forma de dados. No entanto, tem havido um rápido aumento na geração de fontes de dados semiestruturadas e não estruturadas nos últimos anos. Cada vez mais empresas buscam levar suas análises ao próximo nível, incluindo todas as três formas de dados.
Este artigo examinará as diferenças entre dados estruturados, semiestruturados e não estruturados e como as ferramentas modernas permitem que analisemos esses diferentes formatos de dados.
O que são dados estruturados?
Dados estruturados são informações que foram formatadas e transformadas em um modelo de dados bem definido. Os dados brutos são mapeados em campos predefinidos que podem ser posteriormente extraídos e lidos por meio de SQL facilmente. Os bancos de dados relacionais SQL, consistindo em tabelas com linhas e colunas, são o exemplo perfeito de dados estruturados.
O modelo relacional de dados estruturados utiliza memória, pois minimiza a redundância de dados. No entanto, isso também significa que os dados estruturados são mais interdependentes e menos flexíveis.
O que são dados semiestruturados?
Seus dados nem sempre serão estruturados ou não-estruturados – existe outra categoria entre essas duas que está parcialmente estruturada. Esses dados são definidos como semiestruturados. Este tipo de dado possui algumas características consistentes e definidas, não se restringindo a uma estrutura rígida como a necessária para bancos de dados relacionais. Propriedades organizacionais, como metadados ou tags semânticas, são usadas com dados semiestruturados para torná-los mais gerenciáveis; no entanto, ainda contêm alguma variabilidade e inconsistência.
Um exemplo de dados semiestruturados são os arquivos delimitados. Ele contém elementos que podem dividir os dados em hierarquias separadas. Da mesma forma, nas fotografias digitais, a imagem não possui uma estrutura própria pré-definida. Ainda assim, se for obtido de um smartphone, terá atributos estruturados como geotag, ID do dispositivo e carimbo de data e hora. Depois de armazenadas, as imagens também podem receber tags como ‘animal de estimação’ ou ‘cachorro’ para fornecer uma estrutura.
Em algumas ocasiões, dados não estruturados são classificados como semiestruturados porque têm um ou mais atributos de classificação.
O que são dados não estruturados?
Os dados presentes na forma bruta absoluta são denominados como não estruturados . Esses dados são difíceis de processar devido à sua complexa organização e formatação. Os dados não estruturados podem assumir várias formas, incluindo postagens em mídias sociais, bate-papos, imagens de satélite, dados do sensor IoT, e-mails e apresentações.
Diferenças entre dados estruturados, semiestruturados e não estruturados
Vamos diferenciar esses três tipos de estruturas de dados usando uma analogia. Suponha que existam três tipos de entrevistas de emprego: não estruturada, semiestruturada e estruturada.
Em uma entrevista não estruturada, as perguntas feitas são de escolha do entrevistador. Ele pode decidir as perguntas que deseja fazer e a ordem em que serão feitas.
Outro tipo é uma entrevista estruturada. Nesse caso, o entrevistador seguirá estritamente um roteiro criado pelo departamento de RH, e o mesmo roteiro será usado para todos os candidatos.
O terceiro tipo é semiestruturado. Nesse caso, a entrevista combinará os elementos de entrevistas não estruturadas e estruturadas. Incluiria os elementos quantitativos e de consistência, semelhante a uma entrevista estruturada. Porém, ao mesmo tempo, também terá a flexibilidade de personalizar as perguntas de acordo com a situação, o que é um aspecto da entrevista não estruturada.
Gostou do artigo? Compartilhe com seus amigos!