Introdução à Ciência da Computação/Introdução aos Bancos de Dados
Banco de Dados (ou bases de dados) é um dos conceitos mais importantes de Ciência da Computação. Um banco de dados normalmente agrupa informações utilizadas para um mesmo fim. O conceito de Banco de Dados é intimamente relacionado à computação, no sentido de que a computação estuda a estruturação de dados e as operações que possam ser realizadas sobre estes dados. Podemos definir um banco de dados como um conjunto de informações, estruturadas de forma a organizá-la para facilitar operações como inserção, busca e remoção sobre estes dados. Estas informações são geralmente manipuladas por um software que gerencia sua estrutura e operações que possam ser realizadas.
O conceito de Banco de Dados esta ligado à Biblioteconomia que é a ciência que estuda e trata o planejamento, a implementação, a administração e a organização da informação em unidades de informação (das quais podem ser citadas as bibliotecas, centros de documentação e informação, sistemas de informação, entre outros, nas organizações.
Um banco de dados é usualmente mantido e acessado por meio de um software conhecido como Sistema Gerenciador de Banco de Dados (SGBD). Normalmente um SGBD adota um modelo de dados, de forma pura, reduzida ou estendida. Muitas vezes o termo banco de dados é usado como sinônimo de SGBD.
O modelo de dados mais adotado hoje em dia é o modelo relacional, onde as estruturas têm a forma de tabelas, compostas por linhas e colunas.
Definição
editarO termo banco de dados foi criado inicialmente pela comunidade de computação, para indicar coleções organizadas de dados armazenados em computadores digitais, porém o termo é atualmente usado para indicar tanto bancos de dados digitais como bancos de dados disponíveis de outra forma. No Brasil, é mais comum usar o termo base de dados quando se mencionam outros tipos de bancos de dados, além daqueles armazenados em um computador e gerenciados por um Sistema Gerenciador de Banco de Dados (SGBD).
Aceitando uma abordagem mais técnica, um banco de dados é uma coleção de registros salvos em um computador de um modo sistemático, de forma que um programa de computador possa consultá-lo para responder questões.
Normalmente um registro está associado a um conceito completo e é dividido em campos, ou atributos, que dão valores a propriedades desses conceitos. Possivelmente alguns registros podem apontar diretamente ou referenciar indiretamente outros registros, o que faz parte da caracterização do modelo adotado pelo banco de dados.
A descrição de quais são os tipos de registros existentes em um banco de dados e ainda quais são os campos de cada registro é conhecida como esquema do banco de dados ou esquema relacional.
Estritamente falado, o termo banco de dados deve ser aplicado apenas aos dados, enquanto o termo Sistema Gerenciador de Bancos de Dados deve ser aplicado ao software com a capacidade de manipular bancos de dados de forma geral. Porém, é comum misturar os dois conceitos.
Modelos de Dados
editarA maneira mais prática de classificar bancos de dados é de acordo com a forma que seus dados são vistos pelo usuário, ou seja, seu modelo de dados. Diversos modelos foram e vem sendo utilizados ao longo da história, com vantagens para um ou para outro por determinados períodos.
Atualmente, a classificação mais comum citaria 4 modelos básicos:
- Modelos Navegacionais, divididos em:
- Modelo Hierárquico
- Modelo em Redes
- Modelo Relacional
- Modelo Orientado a Objetos
Porém, outros modelos podem ser citados, incluindo:
- Modelo de Entidades e Relacionamentos
- Modelo de lista invertida
- Modelo Relacional Estendido
- Modelo Semi-Estruturado
Historicamente, o modelo de bancos de dados em rede foi implementado primeiro; porém o primeiro produto comercial usava o modelo de bancos de dados hierárquico, que nada mais é que uma versão simplificada do primeiro. Ambos os modelos foram resultado da busca de usar mais efetivamente os novos dispositivos de memória secundária de acesso direto, que substituiam os cartões perfurados e as fitas magnéticas. Isso aconteceu na década de 1960.
Em 1970 E.F. Codd propôs o modelo de bancos de dados relacional que surgiu e ganhou destaque teórico imediato. Porém, a implementação do modelo exigia pesquisas e só na década de 1980 eles iam começar a ganhar o mercado, se estabilizando totalmente como líder do mercado a partir da década de 1990.
Podemos identificar o aparecimento do que pode ser chamado modelo plano (tabular) para fins mais diretos e simples. Nesse caso, os dados estão simplesmente arranjados em uma única matriz bi-dimensional de elementos de dados na qual todos os membros de uma dada coluna possuem valores de mesmo tipo, e todos os membros de uma linha estão relacionados entre si. Seu melhor exemplo são as planilhas eletrônicas.
O único modelo que foi extensamente tratado de forma teórica foi o modelo relacional. Os modelos pré-existentes foram fruto de implementações, enquanto os modelos subsequentes, como o modelo orientado a objetos, não apresentavam um campo tão rico para novas teorias, mas apresentam grandes desafios para a implementação eficiente das operações necessárias.
Modelos Navegacionais
editarNo modelo navegacional, os dados são organizados em registros, que são coleções de itens de dados, e podem ser armazenados ou recuperados de um banco de dados de forma conjunta. É possível que um registro possua uma estrutura interna, e elementos (itens de dados) contínuos podem ser agrupados, que também podem formar outros grupos. Dessa forma, um registro pode ter uma construção hierárquica. Os registros com a mesma estrutura formam um tipo de registro, que podem ser considerados equivalentes a uma tabela fora da primeira forma normal, ou ainda a um objeto complexo. Os tipos de registro possíveis em um banco de dados são definidos em seu esquema.
A principal característica do modelo em redes é permitir a navegação entre os registros, por meio de Conjuntos de Dados, que possui um registro proprietário e registros membros, implementados por meio de ponteiros. Basicamente, registros equivalem a entidades e conjuntos de dados equivalem a descrição dos relacionamentos. Como não há limitação na topologia criada pelos registros e conjuntos, o modelo permite a criação de redes, de onde ganhou o nome.
Um subconjunto particular do modelo de rede, o modelo hierárquico, limita os relacionamentos a uma estrutura de árvore, ao contrário da estrutura aplicada pelo modelo de rede completo.
O modelo em redes foi definido formalmente em 1971, pela Conference on Data Systems Languages (CODASYL), de onde ganhou seu outro nome: modelo CODASYL.
Modelos Relacionais
editarO modelo relacional é uma teoria matemática desenvolvida por Edgar Frank Codd para descrever como as bases de dados devem funcionar. Embora esta teoria seja a base para o software de bases de dados relacionais, muitos poucos sistemas de gestão de bases de dados seguem o modelo de forma restrita, e todos têm funcionalidades que violam a teoria, desta forma variando a complexidade e o poder. A discussão se esses bancos de dados merecem ser chamados de relacional ficou esgotada com tempo, com a evolução dos bancos existentes.
De acordo com a arquitetura ANSI / SPARC em três níveis, os bancos de dados relacionais consistem de três componentes:
- uma coleção de estruturas de dados, formalmente chamadas de relações, ou informalmente tabelas, compondo o nível conceitual;
- uma coleção dos operadores, a álgebra e o cálculo relacionais, que constituem a base da linguagem SQL; e
- uma coleção de restrições da integridade, definindo o conjunto consistente de estados de base de dados e de alterações de estados. As restrições de integridade podem ser de quatro tipos:
- domínio (ou tipo de dados),
- atributo,
- relvar e
- restrições de base de dados.
Diferentemente dos modelos navegacionais, não existem quaisquer ponteiros, de acordo com o Princípio de Informação: toda informação tem de ser representada como dados; qualquer tipo de atributo representa relações entre conjuntos de dados.
Diferentemente dos bancos de dados em rede, nos bancos de dados relacionais os relacionamentos entre as tabelas não são codificados explicitamente na sua definição. Em vez disso, se fazem implicitamente pela presença de atributos chave. As bases de dados relacionais permitem aos utilizadores (incluindo programadores) escreverem consultas (queries), reorganizando e utilizando os dados de forma flexível e não necessariamente antecipada pelos projetistas originais. Esta flexibilidade é especialmente importante em bases de dados que podem ser utilizadas durante décadas, tornando as bases de dados relacionais muito populares no meio comercial.
Um dos pontos fortes do modelo relacional de banco de dados é a possibilidade de definição de um conjunto de restrições de integridade. Estas definem os conjuntos de estados e mudanças de estado consistentes do banco de dados, determinando os valores que podem e os que não podem ser armazenados.
Bancos de Dados Orientados a Objetos
editarNa década de 90, o modelo baseado na orientação a objeto foi aplicado também aos bancos de dados, criando um novo modelo de programação conhecido como bancos de dados orientados a objeto. Os objetos são valores definidos segundo classes, ou tipos de dados complexos, com seus próprios operadores (métodos).
Com o passar do tempo, os sistemas gestores de bancos de dados orientados a objeto e os bancos de dados relacionais baseados na linguagem SQL se aproximaram. Muitos sistemas orientados a objeto são implementados sobre bancos de dados relacionais baseados em linguagem SQL.
O resultado comercial, porém, foi pequeno. Atualmente vários princípios de orientação a objeto foram adotados pelos bancos de dados relacionais, gerando o que pode ser chamado de banco de dados relacional estendido.
Bancos de Dados Semi-Estruturados
editarMais recentemente ainda, apareceram os bancos de dados semi-estruturados, onde os dados são guardados e manipulados na forma de XML ou JSON. Novamente, os produtores de bancos de dados relacionais responderam estendendo suas capacidades para também tratar dados semi-estruturados.
Índices
editarTodos os tipos de bancos de dados podem ter seu desempenho melhorado pelo uso de índices. O tipo mais comum de índice é uma lista ordenada dos valores de uma coluna de uma tabela, contendo ponteiros para as linhas associadas a cada valor. Um índice permite que o conjunto das linhas de uma tabela que satisfazem determinado critério sejam localizadas rapidamente. Há vários métodos de indexação utilizados comumente, como árvores B, hashes e listas encadeadas, que podem ser visualizados na disciplina de Estrutura de Dados II.
Utilização
editarOs bancos de dados são utilizados em muitas aplicações, abrangendo praticamente todo o campo dos programas de computador. Os bancos de dados são o método de armazenamento preferencial para aplicações multiusuário, nas quais é necessário haver coordenação entre vários usuários. Entretanto, são convenientes também para indivíduos, e muitos programas de correio eletrônico e organizadores pessoais baseiam-se em tecnologias padronizadas de bancos de dados.
Um banco de dados é um conjunto de informações com uma estrutura regular. Um banco de dados é normalmente, mas não necessariamente, armazenado em algum formato de máquina lido pelo computador. Há uma grande variedade de bancos de dados, desde simples tabelas armazenadas em um único arquivo até gigantescos bancos de dados com muitos milhões de registros, armazenados em salas cheias de discos rígidos.
Bancos de dados caracteristicamente modernos são desenvolvidos desde os anos da década de 1960. Um pioneiro nesse trabalho foi Charles Bachman.
Apresentação dos Dados
editarA apresentação dos dados geralmente é semelhante à de uma planilha eletrônica, porém os sistemas de gestão de banco de dados possuem características especiais para o armazenamento, classificação e recuperação dos dados. É comum que haja uma ligação entre as tabelas de um banco de dados e programas desenvolvidos em linguagens como C++, Delphi, Visual Basic e outros. Nestes casos a apresentação do banco bem como a navegação, é definida pelo programador ou o designer de aplicações. Como hoje em dia a maioria das linguagens de programação fazem um "link" com bancos de dados, a apresentação deste tem ficado cada vez mais a critério dos meios de programação, fazendo com que os bancos de dados deixem de restringir-se às pesquisas básicas, dando lugar ao compartilhamento em tempo real de informações, mecanismos de busca inteligentes e permissividade de acesso hierarquizada.
Direitos de propriedade
editarA Diretiva CE de Bases de Dados (EU Database Directive), estabelecida pelo Parlamento Europeu em de 11 de março de 1996, fixa os termos de proteção jurídica a bancos de dados, em particular os direitos de propriedade sobre a base.
Mesmo para os países que não a adotam explicitamente, ou não possuam normas mais específicas sobre o tema, como o Brasil, tem sido a principal referência.
Segurança em Banco de Dados
editarOs bancos de dados são utilizados para armazenar diversos tipos de informações, desde dados sobre uma conta de e-mail até dados importantes da Receita Federal. Para tal existem diversos tipos, os quais variam em complexidade e sobretudo em segurança.
São meios de proteger as informações armazenadas num banco de dados
- Criptografia
- Politica de segurança por perfil de usuário
- Backup
Modelos de base de dados
editarO modelo plano (ou tabular) consiste de matrizes simples, bidimensionais, compostas por elementos de dados: inteiros, números reais, etc. Este modelo plano é a base das planilhas eletrônicas.
O modelo em rede permite que várias tabelas sejam usadas simultaneamente através do uso de apontadores (ou referências). Algumas colunas contêm apontadores para outras tabelas ao invés de dados. Assim, as tabelas são ligadas por referências, o que pode ser visto como uma rede. Uma variação particular deste modelo em rede, o modelo hierárquico, limita as relações a uma estrutura semelhante a uma árvore (hierarquia - tronco, galhos), ao invés do modelo mais geral direcionado por grafos.
Bases de dados relacionais consistem, mais de três componentes: uma coleção de estruturas de dados, nomeadamente relações, ou informalmente tabelas; uma coleção dos operadores, a álgebra e o cálculo relacionais; e uma coleção de restrições da integridade, definindo o conjunto consistente de estados de base de dados e de alterações de estados. As restrições de integridade podem ser de quatro tipos: domínio (também conhecidas como type), atributo, relvar e restrições de base de dados.
Diferentemente dos modelos hierárquico e de rede, não existem quaisquer apontadores, de acordo com o Princípio de Informação: toda informação tem de ser representada como dados; qualquer tipo de atributo representa relações entre conjuntos de dados. As bases de dados relacionais permitem aos utilizadores (incluindo programadores) escreverem consultas (queries) que não foram antecipadas por quem projetou a base de dados. Como resultado, bases de dados relacionais podem ser utilizadas por várias aplicações em formas que os projetistas originais não previram, o que é especialmente importante em bases de dados que podem ser utilizadas durante décadas. Isto tem tornado as bases de dados relacionais muito populares no meio empresarial.
O modelo relacional é uma teoria matemática desenvolvida por Ted Codd para descrever como as bases de dados devem funcionar. Embora esta teoria seja a base para o software de bases de dados relacionais, muito poucos sistemas de gestão de bases de dados seguem o modelo de forma restrita e todos têm funcionalidades que violam a teoria, desta forma variando a complexidade e o poder. A discussão se esses bancos de dados merecem ser chamados de relacional ficou esgotada com tempo, com a evolução dos bancos existente.
Aplicações de bancos de dados
editarBancos de dados são usados em muitas aplicações, enquanto atravessando virtualmente a gama inteira de software de computador. Bancos de dados são o método preferido de armazenamento para aplicações multiusuárias grandes donde coordenação entre muitos usuários é necessária. Até mesmo usuários individuais os acham conveniente, entretanto, e muitos programas de correio eletrônico e os organizadores pessoais estão baseado em tecnologia de banco de dados standard.
Transação
editarÉ um conjunto de procedimentos que é executado num banco de dados, que para o usuário é visto como uma única ação. A integridade de uma transação depende de 4 propriedades, conhecidas como ACID.
- Atomicidade: Uma transação não pode ser executada pela metade, isto é, ou se executa ela por inteiro, ou se retorna para o estado anterior a transação, onde nada foi executado. Também chamado de Princípio do "Tudo ou Nada".
- Consistência: Consistência de dados é quando não há informações conflitantes no banco. Uma transação só executa se o estado do Banco de Dados permanecer consistente após seu fim.
- Isolamento: Sua necessidade surge em execuções concorrentes, a intercalação das diversas transações que ocorrem simultaneamente, não podem ser intercaladas de forma a gerar um estado inconsistente.
- Durabilidade: Quando ocorre falha no banco de dados, apos a execução com sucesso de uma transação, a durabilidade garante por algum mecanismo a recuperação das informações perdidas.
Na prática, alguns SGBDs relaxam na implementação destas propriedades buscando desempenho.
Controle de concorrência é um método usado para garantir que as transações são executadas de uma forma segura e segue as regras ACID. Os SGBD devem ser capazes de assegurar que nenhuma ação de transações completadas com sucesso (committed transactions) seja perdida ao desfazer transações abortadas (rollback). Uma transação é uma unidade que preserva consistência. Requeremos, portanto, que qualquer escalonamento produzido ao se processar um conjunto de transações concorrentemente seja computacionalmente equivalente a um escalonamento produzindo executando essas transações serialmente em alguma ordem. Diz-se que um sistema que garante esta propriedade assegura a seriabilidade.
Resumo
editar- Banco de Dados ou Base de Dados é um conjunto de informações, estruturadas de forma a organizá-la para facilitar operações como inserção, busca e remoção sobre estes dados. Estas informações são geralmente manipuladas por um software que gerencia sua estrutura e operações que possam ser realizadas.
- Modelo de dados é a classificação de como os dados são vistos pelo usuário. Entre os diversos modelos existentes podemos apontar o Modelo Hierárquico, Modelo em Redes, Modelo Relacional e o Modelo Orientado a Objetos.
Exercícios
editarVocê pode se considerar apto a mudar para o próximo módulo se obter 100% de aproveitamento (4 acertos).
Bibliografia
editar- Banco de Dados, artigo da Wikipédia em português.
- Database, artigo da Wikipédia em inglês.