Mineracao de Dados

Disciplina eletiva do Programa de Pós-Graduação em Gestão Urbana (PPGTU) da Pontifícia Universidade Católica do Paraná (PUCPR) destinada a estudantes de mestrado e doutorado desta e outras instituições (ouvintes). Áreas de interesse: engenharias, arquitetura e urbanismo, planejamento urbano, comunicação, geografia, sociologia, e outras disciplinas das ciências sociais e humanas.

Responsáveis: Fábio Teodoro de Souza, Agnes S. de Araujo e Demian Barcellos

Local e período

editar

Onde: PPGTU/PUCPR, Campus Curitiba. Bloco 4, 3º Andar, sala: a definir. As aulas para o ano de 2024 serão realizadas unicamente de forma presencial.

Quando: 1o semestre de 2024, 6 sessões:

  • Agosto: 07 e 14
  • Setembro: 04 e 11
  • Outubro: 09 e 16

Quarta-feira das 14:00 às 17:00h.

Carga horária:

editar

30 horas (2 créditos).

Ementa e objetivos

editar

Estatística básica: parâmetros estatísticos (média, mediana, percentis etc). Estatística multivariada: matriz de correlação, análise fatorial, dendrograma e k-means. Especificidades na obtenção de dados. Preparação dos dados: tratamento de inconsistências (falsos valores de zero, preenchimento de dados ausentes, avaliação de outliers, criação de novas variáveis etc) e transformação dos valores numéricos em categóricos usando métricas estatísticas. Modelagem espacial e análise espacial: inserção dos dados em um Sistema de Informações Geográfica e geração de regras de associação e classificação. Os objetivos são apresentar aos acadêmicos os conceitos fundamentais de mineração de dados a-espaciais e espaciais. Desenvolver um projeto usando as ferramentas computacionais aplicado em um banco de dados com variáveis temporais ou espaciais de uma temática urbana.

Metodologia

editar

A disciplina será desenvolvida presencial e os acadêmicos trabalham em base de dados com os softwares de extração de conhecimento. Portanto, as aulas terão maior teor prático desde a preparação dos dados nas planilhas eletrônicas até o uso dos softwares de modelagem. Os acadêmicos são capacitados para construir os modelos de regras de associação/classificação.

Conteúdo

editar
  • Apresentação da metodologia: Desastres Naturais e Saúde Urbana
  • Consistência dos dados, discretização de valores numéricos e preparação de variáveis categóricas.
  • Estatística multivariada (matriz de correlação, análise fatorial, dendrograma e K-means), Regras de Associação e Regras de Classificação e aplicações.
  • Inserção dos dados no SIG, aplicações, regras de associação espacial e análise espacial
  • Estratégia para a elaboração dos artigos

Avaliação

editar

O acadêmico deve entregar um artigo científico com os resultados da mineração de dados e/ou análise em sistemas de informações geográficas.

Bibliografia

editar

Básica

editar

AGRAWAL, R., SRIKANT, R. Fast algorithms for mining association rules, VLDB-94, 1994.

AGRAWAL, R., IMIELINKSI, T., SWAMIZ, A. Mining Association Rules between Sets of Ítems in Large Databases. Proc. SIG-MOD-93, ACM Press, New Cork, 1993, pp. 207-216, 1993.

BARCELLOS, D. S.; SCHIMALESKI, A. P. C.; SOUZA, F. T. Downsizing water quality monitoring programs in river basins in Brazil. Urban Water Journal, v. 18, p. 223-236, 2021.

HAN, J.; KAMBER, M. e PEI, J. Data mining: concepts and techniques. Second ed. San Francisco: Morgan Kaufmann Publishers, 2006.

MATHYS, T. ; SOUZA, F. T. ; BARCELLOS, D. S. ; MOLDEREZ, I. . The relationship among air pollution, meteorological factors and COVID-19 in the Brussels Capital Region. Science of the Total Environment, v. 857, p. 158933, 2023.

PYLE, D. Data Preparation for Data Mining, Morgan Kaufmann Publishers, San Francisco, 1999.

WITTEN, I.H., FRANK, E., HALL, M.A., PAL, C.J.. Data Mining. Elsevier. 2017. https://doi.org/ 10.1016/c2015-0-02071-8.

Complementar

editar

LIU, B., HSU, W., CHEN, S., MA, Y. Integrating Classification and Association Rule Mining. KDD-98, August, New York, 1998.

SOUZA, F. T. Morbidity Forecast in Cities: A Study of Urban Air Pollution and Respiratory Diseases in the Metropolitan Region of Curitiba, Brazil. Journal of Urban Health, 1-14, 2018.

SOUZA, F. T., KOENER, T. C., & CHLAD, R. A data-based model for predicting wildfires in Chapada das Mesas National Park in the State of Maranhão. Environmental Earth Sciences, 74(4), 3603-3611, 2015.

SOUZA, F. T. A data-based model to locate mass movements triggered by seismic events in Sichuan, China. Environmental monitoring and assessment, 186(1), 575-587, 2014.

SOUZA, F. T., & EBECKEN, N. F. A data based model to predict landslide induced by rainfall in Rio de Janeiro city. Geotechnical and geological engineering, 30(1), 85-94, 2012.

SOUZA, F. T. Predição de Escorregamentos das Encostas do Município do Rio de Janeiro Através de Técnicas de Mineração de Dados. Tese (DSc - Engenharia Civil) - Universidade Federal do Rio de Janeiro, Rio de Janeiro, 2004: http://www.coc.ufrj.br/index.php/teses-de-doutorado/148-2004/976-fabio-teodoro-de-souza