FUNDAÇÃO GETULIO VARGAS ESCOLA DE ADMINISTRAÇÃO DE EMPRESAS DE SÃO PAULO EDUARDO DE REZENDE FRANCISCO INDICADORES DE RENDA BASEADOS EM CONSUMO DE ENERGIA ELÉTRICA: ABORDAGENS DOMICILIAR E REGIONAL NA PERSPECTIVA DA ESTATÍSTICA ESPACIAL SÃO PAULO 2010 EDUARDO DE REZENDE FRANCISCO INDICADORES DE RENDA BASEADOS EM CONSUMO DE ENERGIA ELÉTRICA: ABORDAGENS DOMICILIAR E REGIONAL NA PERSPECTIVA DA ESTATÍSTICA ESPACIAL Tese apresentada à Escola de Administração de Empresas de São Paulo da Fundação Getulio Vargas, como requisito para obtenção do título de Doutor em Administração de Empresas Linha de Pesquisa: Administração, Análise e Tecnologia da Informação Orientador: Prof. Dr. Francisco Aranha SÃO PAULO 2010 Francisco, Eduardo de Rezende. Indicadores de Renda baseados em Consumo de Energia Elétrica: Abordagens Domiciliar e Regional na Perspectiva da Estatística Espacial / Eduardo de Rezende Francisco. - 2010. 381 f. Orientador: Francisco Aranha Tese (doutorado) - Escola de Administração de Empresas de São Paulo. 1. Energia elétrica – Consumo – São Paulo (SP). 2. Renda – Distribuição – São Paulo -- Indicadores. 3. Análise espacial (Estatística) 4. Família – Condições econômicas – São Paulo (SP). 5. Pesquisa – Métodos estatísticos. I. Aranha, Francisco. II. Tese (doutorado) - Escola de Administração de Empresas de São Paulo. III. Título. CDU 330.564(816.11) EDUARDO DE REZENDE FRANCISCO INDICADORES DE RENDA BASEADOS EM CONSUMO DE ENERGIA ELÉTRICA: ABORDAGENS DOMICILIAR E REGIONAL NA PERSPECTIVA DA ESTATÍSTICA ESPACIAL Tese apresentada à Escola de Administração de Empresas de São Paulo da Fundação Getulio Vargas, como requisito para obtenção do título de Doutor em Administração de Empresas Linha de Pesquisa: Administração, Análise e Tecnologia da Informação Data de aprovação: 29 / 04 / 2010 Banca examinadora: ____________________________________ Prof. Dr. Francisco Aranha (Orientador) FGV-EAESP ____________________________________ Prof. Dr. André Samartini FGV-EAESP ____________________________________ Prof. Dr. Luiz Artur Ledur Brito FGV-EAESP ____________________________________ Prof. Dr. Reinaldo Castro Souza PUC-Rio ____________________________________ Prof. Dr. Haroldo da Gama Torres CEBRAP À minha filha Gabrielle Mei, à minha esposa Suzana, e aos meus pais Waldemar e Elfrida AGRADECIMENTOS Ao Chico Aranha, por ter me trazido ao convívio acadêmico, pela orientação, pela confiança e pela incessante disposição na busca de novos desafios. Ao Prof. Peter Whigham, que tão bem me recebeu e me orientou no Spatial Information Research Centre na Universidade de Otago, Nova Zelândia. Seus insights com relação aos algoritmos de alocação de pontos em polígonos foram fundamentais para o encaminhamento que foi dado neste trabalho. E ao Prof. Tony Moore, que acompanhou-nos nas reuniões semanais durante meu período de pesquisador visitante em Dunedin. Aos ex-colegas de AES Eletropaulo Luiz José Hernandes Jr., Ricardo Gobbi Lima e à colega Carmen Samora, por terem proporcionado minha licença temporária da AES Eletropaulo para poder desenvolver parte fundamental desta tese no exterior. Aos colegas de pesquisa Felipe Zambaldi, Mateus Canniatti Ponchio e Rafael Goldszmidt pelas pesquisas em conjunto e pela cumplicidade, apoio e amizade. A muitos colegas do mestrado e doutorado da FGV-EAESP, alunos e professores, pela prática de compartilhar o aprendizado e por muitos ótimos momentos – Alexandre Gracioso, Alexandre Barbosa, Wilton Bussab, André Samartini, Abraham Laredo Sicsú, Nelson Lerner Barth, Otávio Sanchez, George Avelino, Eduardo Diniz, Plínio Bernardi, Maira Petrini, Luiz Brito, Alberto Luiz Albertin e Lauro Emílio Gonzalez da Silva. A Leny Medeiros e Pedro Eugênio, da ABRADEE, pela autorização de uso do banco de dados da Pesquisa ABRADEE, pela aposta na aplicação piloto da Pesquisa ABRADEE 2009 na AES Eletropaulo e pela confiança no trabalho conjunto de amadurecimento contínuo das pesquisas de satisfação de clientes para o setor elétrico. E aos colegas do GT de Pesquisas da ABRADEE, pelas aventuras que vivemos Brasil afora em nossa eterna busca pelo melhor entendimento da percepção do cliente – inspirações para o uso da Pesquisa ABRADEE nesta tese. Aos amigos da Innovare e da Vox Populi, pelo apoio no fornecimento dos dados da Pesquisa ABRADEE, pelo esclarecimento das dúvidas quanto ao planejamento amostral da pesquisa e pela parceria em inúmeros trabalhos de satisfação de clientes. Aos amigos Aline Rodrigues dos Santos, Eduardo Carlos Ferreira e Rafael Goldszmidt (de novo), pela parceria, discussões e desafios dos modelos de estatística espacial e geomarketing para o microcrédito. Ao Prof. Chris Brunsdon, pesquisador da Universidade de Leicester, Reino Unido, e um dos criadores da GWR, pelo interesse e apoio no desenvolvimento deste trabalho e pela cessão da biblioteca desenvolvida em R, fundamental para a aplicação da regressão espacial nas amostras das alternativas de alocação de pontos em polígonos. Ao Sergio Nakamura, da Secretaria de Energia do Estado de São Paulo, pela cessão dos dados de consumo de energia de 2000 a 2005 dos municípios da Grande São Paulo, utilizados neste trabalho. À Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES), pela concessão da bolsa de estudos que apoiou meu curso de doutorado e principalmente pela gestão da bolsa do Programa de Doutorado no País com Estágio no Exterior (PDEE), que proporcionou meu período de estágio em 2007 na Universidade de Otago, em Dunedin, Nova Zelândia. Em especial, à Valdete Lopes e Angélica Alves da Silva. À minha esposa Suzana, por acreditar nessa empreitada, pelo incentivo em todos os momentos, e pela ajuda fundamental na revisão e organização desta tese. A meus pais, sogros, irmãos, cunhadas, familiares e amigos, pelo incentivo habitual e pela torcida pelo sucesso em mais esta etapa da minha vida. À FGV-EAESP, por ter me recebido tão bem e proporcionado meu desenvolvimento como pesquisador no mestrado e doutorado em Administração de Empresas. E, finalmente, à AES Eletropaulo, por ter apostado no meu desenvolvimento acadêmico e profissional – agradeço a confiança depositada e retribuo na concretização e disseminação deste trabalho com potencial aplicação na empresa. Aos amigos e colegas de trabalho, pelos mais de dez anos de convívio e aprendizado. RESUMO Com o objetivo de avaliar o uso do consumo de energia elétrica como indicador socioeconômico, esta pesquisa analisa informações em dois níveis de agregação geográfica. No primeiro, sob perspectiva territorial, investiga indicadores de Renda e Consumo de Energia Elétrica agregados por áreas de ponderação (conjunto de setores censitários) do município de São Paulo e utiliza os microdados do Censo Demográfico 2000 em conjunto com a base de domicílios da AES Eletropaulo. Aplica modelos de Spatial AutoRegression (SAR), Geographically Weighted Regression (GWR), e um modelo inédito combinado (GWR+SAR), desenvolvido neste estudo. Diversas matrizes de vizinhança foram utilizadas na avaliação da influência espacial (com padrão Centro-Periferia) das variáveis em estudo. As variáveis mostraram forte auto-correlação espacial (I de Moran superior a 58% para o Consumo de Energia Elétrica e superior a 75% para a Renda Domiciliar). As relações entre Renda e Consumo de Energia Elétrica mostraram-se muito fortes (os coeficientes de explicação da Renda atingiram valores de 0,93 a 0,98). No segundo nível, domiciliar, utiliza dados coletados na Pesquisa Anual de Satisfação do Cliente Residencial, coordenada pela Associação Brasileira dos Distribuidores de Energia Elétrica (ABRADEE), para os anos de 2004, 2006, 2007, 2008 e 2009. Foram aplicados os modelos Weighted Linear Model (WLM), GWR e SAR para os dados das pesquisas com as entrevistas alocadas no centróide e na sede dos distritos. Para o ano de 2009, foram obtidas as localizações reais dos domicílios entrevistados. Adicionalmente, foram desenvolvidos 6 algoritmos de distribuição de pontos no interior dos polígonos dos distritos. Os resultados dos modelos baseados em centróides e sedes obtiveram um coeficiente de determinação R2 em torno de 0,45 para a técnica GWR, enquanto os modelos baseados no espalhamento de pontos no interior dos polígonos dos distritos reduziram essa explicação para cerca de 0,40. Esses resultados sugerem que os algoritmos de alocação de pontos em polígonos permitem a observação de uma associação mais realística entre os construtos analisados. O uso combinado dos achados demonstra que as informações de faturamento das distribuidoras de energia elétrica têm grande potencial para apoiar decisões estratégicas. Por serem atuais, disponíveis e de atualização mensal, os indicadores socioeconômicos baseados em consumo de energia elétrica podem ser de grande utilidade como subsídio a processos de classificação, concentração e previsão da renda domiciliar. Palavras-chave: renda domiciliar, consumo de energia elétrica, classificação econômica, estatística espacial, pesquisa domiciliar. ABSTRACT In order to evaluate the use of Electricity Consumption as a Socioeconomic Status, this research analyzes information in two levels of geographical aggregation. At the first level, under a territorial perspective, it investigates indicators of Income and Electric Energy Consumption aggregated by weighted areas (set of census sectors) in the city of São Paulo and uses the microdata of Demographic Census 2000 jointly with residential consumers’ database of AES Eletropaulo. It applies Spatial Auto-Regressive (SAR) models, Geographically Weighted Regression (GWR), and an unprecedented combined model (GWR+SAR), developed in this study. Several neighborhood matrices were used to assess the influence of space (with Downtown-Suburbs pattern) of the variables under study. The variables showed strong spatial autocorrelation (Moran's I greater than 58% for the Energy Consumption and more than 75% for the Household Income). Relations between Income and Electricity Consumption were very strong (coefficients of determination of Income reached values from 0.93 to 0.98). At the second level, the household one, it uses data collected in the Annual Satisfaction Survey of Residential Customer, coordinated by the Brazilian Electricity Distributors Association (ABRADEE) for the years 2004, 2006, 2007, 2008 and 2009. Weighted Linear Model (WLM), GWR and SAR were applied to survey data with interviews allocated on the centroid and the seat of the districts. For the year 2009, we obtained the actual locations of the households interviewed. Additionally, 6 algorithms of points distribution within the polygons of the districts have been developed. The results from models based on centroids and seats obtained a coefficient of determination R2 of around 0.45 for the GWR technique, while the models based on scattering points within the polygons of the districts have reduced this account to about 0.40. These results suggest that the algorithms of allocation of points in polygons allow the observation of a more realistic association between the constructs analyzed. The combined use of the findings shows that the billing information of the electricity distributors has great potential to support strategic decisions. Because they are current, available and monthly updated, socioeconomic indicators based on energy consumption can be very useful as an aid to processes of classification, concentration and estimation of household income. Keywords: household income, electricity consumption, economic status, spatial statistics, residential survey. LISTA DE ESQUEMAS Esquema 1.1: Relações Postuladas entre as Variáveis Consideradas neste Estudo .............................39 Esquema 2.1: Composição de Pontos e Classificação Econômica do Critério Brasil em vigor até 2007 ........................................................................................................................................... 56 Esquema 2.2: Composição de Pontos e Classificação Econômica do Critério Brasil em vigor a partir de 2008 ...................................................................................................................................57 Esquema 2.3: Distribuição dos Domicílios Particulares do Brasil e da RMSP segundo as classes de rendimento mensal domiciliar e Índice de Gini da Distribuição de Rendimento Mensal dos Domicílios Particulares Permanentes com Rendimento do Brasil de 1998 a 2008 ......65 Esquema 2.4: Diagrama de Construção do Indicador de Propensão à Perda de Energia da AES Eletropaulo .....................................................................................................................................103 Esquema 4.1: Estratégia de Associação das Informações do Censo Demográfico 2000 com Dados de Consumo de Energia Elétrica .........................................................................................149 Esquema 4.2: Alternativa 1 de Alocação de Pontos em Polígonos ....................................................161 Esquema 4.3: Alternativa 2 de Alocação de Pontos em Polígonos ....................................................163 Esquema 4.4: Algoritmo Simplificado das Alternativas 3A e 3B para Alocação de Pontos em Polígonos ........................................................................................................................................165 Esquema 4.5: Alternativa 3A de Alocação de Pontos em Polígonos .................................................166 Esquema 4.6: Alternativa 3B de Alocação de Pontos em Polígonos .................................................167 Esquema 4.7: Algoritmo Simplificado das Alternativas 4A e 4B para Alocação de Pontos em Polígonos ........................................................................................................................................169 Esquema 4.8: Alternativa 4A de Alocação de Pontos em Polígonos .................................................170 Esquema 4.9: Alternativa 4B de Alocação de Pontos em Polígonos .................................................171 Esquema 4.10: Alternativa 5 de Alocação de Pontos em Polígonos ..................................................174 Esquema 4.11: Alternativa 6 de Alocação de Pontos em Polígonos ..................................................177 Esquema 4.12: Diagrama da Aplicação Piloto da Pesquisa ABRADEE 2009 na AES Eletropaulo .....................................................................................................................................181 Esquema 4.13: Diagrama da Estrutura Aplicada na Investigação Domiciliar ...................................182 Esquema 4.14: Modelo Adotado e Hipóteses consideradas neste estudo ..........................................184 Esquema 5.1: Modelo Adotado e Avaliação das Hipóteses consideradas neste estudo ....................257 Esquema 6.1: Framework de Diagrama de Valor de Spatial Data Warehouse com destaque para o uso estratégico dos Indicadores Socioeconômicos baseados no Consumo de Energia Elétrica ...........................................................................................................................................279 LISTA DE FIGURAS Figura 2.1: Relação entre Consumo Residencial de Energia Elétrica e Grupos de Renda em estudos na Grécia (1), Nova Zelândia (2) e Fiji (3) .........................................................................89 Figura 2.2: Renda Média Domiciliar (esquerda), Classe Econômica Brasil (centro) e Consumo de Energia Residencial (direita) de 2000 por Área de Ponderação de Vitória, Vila Velha, Cariacica e Serra no Espírito Santo ..................................................................................................91 Figura 2.3: Gráficos de Dispersão das dimensões do Physical Quality of Life Indicator (PQLI) e do Logaritmo Neperiano do Consumo de Energia Elétrica de 112 países do mundo – Expectativa de Vida (1), Taxa de Alfabetização (2), Mortalidade Infantil (3) e PQLI (4) ...........101 Figura 3.1: Mapa de John Snow, da cidade de Londres, com óbitos por cólera (identificados por pontos) e poços de água (identificados por cruzes), com destaque para o poço contaminado .......107 Figura 3.2: Diferentes Modelos Lineares sobre um mesmo conjunto de dados para ilustrar o MAUP ............................................................................................................................................112 Figura 3.3: Exemplo de Matriz de Vizinhança ..................................................................................118 Figura 4.1: Subdivisão do Município de São Paulo em Distritos, Áreas de Ponderação e Setores Censitários ......................................................................................................................................138 Figura 4.2: Descrição dos Municípios da Área de Concessão da AES Eletropaulo ..........................145 Figura 4.3: Diferenças entre os Modelos de Regressão Linear OLS, SAR, GWR e GWR+SAR .....151 Figura 4.4: Distrito de Jardim Ângela, no município de São Paulo, destacando os limites do distrito e sua área urbana e com setores censitários não especiais .................................................173 Figura 5.1: Mapas (croquis) das 456 áreas de ponderação do município de São Paulo, representando; (esq.) Renda Mensal Domiciliar Média, (centro) Média da Pontuação do Critério Brasil Adaptado, e (dir.) Consumo Médio Mensal Residencial de Energia Elétrica ........193 Figura 5.2: Distribuição Espacial dos Parâmetros Intercepto e Energia do Modelo GWR com kernel adaptável (k = 9) da Renda a partir do Consumo de Energia Elétrica no município de São Paulo ........................................................................................................................................206 Figura 5.3: Distribuição Espacial dos Parâmetros Intercepto e Energia do Modelo GWR+SAR com kernel adaptável (k = 9) da Renda a partir do Consumo de Energia Elétrica no município de São Paulo ..................................................................................................................212 Figura 5.4: Distritos Amostrados do município de São Paulo para a Pesquisa ABRADEE em 5 rodadas, com entrevistas válidas para este estudo ..........................................................................220 Figura 5.5: Posição Geográfica dos Centróides e das Sedes dos Distritos do município de São Paulo ..............................................................................................................................................226 Figura 5.6: Diferenças entre os Modelos Centróide (ou Sede) e resultante das Alternativas de Alocação de Pontos em Polígonos – Exemplo Ilustrativo com 4 distritos......................................248 Figura 5.7: Posição Geográfica dos Domicílios entrevistados na Pesquisa ABRADEE 2009 no município de São Paulo, com destaque para Setores Censitários com entrevistas ........................250 Figura 5.8: Exemplo de Setores Censitários sem alocação de clientes residenciais da AES Eletropaulo .....................................................................................................................................268 Figura 5.9: Exemplos de Agregação Territorial dos Indicadores de Consumo de Energia Elétrica ...........................................................................................................................................270 LISTA DE GRÁFICOS Gráfico 2.1: Renda Familiar Média e Distribuição (%) da Classe Econômica no Brasil de 2000 a 2008 ...............................................................................................................................................59 Gráfico 2.2: Distribuição (%) de Classe Econômica na Grande São Paulo de 2000 a 2008 ................60 Gráfico 2.3: Variação Anual Percentual do PIB Mundial e do Consumo de Energia Mundial de 1998 a 2007 ......................................................................................................................................68 Gráfico 2.4: Evolução do Consumo de Energia Elétrica no Brasil por Classe de Consumo de 1970 a 2007 ......................................................................................................................................70 Gráfico 2.5: Taxa de Atendimento (%) de Serviços de Utilidade Pública no Brasil ...........................71 Gráfico 2.6: Taxa de Atendimento (%) de Serviços de Utilidade Pública na Região Metropolitana de São Paulo .............................................................................................................71 Gráfico 2.7: Evolução Anual do Consumo de Energia Elétrica e do PIB Real do Brasil de 1976 a 2007 ...............................................................................................................................................72 Gráfico 2.8: Variação Percentual Média Anual em Períodos de 5 anos do Consumo de Energia Elétrica, do PIB Real e da Elasticidade-Renda do Consumo de Energia Elétrica do Brasil de 1970 a 2005 ......................................................................................................................................73 Gráfico 2.9: Comparação Internacional dos Dispêndios em Energia Elétrica (%) no Orçamento das Famílias ......................................................................................................................................83 Gráfico 2.10: Dispêndio de Energia Elétrica no Orçamento das Famílias e Gasto Mensal: Classificação de Renda per capita ...................................................................................................85 Gráfico 2.11: Evolução Anual da Renda Domiciliar Mensal e do Consumo de Energia Elétrica Residencial per capita no Brasil de 1998 e 2008 .............................................................................87 Gráfico 2.12: Evolução Anual da Renda Domiciliar Mensal e do Consumo de Energia Elétrica Residencial per capita na RMSP de 2000 e 2008 ............................................................................87 Gráfico 5.1: Histogramas de: 1) Renda Média Mensal Domiciliar, 2) Consumo Médio em Agosto de 2000, e 3) Média da Pontuação do CBA por Área de Ponderação para o município de São Paulo em 2000 ....................................................................................................................190 Gráfico 5.2: Diagrama de Dispersão: Consumo de Energia Elétrica Médio Domiciliar e Renda Média Domiciliar por Área de Ponderação para o município de São Paulo em 2000 ...................191 Gráfico 5.3: Variograma da Renda Domiciliar por Área de Ponderação ...........................................199 Gráfico 5.4: Variação da Distribuição do Parâmetro Intercepto (box-plots, pontos e mapas) dos Modelos GWR e SAR da Renda pelo Consumo de Energia Elétrica de acordo com a variação do tamanho da amostra local (k+1) no município de São Paulo ......................................207 Gráfico 5.5: Variação da Distribuição do Parâmetro Consumo de Energia Elétrica (box-plots, pontos e mapas) dos Modelos GWR e SAR da Renda pelo Consumo de Energia Elétrica de acordo com a variação do tamanho da amostra local (k+1) no município de São Paulo ...............208 Gráfico 5.6: Variação da Distribuição do Parâmetro do Termo Espacial Auto-Regressivo do Modelo SAR da Renda pelo Consumo de Energia Elétrica de acordo com a variação do tamanho da amostra local (k+1) no município de São Paulo .........................................................209 Gráfico 5.7: Variação da Distribuição do Coeficiente de Explicação R2 (global e locais) dos Modelos GWR e SAR da Renda pelo Consumo de Energia Elétrica de acordo com a variação do tamanho da amostra local (k+1) no município de São Paulo ......................................210 Gráfico 5.8: Evolução da Renda Domiciliar Média, do Valor de Conta de Luz Médio e da Participação Percentual da Conta de Luz na Renda Domiciliar de 5 rodadas da Pesquisa ABRADEE para o município de São Paulo ...................................................................................221 Gráfico 5.9: Histogramas e Diagramas de Dispersão de Valor de Conta de Luz e de Renda Domiciliar de 5 rodadas da Pesquisa ABRADEE para o município de São Paulo ........................223 Gráfico 5.10: Histograma da Classe Econômica Brasil e Box-Plots da Renda Domiciliar por Classe Econômica Brasil da Pesquisa ABRADEE para o município de São Paulo em 2004 ........225 Gráfico 5.11: Dispersão do R2 da GWR das 1.000 iterações das 6 alternativas de alocação de pontos em polígonos da Pesquisa ABRADEE de 2004 a 2008 para o município de São Paulo ....241 Gráfico 5.12: Scatter Plot e Correlação (r de Pearson) entre o número k de vizinhos das amostras locais e o R2 para cada alternativa de alocação de pontos em polígonos da Pesquisa ABRADEE de 2004 no município de São Paulo ...........................................................................244 Gráfico 5.13: Distância do k-ésimo vizinho mais próximo da entrevista 1 dos modelos de alocação Centróides e Sedes e de uma amostra-exemplo para cada alternativa de alocação de pontos em polígonos para a Pesquisa ABRADEE 2004 no município de São Paulo .....................249 Gráfico 5.14: Indicador L(d) de Homogeneidade Espacial das diversas distribuições espaciais utilizadas neste estudo na Pesquisa ABRADEE 2009 no município de São Paulo .......................253 LISTA DE QUADROS Quadro 2.1: Classes de Relação/Posição/Parentesco no Domicílio e na Família, segundo IBGE e Fundação SEADE (continua) ........................................................................................................47 Quadro 2.2: Dimensões do Índice de Desenvolvimento Humano (IDH) do PNUD ...........................95 Quadro 2.3: Grupos de Formação do Índice Paulista de Vulnerabilidade Social ................................97 Quadro 2.4: Indicadores associados ao Consumo de Energia Elétrica Residencial do EISD...............98 Quadro 2.5: Variáveis Selecionadas por Contribuição para o Indicador Sintético de Composição do IPRS .....................................................................................................................100 Quadro 3.1: Diferenças entre Modelos Globais e Locais quanto às suas características espaciais ...123 Quadro 4.1: Variáveis de Domicílio da base de Microdados do Censo Demográfico 2000 utilizadas ........................................................................................................................................135 Quadro 4.2: Variáveis de Pessoas da base de Microdados do Censo Demográfico 2000 utilizadas ........................................................................................................................................136 Quadro 4.3: Sistema de Pontos de Posse de Bens Duráveis do Critério Brasil Adaptado e do Critério Brasil .................................................................................................................................143 Quadro 4.4: Variáveis da Pesquisa ABRADEE ................................................................................156 Quadro 4.5: Resumo das Hipóteses de Estudo, da Natureza das Variáveis Envolvidas e das Técnicas de Análise .......................................................................................................................186 Quadro 5.1: Resultados Anteriores da Regressão da Renda Média Domiciliar a partir do Consumo de Energia Elétrica – Modelo Logístico ........................................................................192 Quadro 5.2: Concentrações de áreas de ponderação com correlações locais significantes e diagramas de dispersão de Moran para as variáveis Renda Domiciliar e Consumo de Energia Elétrica para o Município de São Paulo, utilizando contigüidade de primeira ordem do tipo Queen .............................................................................................................................................195 Quadro 5.3: I de Moran e LISA Maps de Renda Domiciliar para diversas Matrizes de Vizinhança das Áreas de Ponderação do município de São Paulo em 2000 ..................................196 Quadro 5.4: I de Moran e LISA Maps de Consumo de Energia Elétrica para diversas Matrizes de Vizinhança das Áreas de Ponderação do município de São Paulo em 2000 .............................197 Quadro 5.5: Resultados da Regressão Linear da Renda a partir do Consumo de Energia Elétrica ...200 Quadro 5.6: Resultados da Avaliação da Dependência Espacial dos Resíduos do Modelo OLS da Renda a partir do Consumo de Energia Elétrica no município de São Paulo ...........................201 Quadro 5.7: Resultados do Modelo SAR com matriz de adjacência Queen de 1ª ordem da Renda a partir do Consumo de Energia Elétrica no município de São Paulo .................................203 Quadro 5.8: Resultados da Avaliação da Dependência Espacial dos Resíduos do Modelo SAR da Renda a partir do Consumo de Energia Elétrica no município de São Paulo ...........................204 Quadro 5.9: Resultados da Regressão GWR com kernel gaussiano (k = 9) da Renda a partir do Consumo de Energia Elétrica .........................................................................................................205 Quadro 5.10: Resultados da Regressão GWR+SAR com k = 9 vizinhos da Renda a partir do Consumo de Energia Elétrica .........................................................................................................211 Quadro 5.11: Resultados dos Modelos de Regressão da Renda (y) a partir do Consumo de Energia Elétrica (x) no município de São Paulo ............................................................................213 Quadro 5.12: Comparação entre os Modelos de Regressão com as Variáveis Originais e Transformadas (logaritmos neperianos) da explicação da Renda a partir do Consumo de Energia Elétrica ..............................................................................................................................217 Quadro 5.13: Resultados das Hipóteses na Investigação Territorial ................................................218 Quadro 5.14: Resultados da Regressão Linear da Renda a partir do Consumo de Energia Elétrica para a Pesquisa ABRADEE 2004 – Investigação Domiciliar ..........................................227 Quadro 5.15: Resultados da Regressão Linear da Renda (y) a partir do Consumo de Energia Elétrica (x) para a Pesquisa ABRADEE de 2006 a 2009 no município de São Paulo – Investigação Domiciliar .................................................................................................................228 Quadro 5.16: Resultados da GWR (com kernel adaptável gaussiano) da Renda a partir do Consumo de Energia Elétrica para a Pesquisa ABRADEE 2004 – Investigação Domiciliar ........229 Quadro 5.17: Resultados da GWR (com kernel adaptável gaussiano) da Renda a partir do Consumo de Energia Elétrica para a Pesquisa ABRADEE de 2006 a 2009 – Investigação Domiciliar ......................................................................................................................................231 Quadro 5.18: Resultados da SAR da Renda (y) a partir do Consumo de Energia Elétrica (x) para a Pesquisa ABRADEE de 2004 a 2009 – Investigação Domiciliar .......................................233 Quadro 5.19: Resultados da Regressão WLM da Renda Domiciliar pelo Valor da Conta de Luz e Critério Brasil na Pesquisa ABRADEE 2004 no município de São Paulo .................................237 Quadro 5.20: Resultados da GWR da Renda Domiciliar pelo Valor da Conta de Luz e Critério Brasil na Pesquisa ABRADEE 2004 no município de São Paulo ..................................................239 Quadro 5.21: Estatísticas de Agrupamento Médio para as Amostras Locais das Alternativas de Alocação de Pontos em Polígonos para a Pesquisa ABRADEE 2004 no município de São Paulo ..............................................................................................................................................247 Quadro 5.22: Resultados da SAR e GWR e Dispersão do R2 das Alternativas de Alocação de Pontos em Polígonos da Pesquisa ABRADEE 2009 para o município de São Paulo ....................251 Quadro 5.23: Resultados das Hipóteses na Investigação Domiciliar ...............................................256 LISTA DE TABELAS Tabela 2.1: Distribuição (%) da População Brasileira por Classe Econômica por Região Metropolitana em 2008 ....................................................................................................................58 Tabela 2.2: Percentual de Domicílios segundo a Posse de Alguns Bens Duráveis em 1998 e 2008 no Brasil e na RMSP ...............................................................................................................60 Tabela 2.3: Distribuição da População Brasileira segundo Critério Brasil e Faixa de Renda Familiar ............................................................................................................................................63 Tabela 2.4: Número de Domicílios Particulares e Valor da Renda Domiciliar Média segundo as classes de rendimento mensal domiciliar no Brasil de 2008 ............................................................64 Tabela 2.5: Indicadores Demográficos, Econômicos e de Energia Elétrica de Alguns Países do Mundo ..............................................................................................................................................69 Tabela 2.6: Consumo Típico dos Principais Eletrodomésticos ............................................................76 Tabela 2.7: Renda, Valor Médio da Fatura de Energia, Impacto da Conta de Luz no Orçamento Familiar de Alguns Países da América Latina .................................................................................84 Tabela 4.1: Quantidade de Áreas de Ponderação e Setores Censitários do Censo Demográfico 2000 por Distrito do município de São Paulo ................................................................................139 Tabela 5.1: Estatísticas Descritivas de Valor da Conta de Luz, Renda Domiciliar, Moradores por Domicílio, Valor da Conta de Luz per capita e Renda Domiciliar per capita de 5 rodadas da Pesquisa ABRADEE para o município de São Paulo ...............................................................222 Tabela 5.2: Auto-Correlação Espacial da Renda e do Valor da Conta de Luz para as observações de cinco rodadas da Pesquisa ABRADEE para o município de São Paulo ...............226 Tabela 5.3: Auto-Correlação Espacial dos Resíduos dos Modelos de Regressão WLM, GWR e SAR adotados na explicação da Renda pelo Valor da Conta de Luz para 5 rodadas da Pesquisa ABRADEE para o município de São Paulo ....................................................................235 Tabela 5.4: Estatísticas Descritivas e Análise de Variância (ANOVA) da Renda por Classe Econômica Brasil na Pesquisa ABRADEE para o município de São Paulo em 2004 ....................236 Tabela 5.5: Estatísticas Descritivas da GWR para as Alternativas de Alocação de Pontos em Polígonos da Pesquisa ABRADEE de 2004 a 2008 para o município de São Paulo .....................242 Tabela 5.6: Largura de Banda, I de Moran da Renda Domiciliar e do Valor de Conta de Luz e correlação entre essas variáveis para as Alternativas de Alocação de Pontos em Polígonos da Pesquisa ABRADEE de 2004 para o município de São Paulo ......................................................245 LISTA DE ABREVIATURAS E SIGLAS ABA ABEP ABIPEME ABRADEE AIC ANEEL ANEP BIC CBA CCEB CIER CV EISD ESDA GIS GLP GWR IBGE IBOPE IDH IEA IETS INEP IPEA IPRS IPVS ISQP LISA LSE MAUP MCMC OLS Associação Brasileira de Anunciantes Associação Brasileira de Empresas de Pesquisa Associação Brasileira dos Institutos de Pesquisa de Mercado Associação Brasileira dos Distribuidores de Energia Elétrica Akaike Information Criterion Agência Nacional de Energia Elétrica Associação Nacional das Empresas de Pesquisa Bayesian Information Criterion Critério Brasil Adaptado Critério de Classificação Econômica Brasil Comisión de Integración Energética Regional Cross-Validation (Validação Cruzada) Energy Indicators for Sustainable Development (Indicadores de Energia para Desenvolvimento Sustentável) Exploratory Spatial Data Analysis (Análise Exploratória de Dados Espaciais) Geographic Information Systems (Sistemas de Informação Geográfica) Gás Liquefeito de Petróleo Geographically Weighted Regression (Regressão Ponderada Geograficamente) Instituto Brasileiro de Geografia e Estatística Instituto Brasileiro de Opinião Pública e Estatística Índice de Desenvolvimento Humano International Energy Agency Instituto de Estudos do Trabalho e Sociedade Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira Instituto de Pesquisa Econômica Aplicada Índice Paulista de Responsabilidade Social Índice Paulista de Vulnerabilidade Social Índice de Satisfação com a Qualidade Percebida Local Indicators of Spatial Association Levantamento Socioeconômico do IBOPE Modifiable Area Unit Problem (Problema da Unidade de Área Modificável) Markov Chain Monte Carlo Ordinary Least Squares (Regressão por Mínimos Quadrados) OCDE ONU PIA PIB PNAD PNUD POF PPC PQLI PROCEL RMSP SAR SEADE SPI TLC WLM Organização para Cooperação e Desenvolvimento Econômico Organização das Nações Unidas População em idade ativa Produto Interno Bruto Pesquisa Nacional por Amostra de Domicílios Programa das Nações Unidas para o Desenvolvimento Pesquisa de Orçamentos Familiares Paridade de Poder de Compra Physical Quality of Life Indicator Programa de Combate ao Desperdício de Energia Elétrica da Eletrobrás Região Metropolitana de São Paulo Spatial Auto-Regressive model (Modelo Espacial Auto-Regressivo) Fundação Sistema Estadual de Análise de Dados Sinalizador de Produção Industrial Teoria do Lugar Central Weighted Linear Model SUMÁRIO MEMÓRIAS DE VIAGEM .............................................................................................. 24 CONCEITUAÇÃO DO TRABALHO .............................................................................. 26 1 APRESENTAÇÃO .................................................................................................... 27 1.1 1.2 1.3 INTRODUÇÃO E JUSTIFICATIVA ............................................................................ 30 PROBLEMA DE PESQUISA ..................................................................................... 37 OBJETIVOS .......................................................................................................... 38 MODELO ADOTADO ........................................................................................ 39 FORMULAÇÃO DE HIPÓTESES .......................................................................... 40 1.3.1 1.3.2 1.4 1.5 2 OBJETO DE ESTUDO E NÍVEIS DE INVESTIGAÇÃO ................................................ 42 DESENVOLVIMENTO ............................................................................................ 43 REVISÃO DO CONHECIMENTO ......................................................................... 44 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 2.10 2.11 FAMÍLIA, DOMICÍLIO E RENDA ........................................................................... 45 CLASSE SOCIAL, CLASSE ECONÔMICA E CLASSE SOCIOECONÔMICA ................. 50 ESTRATIFICAÇÃO SOCIOECONÔMICA ................................................................. 52 CLASSE ECONÔMICA DO CRITÉRIO BRASIL ........................................................ 55 RENDA E CLASSIFICAÇÃO ECONÔMICA .............................................................. 62 CONSUMO DE ENERGIA ELÉTRICA ...................................................................... 66 O CONSUMIDOR DE ENERGIA ELÉTRICA DE BAIXA RENDA ................................ 78 PREÇO DA ENERGIA ELÉTRICA ........................................................................... 81 ASSOCIAÇÃO ENTRE RENDA E CONSUMO DE ENERGIA ELÉTRICA ...................... 86 INDICADORES DE QUALIDADE DE VIDA ............................................................... 93 INDICADORES BASEADOS EM CONSUMO DE ENERGIA ELÉTRICA ........................ 97 3 ESTATÍSTICA ESPACIAL APLICADA .............................................................. 105 3.1 3.2 3.3 3.4 INTELIGÊNCIA ESPACIAL EM PROBLEMAS DE PESQUISA E NEGÓCIOS .............. 105 ANÁLISE EXPLORATÓRIA DE DADOS ESPACIAIS ............................................... 109 ESTATÍSTICA ESPACIAL E GEOESTATÍSTICA ..................................................... 113 REGRESSÃO ESPACIAL ...................................................................................... 116 AUTO-CORRELAÇÃO ESPACIAL E CRITÉRIOS DE VIZINHANÇA ........................... 118 SAR – MODELO ESPACIAL AUTO-REGRESSIVO ................................................ 121 3.4.1 3.4.2 3.4.3 4 GWR – GEOGRAPHICALLY WEIGHTED REGRESSION ........................................ 122 METODOLOGIA E ESTRATÉGIAS DE PESQUISA ......................................... 129 4.1 INVESTIGAÇÃO TERRITORIAL ........................................................................... 129 MICRODADOS DO CENSO DEMOGRÁFICO 2000 DO IBGE ................................ 130 COMPOSIÇÃO DA RENDA E CÁLCULO DO CRITÉRIO BRASIL ADAPTADO 4.1.1 4.1.2 4.1.3 4.1.4 4.1.5 4.2 4.2.1 4.2.2 4.2.2.1 4.2.2.2 4.2.2.3 4.2.2.4 4.2.2.5 4.2.2.6 ............ 141 DADOS DE CONSUMO DE ENERGIA ELÉTRICA DA AES ELETROPAULO ............... 143 MANIPULAÇÃO, ENRIQUECIMENTO E CRUZAMENTO DAS INFORMAÇÕES ............ 147 APLICAÇÃO DAS TÉCNICAS DE ESTATÍSTICA ESPACIAL ..................................... 148 PESQUISA ABRADEE ................................................................................... 153 ALTERNATIVAS DE ALOCAÇÃO DE PONTOS EM POLÍGONOS ............................... 158 Alternativa 1: Geração Completamente Aleatória de Pontos nos Polígonos ................... 160 Alternativa 2: Geração Aleatória de Pontos baseada na Densidade de Domicílios ........ 162 Alternativas 3A e 3B: Geração Aleatória de Pontos baseada na Superfície de Probabilidade de Fitness para Consumo de Energia Elétrica ......................................... 164 Alternativas 4A e 4B: Seleção de Domicílios baseada na Superfície de Probabilidade de Fitness para Consumo de Energia Elétrica ......................................... 168 Alternativa 5: Geração Completamente Aleatória de Pontos em Áreas Censitárias Urbanas e Não Especiais .................................................................... 172 Alternativa 6: Sorteio de Setores Censitários Urbanos e Não Espaciais ......................... 175 INVESTIGAÇÃO DOMICILIAR ............................................................................. 153 4.2.3 4.3 5 APLICAÇÃO DE GWR SOBRE AS AMOSTRAS REALOCADAS ................................. 178 MODELO ADOTADO E METODOLOGIA EMPREGADA ......................................... 184 RESULTADOS ........................................................................................................ 189 5.1 INVESTIGAÇÃO TERRITORIAL ........................................................................... 189 RESULTADOS GERAIS .................................................................................... 189 RELAÇÃO ENTRE OS CONSTRUTOS .................................................................. 199 VERIFICAÇÃO DAS HIPÓTESES ....................................................................... 218 RESULTADOS GERAIS .................................................................................... 219 RELAÇÃO ENTRE OS CONSTRUTOS .................................................................. 227 APLICAÇÃO DE GWR SOBRE AS AMOSTRAS REALOCADAS ................................. 240 VERIFICAÇÃO DAS HIPÓTESES ....................................................................... 256 5.1.1 5.1.2 5.1.3 5.2 5.2.1 5.2.2 5.2.3 5.2.4 5.3 6 INVESTIGAÇÃO DOMICILIAR ............................................................................. 219 DISCUSSÃO ........................................................................................................ 257 CONCLUSÕES ....................................................................................................... 272 6.1 6.2 6.3 PRINCIPAIS CONTRIBUIÇÕES ............................................................................. 272 IMPLICAÇÕES GERENCIAIS ............................................................................... 276 LIMITAÇÕES E RECOMENDAÇÕES PARA PESQUISAS FUTURAS .......................... 281 REFERÊNCIAS BIBLIOGRÁFICAS ........................................................................... 286 PUBLICAÇÕES .............................................................................................................. 310 APÊNDICE A – ALGORITMOS APLICADOS NA INVESTIGAÇÃO TERRITORIAL ....................... 313 APÊNDICE B – ALGORITMOS APLICADOS NA INVESTIGAÇÃO DOMICILIAR ......................... 325 ANEXO A – CRITÉRIO DE CLASSIFICAÇÃO ECONÔMICA BRASIL ......................................... 343 ANEXO B – QUESTIONÁRIO DA AMOSTRA DO CENSO DEMOGRÁFICO 2000 ........................ 350 ANEXO C – QUESTIONÁRIO DA PESQUISA ABRADEE ...................................................... 367 MEMÓRIAS DE VIAGEM 1 Dar ao consumo de energia elétrica uma utilidade além da que apóia a operação de uma distribuidora vem sendo uma bandeira que acompanha minha vida acadêmica e profissional nos últimos anos. Extrair “inteligência” de uma “montanha de dados” que sustenta o cadastro comercial e técnico dessas empresas não é tarefa fácil, pois transcende os aspectos metodológicos, e invade uma seara cultural importante. Ter consciência de que a informação é tão ou mais importante que a manutenção dos ativos e dos sistemas de suporte não está na mentalidade de muitos líderes no setor elétrico brasileiro e mundial atualmente. O metiê é fundamentalmente outro, porque se confunde com a história dessas empresas; o respaldo e a repercussão de uma iniciativa que pode se transformar, por si mesma, em um novo negócio para as distribuidoras acaba não encontrando aceitação na medida de sua utilidade – sem esquecer que, ao mesmo tempo, ela pode suportar de forma eficiente e significativa uma melhoria de custos em processos e no relacionamento com seus clientes. Mas, aos poucos, amparado por muitos, principalmente pela transformação que o setor vem passando, e pelo amadurecimento estratégico e mudança de atitude ocorrida na AES Eletropaulo, instituição que me acompanha profissionalmente nos últimos dez anos, minha viagem parece que terá um destino seguro. Um sinal dessas mudanças é a maior consciência de que o cliente está além de um simples medidor de energia. Ele tem expectativas, sabe de seus deveres, reclama por seus direitos, é parceiro. Ouvir o cliente, antecipar-se às suas necessidades, melhorar sua satisfação e fidelidade: estes são alguns procedimentos muito bem estruturados em muitas distribuidoras de energia hoje em dia. O setor já antevê uma mudança, que será mais do que visceral, com o advento de um novo patamar de relacionamento que se dará com tecnologias como Smart Grid, já iniciadas com o Broadband Powerline (a “Internet pela rede elétrica”), a telemedição (esta já mais antiga) e a própria evolução do atendimento eletrônico via SMS e dispositivos móveis. 1 Mais do que inspiração, esse título é puro plágio de publicação do meu orientador Chico Aranha e da colega de geomarketing Susana Figoli (ARANHA; FIGOLI, 2001). Ao mesmo tempo, numa trajetória profissional sempre acompanhada pelo uso da inteligência geográfica, do geomarketing e da tecnologia GIS, pude perceber diversos usos e implementar inovações em muitos processos. A participação em diversos projetos de P&D na AES Eletropaulo, e consultorias através da FGV-EAESP, permitiram o amadurecimento dessa consciência. A convivência com o Grupo de Trabalho de Pesquisas de Satisfação da ABRADEE nos últimos anos trouxe vários insights. A realização do piloto de aplicação de técnicas de estatística espacial na rodada 2009 da Pesquisa ABRADEE é fruto dessa inspiração e confiança mútua geradas nessa grata experiência. A participação na comissão organizadora do GEOBrasil e GEOSummit Latin America nos últimos anos e a convivência com a equipe editorial da revista InfoGEO, como colunista e muitas vezes pseudo-jornalista, também trouxe larga bagagem para o atual momento. Nessa viagem, pude reingressar ao meio acadêmico, por forte influência do Chico, meu orientador, e perceber que essa inserção gerava um ciclo virtuoso de benefícios. Conheci na FGV-EAESP colegas com os quais compartilho hoje pesquisas em técnicas e temas correlatos aos aqui expostos, que, inicialmente conhecidos como os “orientandos do Chico”, aos poucos ganharam vida acadêmica própria, num ambiente de grande cooperação pessoal e profissional. Gradativamente enveredei pelo marketing quantitativo e a estatística aplicada; do mestrado alcancei a condição de doutorando, e pude vivenciar parte deste trabalho num estágio como pesquisador, com a família a tiracolo, na University of Otago, na Nova Zelândia. E essas diversas trajetórias inevitavelmente se aproximaram. Do marketing quantitativo e geomarketing para a estatística espacial. Da gestão de pesquisas de satisfação para o uso da Pesquisa ABRADEE como ferramenta de segmentação de clientes e validação da associação entre Renda e Consumo e para a implantação da Pesquisa On-line. Da experiência na Nova Zelândia para a elaboração de algoritmos de alocação de pontos em polígonos. Do cadastro georreferenciado da AES Eletropaulo para os indicadores de Renda baseados em Consumo de Energia Elétrica e o Precision Marketing. Valeu a pena. 26 CONCEITUAÇÃO DO TRABALHO Esta pesquisa tem como principal objetivo examinar a relação entre Consumo de Energia Elétrica Residencial e Renda Familiar nos domicílios da Grande São Paulo, e propor a construção de um indicador de Classificação Econômica dos domicílios baseado em Consumo de Energia Elétrica, através do uso de técnicas de estatística espacial. Investiga-se a eficácia do consumo de energia elétrica na explicação e previsão da renda domiciliar mediante a identificação de um padrão de dependência espacial, podendo auxiliar o entendimento do comportamento da variação da renda, de forma que: os agentes financeiros e empresas do varejo possam caracterizar e identificar seu público-alvo com clareza; programas de microcrédito possam ser mais bem direcionados para a baixa renda; e empresas de distribuição de eletricidade possam melhor realizar seu planejamento sistemático baseado em previsão de carga e mercado de energia elétrica, entre outros inúmeros beneficiários. A pesquisa divide-se em dois níveis de investigação. O primeiro, sob perspectiva territorial, investiga indicadores de Renda e Consumo de Energia Elétrica agregados por áreas de ponderação (conjunto de setores censitários) do município de São Paulo, e utiliza os microdados do Censo Demográfico 2000 em conjunto com a base de domicílios da AES Eletropaulo. O segundo nível, domiciliar, utiliza dados coletados na Pesquisa Anual de Satisfação do Cliente Residencial, coordenada pela Associação Brasileira dos Distribuidores de Energia Elétrica (ABRADEE), para os anos de 2004, 2006, 2007, 2008 e 2009. Para o nível domiciliar, em que a localização geográfica informada das entrevistas da Pesquisa ABRADEE é apenas o distrito, foram desenvolvidos algoritmos de distribuição de pontos no interior dos polígonos dos distritos, de forma a permitir um uso mais adequado das técnicas de regressão espacial, ao invés da simples associação dos pontos a um centróide ou ponto interno arbitrário. Isso sugere uma associação mais realística entre os construtos analisados e potencializa o uso destas técnicas em outros problemas de pesquisa e áreas de conhecimento. 27 1 APRESENTAÇÃO Renda é, inexoravelmente, a principal caracterização econômica de um indivíduo, família ou domicílio. É a partir dela que se deriva o poder de compra, informação fundamental para que o varejo possa planejar sua estratégia. É a partir dela que se obtém dimensão importante para a vulnerabilidade social, ou para a pobreza, para que o poder público possa atuar consistentemente, incentivando a distribuição de renda em locais específicos através da geração de novas oportunidades de emprego e de empreendedorismo, ou para que agentes financeiros possam expandir sua base instalada através de produtos de microfinanças. Indicadores alternativos de Renda, ou de mensuração da Pobreza, são incipientes, ou têm seu uso ainda restrito à comparação entre países, regiões ou municípios. Aplicações em micro-regiões, distritos ou pequenas áreas censitárias ainda não são usuais, talvez pela dificuldade de operacionalização ou pela indisponibilidade de informação “alternativa” a esse nível na freqüência de atualização que se necessita. As empresas de distribuição de energia elétrica tradicionalmente fazem uso da Renda para apoio a seu planejamento de mercado e receita, em nível municipal ou regional. Vê-se nesse contexto muita relação entre essa informação e os dados de energia manipulados pelas concessionárias. Porém, o estudo para níveis territoriais menores, como subregiões, distritos, bairros ou setores censitários, que poderia aprofundar suas previsões, não é uma prática das concessionárias. Tampouco um estudo que considere a influência da vizinhança na previsão de carga ou mercado é realizado. Da mesma forma, a utilização de indicadores de Renda baseados em Consumo de Energia Elétrica pelas empresas de pesquisa de mercado ainda é incipiente. Talvez por desconhecimento de sua existência, ou por desconhecimento de sua contribuição ou robustez para a caracterização econômica. Critérios de caracterização econômica a partir de posse de bens duráveis e nível educacional são praticados, de forma padronizada, em muitos países do mundo. A crítica que o mercado faz desses critérios em geral está fundamentada na dificuldade de atualização e de 28 operacionalização dos critérios, e não é acompanhada muitas vezes de alternativas que tornem esses critérios melhores. Na prática, as empresas de pesquisa acabam por coletar a renda e os itens de posse de bens e utilizam de forma concomitante essas duas informações. Por outro lado, existe muita riqueza de informações nos levantamentos censitários efetuados periodicamente, em especial no Brasil, pelo Instituto Brasileiro de Geografia e Estatística (IBGE) e órgãos regionais. Mas à medida que se tornam antigos, muitas pesquisas de campo precisam ser realizadas para que as informações de estudos específicos possam ser validadas ou atualizadas. O custo de levantamentos complementares em campo é imensamente superior ao das informações secundárias ofertadas pelo censo. Tradicionalmente, o Censo Demográfico é realizado a cada 10 anos no Brasil, e a cada 5 ou 10 na maioria dos países do mundo. Pesquisas complementares do IBGE, como a Pesquisa Nacional por Amostra de Domicílios (PNAD) e a Pesquisa de Orçamentos Familiares (POF) não apresentam a mesma granularidade e cobertura territoriais que o Censo Demográfico. As informações de consumo de energia elétrica, coletadas mensalmente pelas empresas distribuidoras, de fácil agregação às mesmas unidades operacionais disponibilizadas pelos estudos censitários, podem se tornar disponíveis e serem bastante úteis para as empresas de pesquisa de mercado. O mercado pode prescindir de mecanismos de “atualização” das informações censitárias a partir de pesquisas de campo se fizer uso de indicadores de Consumo de Energia Elétrica agregados territorialmente. Estender para uma visão mais ampla o pensamento vigente atualmente nas empresas de energia elétrica e nas empresas de pesquisa de mercado é uma das motivações principais deste trabalho. Desmistificar a contribuição que esses indicadores podem dar ao mercado e mostrar como isso se relaciona à caracterização econômica complementam essa motivação. Além disso, a nível domiciliar, tal estudo pode contribuir para um melhor entendimento dos comportamentos de consumo, para os consumidores em geral e, em particular, para famílias de baixa renda. Concomitante a esta visão, está a ciência de que a distribuição do fenômeno Renda no espaço geográfico não é arbitrária. A dinâmica urbana, intrinsecamente ligada a motivações históricas, políticas e sociais, determina a localização das indústrias e empresas de comércio e serviços de forma a favorecer sua proximidade à matéria prima (ou seus insumos) 29 e ao mercado consumidor; e a população se estabelece dentro desse contexto espaço-temporal. Mais ainda, de acordo com a “primeira lei da geografia” (TOBLER, 1970), as “coisas” mais próximas tendem a ser mais parecidas entre si. Em outros termos, pessoas que vivem em uma mesma vizinhança são mais parecidas, por familiaridade cultural, razões econômicas ou históricas, o que ajuda a explicar bairros com perfis distintos. Dessa forma, não se pode deixar de explorar a influência que a geografia tem na explicação da Renda. E a Estatística Espacial e a Geoestatística, cada qual com sua especificidade, são o arcabouço teórico que permite avaliar e mensurar essa eventual influência. Estudos anteriores (FRANCISCO, 2006) mostraram alta contribuição do Consumo de Energia Elétrica na explicação da variabilidade da Renda em áreas censitárias do IBGE no município de São Paulo, utilizando modelos de regressão linear multivariados não espaciais. Este estudo procura estender esses modelos tradicionais com a incorporação da natureza geoespacial de suas observações, utilizando diversas técnicas de exploração espacial dos construtos avaliados – Renda e Consumo de Energia Elétrica. São investigadas duas naturezas de associação: domiciliar e regional, através da auto-correlação espacial e da regressão espacial (em especial, Spatial Auto-Regression e Geographically Weighted Regression). No contexto domiciliar, a localização de domicílios com precisão em pesquisas de campo é uma aspiração natural, que nem sempre é atendida na expectativa que se propõe – a granularidade desejada muitas vezes não é disponível, por questões de confidencialidade ou de mau planejamento. Muitas pesquisas de campo não são “espacialmente orientadas”, apesar de serem, essencialmente, “espacialmente coletadas”. Nesses casos, as informações da localização espacial do elemento coletado acabam sendo abrangentes, vagas, imprecisas ou mesmo faltantes. Em outras palavras, nem sempre conseguimos chegar a localizar as entrevistas como pontos no mapa. É muito comum termos como referência espacial simplesmente o município, o CEP ou o distrito em que a pesquisa foi realizada. Muitas técnicas de estatística espacial se utilizam de informações de natureza pontual para estabelecerem conceitos como vizinhança e assim aplicarem a introdução da geografia em seus modelos. Assim, são estabelecidos, a priori pelo pesquisador ou de forma sistemática pela ferramenta que implementa a técnica, representantes pontuais dos elementos poligonais que descrevem a localização das entrevistas em campo – tipicamente o ponto geográfico da sede do município ou distrito, ou um centróide ou centro de massa do polígono. 30 Isso torna “pouco realista” a representação geográfica de mais de uma entrevista localizada em um mesmo distrito, pelo fato delas todas estarem situadas em uma mesma coordenada no mapa. Para evitar essa situação, este trabalho de tese aborda, complementarmente, o desenvolvimento de algumas técnicas de “espalhamento”, ou alocação, de pontos no interior de polígonos, a partir do contexto do objeto de estudo e da pesquisa de campo utilizada na investigação da relação entre Renda e Consumo de Energia Elétrica. São descritas e aplicadas as técnicas desenvolvidas, e seus resultados são analisados em prol dos benefícios reais que trazem para a estatística espacial. Este estudo se apóia, em sua origem, nos benefícios da sinergia e estudo compartilhado do projeto intitulado “Programa de Pesquisa Integrado: Microcrédito para Famílias de Baixa Renda do Município de São Paulo”, apoiado pelo GVpesquisa, órgão de fomento à pesquisa da FGV-EAESP. Trabalhos anteriores de Francisco (2006), já mencionados, avaliaram a relação abordada neste estudo para o contexto da baixa renda utilizando pesquisas de campo desse programa de pesquisa integrado. Neste contexto múltiplo foi constituída esta tese. Espera-se que a leitura do trabalho desperte interesse para os assuntos abordados, traga reais contribuições e inspire a realização de novos estudos que aprofundem o tema nas perspectivas apresentadas e aprofundem os aspectos metodológicos desenvolvidos. 1.1 INTRODUÇÃO E JUSTIFICATIVA A necessidade de mensurar é uma característica inerente ao ser humano em sua relação com o meio que o cerca, e esta característica relaciona-se com a possibilidade de definir, compreender e transformar este meio. Segundo Hartshorne (1978, p.16), desde muito cedo, no decurso da evolução da humanidade, o homem descobriu que o seu mundo variava acentuadamente de lugar para lugar, [e que] essa curiosidade universal do homem acerca do mundo situado além dos seus horizontes imediatos, mundo sabidamente diferente, em grau variável, da área doméstica, constitui os alicerces de toda a Geografia. 31 Preston James2 (apud HARTSHORNE, 1978, p.16) afirma que “a Geografia trata das associações de fenômenos que conferem determinado caráter a lugares específicos, e das semelhanças e diferenças que existem entre os lugares”. Entre as aspirações das agências produtoras de dados e informações estatísticas, uma das mais importantes talvez seja a de que os formuladores de políticas públicas e os agentes de mercado utilizem efetivamente a sua produção para o planejamento urbano, a avaliação de políticas e a tomada de decisões de negócios. Em tese, a utilização de informações e resultados estatísticos, tanto na definição de metas e estratégias como na priorização e direcionamento das intervenções, possibilitariam mais rapidez e eficiência ao gestor público para atingir seus diferentes objetivos. Entre outras coisas, as estatísticas constituem instrumento importante para: desenvolver melhor as políticas sociais, permitindo o acompanhamento e a evolução dos processos; aumentar o consenso social sobre as difíceis escolhas diante do sempre presente constrangimento da falta de recursos; revelar e criar responsabilidades dos diferentes atores envolvidos nesses processos; e suportar efetivamente as organizações do setor privado com informações que as orientem em sua missão de servir a seu mercado. Informações sobre a população, seus habitantes, suas famílias e os domicílios em que vivem existem e são sistematicamente coletadas. Porém, hoje em dia há grande discussão a respeito da efetividade dos indicadores tipicamente coletados, em termos de cobertura, granularidade e suficiência de conceitos e dimensões em mensuração. Indicadores econômicos talvez não sejam suficientes para medir qualidade de vida. Informações em nível de setores censitários, áreas de ponderação ou distritos não são coletadas na freqüência que o mercado deseja, devido principalmente à restrição econômica para realizar estudos nesse nível de representatividade geográfica – praticamente um censo demográfico. De qualquer forma, mensurar a pobreza, em todas as dimensões em que ela é representada e influi na vida cotidiana, é um desafio extremamente relevante nos dias de hoje. Segundo o Banco Mundial, um terço da população que vive em cidades reside em squatter settlements, ou favelas (PÉREZ; PÉREZ, 2008). Segundo Prahalad (2005), 4 bilhões de pessoas no mundo vive com até 1,5 mil dólares por ano - a chamada base da pirâmide. 2 James, Preston E. A geography of man. Boston: Ginn, 1949. 32 A população brasileira totalizava, em 2008, 189.952.795 habitantes, que correspondiam a 57.656.117 domicílios particulares (IBGE, 2009). Desses, 50,7% viviam com renda de até 3 salários mínimos (o equivalente, em valores da época, a R$ 1.395,00). Em áreas urbanas (48.982.602 domicílios), esse percentual cai para 46,5%. Na Região Metropolitana de São Paulo3 (doravante, RMSP), com 6.294.856 domicílios particulares, esse percentual correspondia a 34,1% em 2008 (IBGE, 2009). Em termos de evolução, os domicílios particulares permanentes dez por cento mais pobres do Brasil aumentaram sua participação na distribuição de renda de 1,2% para 1,5% de 2001 para 2008, enquanto que os dez por cento mais ricos diminuíram de 30,6% para 28,0% no mesmo período. Isso contribuiu para que o Índice de Gini da distribuição do rendimento mensal dos domicílios particulares permanentes com rendimento diminuísse de 0,567 para 0,515 de 1998 para 2008 (IBGE, 2009). Estudo do Instituto de Pesquisa Econômica Aplicada (IPEA) (SILVEIRA; BERTASSO; MAGALHÃES, 2003), realizado a partir de microdados do Censo Demográfico 2000, acerca da tipologia socioeconômica das famílias de grandes regiões urbanas brasileiras e seu perfil de gastos, identificou 10 grupos distintos, dos quais 4 são formados por basicamente famílias pobres ou muito pobres. Do total de famílias do estudo (15.512, representando um universo de cerca de 12.544.069 famílias brasileiras), 36,6% foram classificadas como pertencentes a um desses grupos. Em percentual de pessoas, esse número sobe para 44,9%, o que sinaliza que as famílias de baixa renda são de maior tamanho em comparação às mais ricas. Relatório do Instituto de Estudos do Trabalho e Sociedade (IETS) (SOARES, 2006) com base na Pesquisa Nacional por Amostra de Domicílios (PNAD) de 2004 do IBGE mostra que a proporção de pobres na região metropolitana de São Paulo cresceu de 41% em 2003 para 41,6% em 2004. São 7.506.000 pobres em uma população de aproximadamente 18.200.000 pessoas. O estudo considera abaixo da linha de pobreza famílias com rendimento familiar mensal per capita inferior a R$ 250,79, menos de 1 salário mínimo à época. 3 Região Administrativa do Estado de São Paulo, composta de 39 municípios: São Paulo (capital), Arujá, Barueri, Biritiba Mirim, Caieiras, Cajamar, Carapicuíba, Cotia, Diadema, Embu, Embu-Guaçu, Ferraz de Vasconcelos, Francisco Morato, Franco da Rocha, Guararema, Guarulhos, Itapecerica da Serra, Itapevi, Itaquaquecetuba, Jandira, Juquitiba, Mairiporã, Mauá, Mogi das Cruzes, Osasco, Pirapora do Bom Jesus, Poá, Ribeirão Pires, Rio Grande da Serra, Salesópolis, Santa Isabel, Santana de Parnaíba, Santo André, São Bernardo do Campo, São Caetano do Sul, São Lourenço da Serra, Suzano, Taboão da Serra e Vargem Grande Paulista. 33 A grandiosidade e significância desses números, absolutos e percentuais, reforçam a importância de se realizar estudos de acompanhamento da classificação econômica das famílias, em especial para a baixa renda. Renda é o indicador tradicionalmente adotado em estudos sobre condições de vida e pobreza (BUSSAB; FERREIRA, 1999). Entende-se renda como a soma do rendimento mensal de trabalho com o proveniente de outras fontes (IBGE, 2003). Tal conceito se aplica ao indivíduo (normalmente o chefe ou responsável pela família), à família ou ao domicílio. Além de fácil operacionalização, o seu uso justifica-se na medida em que, nas economias de mercado, é através da renda que se dá o acesso aos bens e serviços necessários à sobrevivência. No entanto, a dificuldade em obter informações precisas sobre essa variável, freqüentemente alterada por subdeclaração, superdeclaração, esquecimento, sazonalidade da fonte dos rendimentos e recusa, torna difícil a coleta direta deste indicador em pesquisas de mercado (BUSSAB; FERREIRA, 1999). Em conseqüência disso, os Institutos de Pesquisa optam por captar a Classe Econômica ou o Poder de Consumo dos indivíduos através de indicadores baseados na posse de bens duráveis da família e no grau de instrução do chefe. Tais indicadores podem ser usados com certa precisão para substituir a renda. Além de ser uma medida indireta da renda familiar, o estoque de bens possuídos por uma família indica o nível de conforto por ela alcançado ao longo do tempo. O mais recente indicador deste tipo é o Critério de Classificação Econômica Brasil (CCEB), ou simplesmente Critério Brasil, definido em 1996 pela Associação Nacional de Empresas de Pesquisa (ANEP), e mantido desde 2004 pela Associação Brasileira de Empresas de Pesquisa (ABEP). Em sua versão original, este indicador é baseado em uma escala de pontos que pode variar de 0 a 34 pontos, segmentada em 7 classes econômicas (ABEP, 2004). A partir de 2008, o CCEB foi revisado, passando a basear-se em uma escala de pontos de 0 a 46, segmentada em 8 classes econômicas (a classe C foi dividida em C1 e C2) (ABEP, 2008b). 34 De acordo com o Levantamento Sócio-Econômico (LSE) do IBOPE de 2008 (ABEP, 2010), o percentual da população (entenda-se, domicílios) situada nas duas classes econômicas mais pobres (D e E) é de 19,5% no Brasil e de 14,4% na Grande São Paulo, segundo o Critério de Classificação Econômica Brasil (ver tópico 2.4). Porém, o critério apresenta importantes diferenças regionais (ABEP, 2004, 2008b) e não é adequado para a caracterização de famílias posicionadas nos extremos da distribuição de renda (MATTAR, 1996; SILVA, 2002) e, em particular, para o consumidor de baixa renda. O critério se presta a segmentar grandes massas e se adequa bem a estudos de abrangência nacional. Para regiões ou segmentos específicos, estudos aprofundados necessitam de especializações ou adaptações do Critério Brasil para a caracterização inicial da população em análise, muitas vezes envolvendo variáveis que melhor caracterizem a aptidão para o consumo. O uso de indicadores de consumo que tenham abrangência e utilidade gerais pode mostrar-se útil nesse processo de caracterização dos consumidores. Dentre os indicadores com essa natureza está o Consumo de Energia Elétrica. Nacionalmente, o serviço de fornecimento de energia elétrica abrange 98,6% dos domicílios brasileiros, índice que aumenta para 99,82% na área urbana e para 99,97% na região Sudeste (IBGE, 2009). Tem mais capilaridade e cobertura que serviços de outras empresas de utilidades, como telefonia fixa e móvel, água encanada e gás (IBGE, 2009). Isso porque, basicamente, todos têm acesso à luz, principalmente quando consideradas as ligações clandestinas e fraudes, mas nem todos têm água encanada, ou mesmo telefone. Além disso, as bases de dados das distribuidoras de energia elétrica contêm a informação de consumo de cada um de seus clientes, das classes mais às menos favorecidas (FRANCISCO, 2002, 2006). Por ser um serviço essencial, abrangente e relativamente democrático em comparação a outros serviços de utilidade pública, suas informações cadastrais e comerciais podem oferecer subsídio para um conhecimento comparativo de características socioeconômicas e demográficas das famílias em estudo. Ademais, estudos aprofundados em determinadas classes como, por exemplo, as classes mais pobres, requerem mecanismos que permitam detalhamento de faixas específicas e o melhor entendimento do matiz de subníveis de classificação. 35 Aliados às informações de localização, histórico e sazonalidade, os indicadores elétricos podem ajudar a inferir uma melhor classificação socioeconômica a partir de faixas de consumo, e contemplar uma melhor definição do consumidor de baixa renda em regiões de menor acesso e maior dificuldade de levantamento dos bens de consumo. A construção do Índice Paulista de Responsabilidade Social (IPRS) pela Fundação SEADE, em 2000, corrobora essa possibilidade. O IPRS foi concebido para caracterizar e acompanhar a evolução dos 645 municípios do Estado de São Paulo e buscou preservar as três dimensões que compõem o Índice de Desenvolvimento Humano (IDH) da Organização das Nações Unidas (ONU) (SEN, 1999): riqueza, longevidade e escolaridade. Na dimensão riqueza do IDH, o consumo de energia elétrica residencial é utilizado em conjunto com o rendimento médio dos empregados no setor privado com carteira assinada e no setor público, para captar a renda familiar (TORRES; FERREIRA; DINI, 2003; SEADE, 2009), possibilitando sua reprodução em anos intercensitários. O consumo de energia elétrica residencial dos municípios do Estado de São Paulo também é utilizado para a composição da dimensão riqueza do IPRS (SEADE, 2009). Mais do que permitir a caracterização econômica na granularidade municipal, a flexibilidade possibilitada pelo uso de informações advindas das distribuidoras de energia elétrica impulsiona a geração de indicadores em níveis intra-municipais, intra-distritais ou em qualquer unidade de área que se necessite. Indicadores por setor censitário são de possível criação e atualização, tornando-se semelhante à forma de publicação de informações censitárias agregadas pelo IBGE e similar ao padrão praticado pelo mercado. Como as informações originais das concessionárias de energia estão associadas aos domicílios (ou melhor, aos medidores de energia existentes nos domicílios), que são pontos geográficos em sua típica representação espacial em uma ferramenta de geoinformação, a agregação em unidades de área é trivial. E a própria utilização em nível domiciliar também é possibilitada, guardadas as ressalvas que a confidencialidade proporciona na publicação individualizada. Uma melhor classificação dos domicílios ou, de maneira mais ampla, da população e em especial dos consumidores de baixa renda trará mais conhecimento a programas que buscam oferecer microcrédito e estabelecer políticas de oferta de produtos e serviços mais adequados a famílias de baixa renda. Dessa forma, os agentes financeiros e as empresas de varejo poderão caracterizar e identificar seu público-alvo com mais clareza. 36 Segundo o presidente do Banco Mundial, James D. Wolfesohn, “o microcrédito é a oferta de serviços financeiros àqueles que normalmente são excluídos do sistema financeiro tradicional” (JANSSON; TABORGA, 2000), onde o termo “excluídos” se refere a indivíduos de baixa renda, que possuem poucos ativos e praticamente nenhum acesso a mecanismos tradicionais de crédito (SEN, 1988; PARENTE, 2002). O microcrédito proporciona às famílias carentes perspectivas de redução do risco de se tornarem ainda mais pobres e permanecerem abaixo do limite da pobreza (BARNES, 2001) ao representar um auxílio potencial para a diversificação das fontes de renda e aquisição de ativos destas famílias (PARENTE, 2002). Nos mercados de baixa renda, especificamente, destacam-se os custos de infra-estrutura, distribuição e informação (PRAHALAD, 2005). A existência de assimetria de informações e de custos de transação limita e direciona as atividades de marketing no mercado de microcrédito produtivo orientado brasileiro (ZAMBALDI, 2007) e não produtivo (MONZONI, 2008). Os altos custos de informação associados à concessão de crédito e à garantia de adimplência poderão se beneficiar da coleta do consumo de energia elétrica do domicílio do tomador de crédito. Mais ainda, um estudo americano recente, utilizando uma base de dados de 8 milhões de potenciais solicitantes de crédito em diversos estados norte-americanos, mostra que dados “alternativos” ou “não tradicionais” (energia elétrica, aluguel, gás, seguros) podem ser utilizados no processo de concessão de crédito, diminuindo a assimetria de informação e potencializando maior assertividade nos modelos de credit scoring (TURNER et al., 2006). Para as empresas de varejo, a incorporação do consumo de energia elétrica poderá melhorar a identificação das famílias potenciais consumidoras de ofertas específicas. Consumidores de mesma classificação econômica segundo o Critério Brasil poderão ser diferenciados através do consumo de energia elétrica de seus domicílios. Além disso, para as empresas distribuidoras de energia elétrica, a aplicação de um modelo de classificação socioeconômica baseado no Consumo de Energia Elétrica propicia maior eficácia em estudos de identificação, segmentação e previsão de mercado, análises de fraude e inadimplência e na elaboração de estratégias de relacionamento com seus clientes, entre outros benefícios (FRANCISCO, 2002). Uma vez que o consumo de energia elétrica, em certa medida, reflete a posse e o uso de bens duráveis de natureza elétrica (GUERREIRO et al., 1996), associado ao total de 37 cômodos do domicílio e ao número de pessoas que o habitam (POMPERMAYER; CHARNET, 1996), as empresas poderão melhorar sua taxa de retorno em materiais promocionais, malas diretas e custos afins, através de uma melhor segmentação de seu mercado, do aumento da reatividade dos consumidores em função de seu maior poder aquisitivo, e da melhor identificação de seu mercado alvo. Estudos anteriores, dos quais destacam-se os recentes trabalhos de Hansen (2000), Santos (2006) e EPE (2008b) mostram alta associação entre Consumo de Energia e Renda. Em especial, Francisco (2006) analisou a explicação da Renda a partir do Consumo de Energia Elétrica utilizando modelos de regressão sobre o mesmo objeto de estudo territorial desta tese (o município de São Paulo), e teve seu trabalho replicado por Rocha Jr. (2007) para a região da Grande Vitória, no Estado do Espírito Santo. Ambos obtiveram valores altíssimos nos coeficientes de determinação dos modelos. Os temas acima discutidos serão abordados por meio de dois construtos principais: Renda Domiciliar (ou Familiar) e Consumo de Energia Elétrica Residencial. As relações a serem examinadas entre eles serão explicadas nos tópicos seguintes. Uma das diferenças entre o presente trabalho e a dissertação de mestrado deste autor (FRANCISCO, 2006) é o uso da Estatística Espacial para incorporar a influência geográfica, ou dependência espacial, na explicação dos modelos. Adicionalmente, consideraremos a Classe Econômica (segundo Critério Brasil e adaptações) meramente na discussão e análise comparativa das relações entre os construtos. 1.2 PROBLEMA DE PESQUISA O atual trabalho se propõe a investigar a conveniência e utilidade do Consumo de Energia Elétrica na caracterização socioeconômica e de potencial de consumo de famílias do município de São Paulo. O Critério de Classificação Econômica Brasil (CCEB), ou simplesmente Critério Brasil, amplamente utilizado para estimar o poder de compra das pessoas e famílias urbanas (ABEP, 2004, 2008b), não se apresenta adequado para a caracterização de pessoas e famílias posicionadas nos extremos da distribuição de renda (MATTAR, 1996; SILVA, 2002; ABEP, 2004, 2008b). Mais ainda, o Consumo de Energia Elétrica permitiria uma mais freqüente e flexível produção de um indicador de Renda. Esse 38 estudo visa a propor um indicador de Renda com essas características, de forma que os institutos de pesquisa e inteligência de mercado, as empresas de varejo e os agentes financeiros possam caracterizar e identificar seu público-alvo com clareza; as distribuidoras de energia elétrica possam melhor estruturar suas estratégias de relacionamento com clientes e sua previsão de mercado; e programas de microcrédito possam ser melhor direcionados para a população de baixa renda. Além disso, muitos estudos anteriores (ASSUNÇÃO, 2001; TORRES et al., 2003; TORRES; MARQUES, 2004; MESSNER; ANSELIN, 2004; CÂMARA; CARVALHO, 2004; VOSS; WHITE; HAMMER, 2006, ZAMBALDI; GOLDSZMIDT, 2006, entre outros) mostraram haver influência espacial em fenômenos sociais, em especial, relacionados à Renda Domiciliar, o que sugere a avaliação da adoção de técnicas semelhantes no estudo integrado com o Consumo de Energia Elétrica. O Consumo de Energia Elétrica é um bom indicador de Renda? De que forma indicadores de Consumo de Energia Elétrica podem auxiliar a caracterização econômica de consumidores, ou da população em geral? Em outras palavras, podemos sintetizar o problema de pesquisa na seguinte questão básica: “Qual é a relação entre o Consumo de Energia Elétrica e a Renda?”. Dada a pouca realização de pesquisas acadêmicas com este foco e com esta metodologia, este trabalho é inicial e oferece um estímulo para pesquisas futuras sobre os temas que o cercam. 1.3 OBJETIVOS O objetivo desta pesquisa é examinar a relação entre o Consumo de Energia Elétrica e a Renda Domiciliar. Especula-se que famílias com maior consumo de energia elétrica têm maior renda familiar. Pretende-se investigar a utilidade do consumo de energia elétrica como base para um indicador que possibilite a comparação com o Critério Brasil. Pretende-se operacionalizar 39 a criação de um indicador de Renda Domiciliar (ou Familiar) a partir do Consumo de Energia Elétrica Residencial. 1.3.1 MODELO ADOTADO O Esquema 1.1 sintetiza de forma esquemática as relações postuladas neste estudo. H3 Consumo de Energia Elétrica H1 + Renda Domiciliar + H2 + Posse de Bens Grau de Instrução do Chefe da Família Classe Econômica Brasil Formação do Indicador Esquema 1.1: Relações Postuladas entre as Variáveis Consideradas neste Estudo Fonte: elaboração própria. As variáveis representadas por retângulos são observáveis (manifestas), enquanto que as variáveis representadas por elipses (em nosso caso, apenas a Classe Econômica Brasil) são variáveis não observáveis diretamente (latentes). As setas unidirecionais destacam a direção da causa da relação entre as variáveis, segundo notação de Pedhazur e Schmelkin (1991, p.55). O Esquema 1.1 apresenta, ainda, as hipóteses a serem testadas (H1, H2 e H3) e o comportamento esperado da relação H1 (positivo). As hipóteses H2 e H3 refletem a investigação de padrões espaciais de distribuição desses construtos, e se referem à verificação de existência de auto-correlação espacial (MORAN, 1948) para os construtos, conceito que será apresentado no Capítulo 3. Adicionalmente, a relação entre Classe Econômica Brasil e Renda Familiar, já verificada em estudos anteriores (FRANCISCO, 2006), é apresentada no diagrama, bem como as variáveis que formam esse indicador. A notação para Posse de Bens 40 concentra uma lista de variáveis de contagem e existência de bens duráveis que, em conjunto com a variável Grau de Instrução do Chefe da Família, formam o indicador de Classe Econômica Brasil. Vale destacar que as relações acima postuladas indicam a modelagem que o estudo pretende utilizar na investigação do fenômeno. O senso comum nos indica que, em unidades domiciliares, o Consumo de Energia Elétrica reflete uma condição de Renda Familiar – quanto maior o poder aquisitivo da família, mais condições de posse de bens eletrodomésticos ela tem e, por conseguinte, maior o uso dos bens e o consumo de energia elétrica – e não o inverso, conforme postulado. Porém, busca-se investigar o quanto o Consumo de Energia Elétrica contribui na explicação da variação de Renda, isoladamente e em conjunto com a Classe Econômica Brasil, objetivando a predição e não a descrição do fenômeno. Por isso, a relação expressa na hipótese H1 se coloca dessa maneira. Estudos em um horizonte temporal maior poderiam endereçar de forma diferente essa relação. Da mesma forma, a relação entre Renda Familiar e Classe Econômica Brasil é expressa no sentido da explicação da Renda. Além disso, a Investigação Domiciliar (a ser discutida no tópico 4.2) utilizará a variável proxy Valor da Conta de Luz para representar o construto Consumo de Energia Elétrica. A seguir, serão postuladas a hipótese central e as demais que norteiam este estudo. 1.3.2 FORMULAÇÃO DE HIPÓTESES A hipótese central a ser estudada na pesquisa é: H1: Quanto maior o Consumo de Energia Elétrica residencial, maior a Renda Domiciliar (ou Familiar); Diante das particularidades regionais do perfil socioeconômico da população brasileira (ABEP, 2004, 2008b) e da existência de características socioeconômicas específicas das famílias posicionadas nos extremos da distribuição de renda (MATTAR, 1996; SILVA, 41 2002), é necessário identificar padrões de variação de renda que incorporem tais particularidades e características. Estudos preliminares do município de São Paulo com indicadores de Renda, exclusão social, autonomia em relação a serviços de saneamento básico e graus de educação (CÂMARA et al., 2004; ZAMBALDI; GOLDSZMIDT; 2006), verificaram uma relação de aumento da vulnerabilidade socioeconômica no sentido centroperiferia, levando à formulação das seguintes hipóteses de pesquisa: H2: Existe padrão de dependência espacial da variável Renda Domiciliar entre regiões da Grande São Paulo, com renda decrescente no sentido CentroPeriferia; e H3: Existe padrão de dependência espacial da variável Consumo de Energia Elétrica entre regiões da Grande de São Paulo, com consumo de energia decrescente no sentido Centro-Periferia. Espera-se que a verificação das hipóteses dê subsídios para a formulação de um indicador de Renda baseado em Consumo de Energia Elétrica. Deve-se notar que a natureza, a impossibilidade de remoção do efeito e a ocorrência simultânea das variáveis envolvidas permitem-nos analisar o efeito de uma variável sobre a outra, e não a direção da causalidade do fenômeno em si. A abordagem de investigação deste trabalho busca modelar uma direção de relação em que o Consumo de Energia Elétrica explique a Renda. Uma alternativa para investigar direção de relações de causalidade é utilizar um experimento do tipo longitudinal (PEDHAZUR; SCHMELKIN, 1991), no qual a relação temporal de mudanças na atitude e no comportamento possa ser observada. Estudos longitudinais são, no entanto, onerosos, pois requerem espaços longos de tempo e são freqüentemente enfraquecidos por abandonos de participantes. A avaliação do efeito de uma relação causal implicaria em reaplicar um mesmo experimento, controlado por todos os outros aspectos, exceto pelo valor da variável causal (KING; KEOHANE; VERBA, 1994), o que se torna impossível para a hipótese H1 no atual estudo. 42 1.4 OBJETO DE ESTUDO E NÍVEIS DE INVESTIGAÇÃO O objeto deste estudo é a população do município de São Paulo, capital do Estado e mais importante pólo econômico do Brasil e de todo o Hemisfério Sul. Mais especificamente, seus domicílios e famílias. O fenômeno Centro-Periferia de dependência espacial dos construtos será investigado para este objeto. Não obstante, outras regiões geográficas podem apresentar outros padrões de distribuição ou segregação espacial, oriundos de dinâmicas urbanas diferentes - policêntricas, por exemplo (TORRES et al., 2003). Basicamente, a pesquisa está dividida em duas partes – dois níveis de investigação. A primeira parte busca caracterizar as relações postuladas em nível territorial agregado, mais especificamente, áreas de ponderação (conjunto de setores censitários) definidas no Censo Demográfico 2000 pelo Instituto Brasileiro de Geografia e Estatística (IBGE). Para tal, se valerá dos microdados da Amostra do Censo Demográfico 2000 para o município de São Paulo e de informações de consumo de energia elétrica residencial do período de Setembro de 1999 a Agosto de 2000 para o município de São Paulo, agregadas segundo as mesmas unidades de referência, geográficas, do Censo Demográfico. As informações de consumo de energia são oriundas da base de domicílios da AES Eletropaulo, concessionária de energia elétrica que detém o monopólio desse serviço no município. O segundo nível de investigação busca caracterizar as relações postuladas na perspectiva domiciliar, e se valerá, para tal, de dados coletados na Pesquisa Anual de Satisfação do Cliente Residencial, coordenada pela Associação Brasileira dos Distribuidores de Energia Elétrica (ABRADEE), para os anos de 2004, 2006, 2007, 2008 e 2009, no município de São Paulo. Para o nível domiciliar, a localização geográfica informada das entrevistas da Pesquisa ABRADEE é apenas o distrito. Para tal, foram desenvolvidos 6 algoritmos de alocação, ou espalhamento, de pontos no interior dos polígonos dos distritos de forma a permitir um uso mais adequado das técnicas de regressão espacial, em especial da Geographically Weighted Regression (GWR) (vide tópico 3.4.3), ao invés da simples associação dos pontos a um centróide, à sede do distrito ou a um ponto interno arbitrário. Isso 43 sugere uma associação mais realística entre os construtos analisados e potencializa o uso destas técnicas em outros problemas de pesquisa e áreas de conhecimento. As hipóteses H2 e H3 poderão ser amplamente avaliadas na investigação territorial, uma vez que as áreas de ponderação cobrem toda a extensão do município de São Paulo. A investigação domiciliar avaliará a existência de associação, ou dependência, espacial, mas não buscará analisar um padrão direcional, Centro-Periferia, no caso. 1.5 DESENVOLVIMENTO Esta tese está dividida em 6 capítulos. O Capítulo 2 deste trabalho apresenta uma revisão da literatura das principais definições que fundamentam o estudo e um breve panorama sobre indicadores de riqueza e principais critérios de caracterização social e econômica existentes. O Capítulo 3 descreve as técnicas de Estatística Espacial e Análise Exploratória de Dados Espaciais que contextualizam a operacionalização metodológica aplicada. Em seguida, o Capítulo 4 trata da metodologia utilizada na pesquisa, incluindo a descrição dos diversos conjuntos de dados da pesquisa: censitários e oriundos de pesquisas de campo, e a descrição dos algoritmos de alocação de pontos em polígonos. O Capítulo 5 analisa os resultados, expondo as relações entre os construtos, e faz uma discussão complementar sobre o modelo, na ótica de sua operacionalização como um produto ou serviço para a sociedade. Além disso, apresenta considerações sobre a validade atual dos achados. Por último, o Capítulo 6 apresenta as principais conclusões dos achados, com aplicações no mercado, do varejo em geral à concessão de microcrédito, à caracterização econômica das famílias, em especial de baixa renda, às empresas de pesquisas mercadológicas e às concessionárias de distribuição de Energia Elétrica. São indicadas as limitações deste trabalho, com a sugestão de temas e aprimoramentos para futuras pesquisas. 44 2 REVISÃO DO CONHECIMENTO De acordo com o Instituto Brasileiro de Geografia e Estatística (IBGE, 2004a), um dos desafios para a construção do desenvolvimento sustentável é o de se criar instrumentos de mensuração, tais como indicadores de desenvolvimento, a serem utilizados como ferramentas que revelem significados mais amplos sobre os fenômenos a que se referem. Estes indicadores são instrumentos essenciais para guiar a ação e subsidiar o acompanhamento e a avaliação do progresso alcançado, rumo ao desenvolvimento. Qualquer breve levantamento da literatura a respeito de conceitos e teorias de estratificação social mostrará um excesso de conceitualizações conflitantes. Conceitos de fácil aceitação intuitiva, como renda, status, classe e diferenciação social, não são de definição consensual (PFAUTZ4, 1953 apud MATTAR, 1995). O fato de que desigualdades sociais são encontradas em qualquer sociedade sugere que há características universais nas estruturas sociais que geram essa desigualdade (TUMIN5, 1967 apud MATTAR, 1995). A diversidade de critérios de diferenciação, contudo, pode fazer com que obtenhamos visões conflitantes dessa sociedade. A estratificação social diz respeito ao diferencial de classificação de indivíduos humanos que compõem um dado sistema social e seu tratamento como superiores ou inferiores uns aos outros com relação à importância social considerada. “Na atualidade, tanto nas sociedades pertencentes aos países desenvolvidos quanto naquelas dos países em desenvolvimento, a energia elétrica é um vetor de fundamental importância” (TRIGOSO, 2004, p. 49). O consumo de energia é um dos principais indicadores do desenvolvimento econômico e do nível de qualidade de vida de qualquer sociedade (ANEEL – AGÊNCIA NACIONAL DE ENERGIA ELÉTRICA, 2008). Embora ainda existam aqueles que não usufruem deste serviço, ele está incorporado ao modo de vida das pessoas por meio de diversas aplicações, o que se reflete no constante crescimento de sua demanda (TRIGOSO, 2004). 4 Pfautz, Harold W. The Current Literature on Social Stratification: Critique and Bibliography. American Journal of Sociology, 58, p. 394-399, 1953. Tumin, Melvin M. Social Stratification – The Forms and Functions of Inequality. Englewood Cliffs, NJ: Prentice-Hall, 1967. 5 45 Os principais conceitos, contextos e construtos que fundamentam este trabalho são apresentados a seguir. Considerações a respeito da validade dos mesmos, bem como da relação entre eles, serão apresentadas no decorrer do texto. 2.1 FAMÍLIA, DOMICÍLIO E RENDA Buscamos, neste estudo, avaliar e caracterizar Famílias que vivem em Domicílios. Essas duas definições, aparentemente simples, são sofisticadas na definição precisa e não se sobrepõem totalmente para a população em estudo. O conceito de Família adotado neste trabalho é o mesmo do IBGE (2004a, p.19): “conjunto de pessoas ligadas por laços de parentesco, dependência doméstica ou normas de convivência, residente na mesma unidade domiciliar, ou pessoa que mora só em uma unidade domiciliar”. Já para a Fundação SEADE (2005b), o conceito de ligação do conjunto de pessoas não considera dependência doméstica ou normas de convivência. Pressupõe-se, pois, uma relação intrínseca entre Família e Domicílio. Este último é “o local de moradia estruturalmente separado e independente, constituído por um ou mais cômodos” (IBGE, 2004a, p. 22). De caráter mais detalhado, para a Fundação SEADE, “é o local de moradia (...) com entrada independente e separação. Entende-se por entrada independente o acesso direto à moradia, sem passagem por cômodos destinados à residência de outras pessoas, e por separação o local de moradia que é limitado por paredes, muros, cerca etc, além de ser coberto por um teto, o que permite às famílias ou às pessoas que o habitam isolarem-se das demais”. (SEADE, 2005a, p. 15). Operacionalmente, o Censo Demográfico obtém uma visão das pessoas que compõem a família e habitam o domicílio através da coleta da informação da relação da pessoa com o responsável pela família (variável V0403 da Base de Dados de Pessoas dos Microdados da Amostra) e da relação da pessoa com o responsável pelo domicílio (variável V0402) (IBGE, 2002). Tal diferenciação se dá pela possibilidade de coexistência de mais de uma família em um mesmo domicílio. Domicílios multifamiliares, no entanto, são raros – 98,4% dos domicílios em distritos de baixa renda do município de São Paulo são unifamiliares (SEADE, 2005b). 46 Dentre as categorias de classificação, apenas Pensionista, Empregado Doméstico e Parente do Empregado Doméstico não são considerados membros da família ou do domicílio. O Quadro 2.1 a seguir apresenta as classificações de posição, ou parentesco, dos moradores em relação ao responsável (ou chefe) do domicílio, segundo o IBGE e a Fundação SEADE. Por conseguinte, famílias que não vivem em domicílios não serão investigadas neste estudo, e, não obstante, também não fazem parte dos levantamentos censitários oficiais, devido às restrições de conceito apresentadas anteriormente. Classificaram-se os domicílios como particulares quando destinados à habitação de uma pessoa ou de um grupo de pessoas cujo relacionamento fosse ditado por laços de parentesco, dependência doméstica ou, ainda, normas de convivência. Como coletivos foram classificados os domicílios destinados à habitação de pessoas em cujo relacionamento prevalecesse o cumprimento de normas administrativas (IBGE, 2004a). Em linhas gerais, Renda tem sido o indicador mais disponível de marketing para os padrões de consumo familiares. Porém, a associação de uma “renda média” a uma massa da população em áreas metropolitanas pode colocar trabalhadores de diferentes origens, especialidades e níveis educacionais em uma mesma categoria. Seus comportamentos de compra, seus gostos e suas aspirações de gastos-poupança podem estar em lados opostos (MATTAR, 1994, 1996). Conforme definido no Capítulo 1, entende-se Renda como a soma do rendimento mensal de trabalho com o proveniente de outras fontes (IBGE, 2003). Tal conceito considera população em idade ativa (PIA) (pessoas de 10 anos ou mais de idade), segundo o IBGE (2003, 2004) e a Fundação SEADE (2005b), e se aplica ao indivíduo (normalmente o chefe ou responsável pela família), à família ou ao domicílio. O rendimento mensal de trabalho se aplica à população economicamente ativa (PEA), que corresponde à parcela da PIA que está ocupada ou desempregada (SEADE, 2005b). Adicionalmente, considera-se a renda per capita, ou o rendimento mensal familiar per capita, como a divisão do rendimento mensal familiar pelo número de componentes da família (exclusive, pois, pensionista, empregado doméstico ou parente do empregado doméstico). 47 IBGE Código Fundação SEADE Classe Pessoa responsável Cônjuge, Companheiro(a) Filho(a), Enteado(a) Pai, Mãe, Sogro(a) Neto(a), Bisneto(a) Irmão, Irmã Descrição Pessoa (homem ou mulher) responsável pelo domicílio ou que assim seja considerada pelos demais moradores Pessoa (homem ou mulher) que vivia conjugalmente com a pessoa responsável pelo domicílio, existindo ou não vínculo matrimonial Inclusive o filho adotivo ou de criação e o filho somente do cônjuge, mesmo que o cônjuge já tenha falecido ou não more mais no domicílio Inclusive padrasto(s) e madrasta(s) Inclusive o(s) que seja(m) só do cônjuge Inclusive os que não têm laços consangüíneos (adotivos ou de criação) Código Classe Chefe do domicílio ou da família Cônjuge Filho Enteado Pai/Mãe Sogro(a) Neto Irmão(ã) Sobrinho do chefe Sobrinho do cônjuge Cunhado(a) Genro/Nora Avô(ó) Tio(a) Outro parente Descrição Morador (homem ou mulher) considerado pelos demais como o principal responsável pelo domicílio (ou pela família) Morador que vive conjugalmente com o chefe, independentemente do reconhecimento legal deste vínculo Morador(a) filho(a) natural ou adotivo(a) do chefe Morador(a) filho(a) natural ou adotivo(a) do cônjuge Morador(a) que é pai ou mãe (natural ou adotivo) do chefe Morador(a) que é pai ou mãe (natural ou adotivo) do cônjuge Morador(a) neto(a) do chefe ou de seu cônjuge Morador(a) que é irmão ou irmã (consangüíneo ou adotivo) do chefe Sobrinho(a) do chefe, incluindo o sobrinho-neto Sobrinho(a) do cônjuge, incluindo o sobrinho-neto Morador(a) que é irmão ou irmã (consangüíneo ou adotivo) do cônjuge Morador(a) que é cônjuge do filho(a) do chefe ou do cônjuge Morador(a) que é avô(ó) do chefe ou do cônjuge Morador(a) que é tio(a) do chefe ou do cônjuge Morador que tem alguma relação de parentesco com o chefe ou seu cônjuge, não classificado nas categorias anteriores Morador que não é parente do chefe nem de seu cônjuge, porém não paga pensão e não é empregado doméstico 1 1 2 2 3 4 8 9 5 10 6 7 3 4 5 6 7 Outro parente Avô(ó), bisavô(ó), genro, nora, cunhado(a), tio(a), sobrinho(a), primo(a), inclusive só do cônjuge 11 12 13 14 15 8 Agregado(a) Pessoa que, sem ser parente, pensionista, empregado doméstico ou parente do empregado doméstico, não pagava hospedagem nem contribuía para as despesas de alimentação e moradia do domicílio. 16 Agregado Quadro 2.1: Classes de Relação/Posição/Parentesco no Domicílio e na Família, segundo IBGE e Fundação SEADE (continua) 48 IBGE Código Fundação SEADE Classe Pensionista Empregado(a) doméstico(a) Parente do empregado(a) doméstico(a) Individual em domicílio coletivo (sem similar) Descrição Pessoa que, sem ser parente, pagava hospedagem ou contribuía para as despesas de moradia e alimentação do domicílio. Pessoa que prestava serviços domésticos remunerados a um ou mais moradores do domicílio. Pessoa que era parente do empregado(a) doméstico(a) e que não prestava serviços domésticos remunerados a qualquer dos moradores do domicílio. Pessoa só que residia em domicílio coletivo, ainda que compartilhando a unidade com outra(s) pessoa(s) com a(s) qual(is) não tinha laços de parentesco ou dependência doméstica. Código Classe Pensionista Empregado doméstico Parente do empregado Descrição Morador que não é parente do chefe nem de seu cônjuge e que paga hospedagem Morador que presta serviço de forma remunerada à família do chefe Morador que tem laços de parentesco com o(a) empregado(a) doméstico(a) e que reside no domicílio pesquisado 9 10 11 19 17 18 12 (classificado como Chefe do domicílio coletivo) Refere-se aos casos que não se enquadram nas situações anteriores 20 Outro Quadro 2.1: Classes de Relação/Posição/Parentesco no Domicílio e na Família, segundo IBGE e Fundação SEADE (conclusão) Fonte: IBGE, 2002; SEADE, 2005b. 49 As pessoas que apresentam relação com o responsável pelo domicílio ou família como pensionistas, empregados domésticos e parentes dos empregados não são consideradas para o cômputo da Renda Familiar ou Domiciliar nos levantamentos censitários. Tal critério pode descaracterizar a real contribuição das pessoas que convivem no domicílio, colaboram com despesas e estejam eventualmente em uma das condições de exclusão definidas. O IBGE efetua o levantamento de diversas “rendas” referentes a cada membro da família ou domicílio em suas pesquisas censitárias e por amostragem. A seção “Rendimento(s) do(s) trabalho(s)” da Documentação dos Microdados da Amostra (IBGE, 2002) apresenta os seguintes conceitos: Remuneração bruta: pagamento da pessoa empregada, inclusive o salário-família e os descontos correspondentes ao INSS, Imposto de Renda, faltas etc, exclusive o décimo-terceiro salário, a gratificação de férias e a participação nos lucros paga pelo empregador. Retirada: o ganho (rendimento bruto menos os gastos efetuados com o empreendimento, tais como: pagamento de empregados, compra de equipamentos, matéria-prima, energia elétrica, telefone etc) da pessoa que explorava um empreendimento como conta-própria ou empregadora. Rendimento bruto, em reais: · Para a pessoa que possuía rendimento fixo: valor da remuneração bruta (se empregado ou trabalhador doméstico) ou da retirada (se empregador ou conta-própria) do mês de Julho de 2000 ou o que ganharia se houvesse trabalhado o mês completo (para a pessoa que ainda não houvesse recebido, o valor que viria a receber) ; · Para a pessoa licenciada por instituto de previdência oficial: valor bruto do mês de Julho de 2000 recebido como benefício (auxílio-doença, acidente de trabalho etc) ; · Para a pessoa que possuía rendimento variável: o valor em média da remuneração bruta ou da retirada do mês de Julho de 2000 ; · Para a pessoa que recebia em produtos ou mercadorias de atividade do ramo que engloba agricultura, silvicultura, pecuária, extração vegetal ou mineral, pesca e piscicultura: valor real ou estimado recebido normalmente, referente ao mês de Julho de 2000; e valor em média mensal, real ou estimado referente ao mês de Julho de 2000, que ganharia normalmente com a produção sazonal (produção temporária, ou seja, que não ocorre o ano inteiro) . (IBGE, 2002, p.119 e 120), e coleta as seguintes informações (Variáveis da Base de Dados de Pessoas): - Tem/Não Tem rendimento no trabalho principal (V4511) - Total de rendimentos no trabalho principal (rendimento bruto no trabalho principal) (em reais e Salários Mínimos) (V4513 e V4514) - Tem/Não Tem rendimento nos demais trabalhos (V4521) - Total de rendimentos nos demais trabalhos (em reais e SMs) (V4523 e V4524) - Total de rendimentos em todos os trabalhos (em reais e SMs) (V4525 e V4526) - Rendimento de aposentadoria ou pensão (em reais) (V4573) - Rendimento de aluguel (em reais) (V4583) - Rendimento de pensão alimentícia, mesada, doação (em reais) (V4593) - Rendimento renda mínima, bolsa escola, seguro desemprego (em reais) (V4603) - Outros rendimentos (em reais) (V4613) - Total de rendimentos (em reais e SMs) (V4614 e V4615) (IBGE, 2002, p.120 a 130). 50 Vale reforçar que, influenciado pela dificuldade em conseguir informações precisas sobre a variável Renda, opta-se por captar o poder de consumo das famílias ou a classe econômica, social ou socioeconômica. 2.2 CLASSE SOCIAL, CLASSE ECONÔMICA E CLASSE SOCIOECONÔMICA Existem várias definições e conceituações de classe social, que historicamente nos remetem a Marx, Durkheim, Halbwachs, Sorokin e Gurvitch, entre outros (GOLDMANN, 1993). Teorias clássicas definem Classe Social como posição econômica. Partidários do materialismo histórico vêem na existência de classes sociais e na estrutura de suas relações (luta, equilíbrio, colaboração segundo o país e época histórica) fenômeno chave para a compreensão da realidade social passada ou presente (GOLDMANN, 1993). Para Bourdieu (1986), contudo, a importância das classes sociais nas sociedades ocidentais contemporâneas está ligada a uma sociologia de dominação e à teoria culturalista. Trata-se de um conceito de classes mais amplo e também mais sutil do que o conceito marxista de classes, que Bourdieu entende como sendo muito restrito e às vezes equivocado. A “nova” teoria de classes define a classe não só pela sua posição econômica, mas igualmente pelo seu consumo cultural. É o acesso à cultura e o dispor de capital cultural que estratifica uma sociedade. O capital cultural tem uma função central para a compreensão de estratégias de reprodução social das classes. Se o problema de uma definição de classe social é extremamente difícil e complexo, tal definição só possui interesse na medida em que pode contribuir para explicar essa importância, que deve ter seu fundamento na própria estrutura da vida social. Nessa medida, o conceito de classe social se confunde com o de sua operacionalização (LOMBARDI et al., 1988; SOLLA, 1996). Segundo Lenin6 (1957, apud LOMBARDI et al., 1988), classes sociais são grandes grupos de homens que se diferenciam segundo as seguintes dimensões: (i) lugar que ocupam (os indivíduos) em um sistema de produção social determinado – posição em que os 6 Lenin, Vladimir I. Una gran iniciativa. In: Obras completas. Moscou: Progreso, 1957. 51 indivíduos se inserem dentro das relações de exploração; (ii) relações em que se encontram os indivíduos com respeito aos meios de produção – propriedade ou não dos meios de produção e de trabalho; (iii) papel que desempenham os indivíduos na organização social do trabalho – formas de controle sobre o processo de trabalho e de produção; e (iv) modo e proporção em que os indivíduos recebem a parte da riqueza social de que dispõem – depende em última instância das dimensões anteriores, não sendo mais que seu efeito. Para Davis e Moore (1945) e Hatt (1950), o processo de estratificação social apresenta-se através da ocupação de posições sociais diferenciais, em muitas estruturas sociais diferentes, como religiosas, governamentais e econômicas; de retribuições sociais de vários tipos, como ganhos financeiros, condições de trabalho vantajosas, poder e domínio sobre os outros, valor honorífico da ocupação; e conclui que o valor cobiçado, o prestígio e a estima atribuída pelos outros são as recompensas e, em última instância, o objetivo da posição social. Outros autores buscam apresentar a diferenciação de conceitos entre classe social e estrato social. Classe social remete aos propósitos de análise da dinâmica do conflito social (DAHRENDORF7, 1959 apud MATTAR, 1995), enquanto que a escolha de fatores que permitam a construção de um contínuo hierárquico remete à definição de estrato social, e não de classe. Para a finalidade da classificação, Krauss (1976) define estrato como um agregado de pessoas que são similares na posse ou no acesso a bens sociais. As diferentes conceituações de classe e estrato social que ocorreram historicamente trazem à luz uma série de significados que muitas vezes não são contemplados na operacionalização da classe social. Assim, a operacionalização desse construto acaba reduzindo-o à Classe Econômica, que significa, em larga medida, poder aquisitivo ou poder de consumo. Adicionalmente, utiliza-se a nomenclatura Classe Socioeconômica, que indica, verdadeiramente, uma combinação de variáveis econômicas e um posicionamento social. Atualmente, institutos de pesquisa preferem utilizar a denominação classe econômica na operacionalização do construto classe socioeconômica (ABEP, 2004, 2008b, 2010). Não obstante, diversos autores vêem na denominação “socioeconômica” uma síntese de outras 7 Dahrendorf, Ralf. Class and Class Conflit in Industrial Society. Stanford, CA: Stanford University Press, 1959. 52 dimensões, como sociais, humanas e até ambientais (DOWBOR; KILSZTAJN, 2001; PEDROSO, 2003; VIVERET, 2006; GADREY; JANY-CATRICE, 2006). 2.3 ESTRATIFICAÇÃO SOCIOECONÔMICA O conceito de classe social como importante, se não o maior, determinante do comportamento do consumo tem sido largamente aceito e utilizado para a segmentação de consumidores (SCHANINGER, 1981). Muitos autores (PARSONS, 1940; WARNER; MEEKER; EELLS, 1949; KAHL, 1957; KRAUSS, 1976; e COLEMAN; RAINWATER, 1978, entre outros) apresentaram diversos conjuntos de variáveis que julgaram relevantes para a estratificação social. Dentre as variáveis mais importantes estavam sempre presentes: posses (detenção de capital e de bens de consumo), ocupação e educação. Critérios de interpretação subjetiva e de difícil mensuração, como prestígio pessoal, consciência de classe e orientação de valores, também foram utilizados por alguns dos autores citados. Os favoráveis à classe social advogam que classe social está mais relacionada aos padrões de consumo do que renda (MARTINEAU, 1958; COLEMAN, 1961; LEVY, 1966). Levy (1966) defende que variações na classe social são variações no estilo de vida, e conclui que as diferenças no consumo, na escolha de mídia e loja não são resultantes apenas da variação da renda. Myers e Gutman (1974) também relacionam estilo de vida como uma variável interveniente altamente relacionada com padrões de consumo, e sustentam que classe social é uma variável básica de segmentação que consegue captar diferenças no estilo de vida que a renda não consegue. A estratificação socioeconômica remete a estudos de Chapin (1933), Guttman (1942) e Martineau (1958) até a proposta de harmonização da European Society for Opinion and Marketing Research (ESOMAR) de 1990. O primeiro artigo a abordar o tópico estratificação de marketing foi o de Martineau (1958), diretor de pesquisas e marketing do Chicago Tribune, que contratou uma conceituada equipe para realizar uma série de pesquisas para o jornal, na área metropolitana de Chicago, explorando o tema classe social e sua manifestação, especialmente nos padrões de compra da família (MATTAR, 1994). Visava a 53 determinar se existiam diferentes classes sociais na cidade de Chicago, e se existissem, qual a sua dimensão e a sua implicação nos padrões de compra. Martineau partiu do princípio que era incorreto considerar apenas a renda familiar como determinante do padrão de compra, e que a classe social a que o indivíduo pertence tem uma importância fundamental não só no seu padrão de compra, como em inúmeras outras variáveis comportamentais. Segundo suas próprias palavras: “Há certamente uma correlação grosseira entre renda e classe social. Mas classe social é uma dimensão muito mais rica de significados. Há muitas facetas de comportamento que são explicáveis somente com base na dinâmica das classes sociais” (MARTINEAU, 1958, p.125). Em contrapartida, muitos estudos que caracterizam a renda como uma boa aproximação de classe social são apresentados em análises de poder de compra para diversos mercados de interesse. Para o pesquisador do consumidor que está procurando somente uma evidência sugestiva do impacto de classe na área do produto é recomendado que uma medida simplificativa, aproximada, seja aceita. No entanto, quando o objetivo do pesquisador for um estudo profundo do relacionamento entre classe social e escolha de consumo, a distribuição dos casos da amostra entre os agrupamentos de classes poderá ser realizada de modo a identificar estilo de vida (MATTAR, 1994). A investigação de estilo de vida e padrões de consumo remete ao conceito de Classe Social, enquanto que a identificação de posse de bens duráveis se associa a Classe Econômica, e correlaciona-se com a Renda. O princípio básico da metodologia empregada para Classe Econômica é o de se descobrir itens de conforto que tenham uma forte correlação com renda familiar – é nesses termos que se estabelece a estratificação socioeconômica. No Brasil, até 1970 não havia um critério único, objetivo e geral de classificação socioeconômica de consumidores (MATTAR, 1996). À medida que algumas empresas passaram a adotar práticas de marketing, principalmente a segmentação de mercado, surgiu a necessidade de um critério que facilitasse esse processo e que permitisse a realização de pesquisas e programação de mídia visando, especificamente, a determinados estratos do mercado. Isso atendia de imediato suas necessidades, mas impedia o intercâmbio e a comunicação de seus achados. 54 Em 1970, a Associação Brasileira de Anunciantes (ABA) estabeleceu o primeiro critério padronizado de classificação socioeconômica no Brasil, que foi denominado de Critério ABA, baseado no cômputo de pontos calculados a partir da posse de itens, e com base na premissa da existência de quatro classes socioeconômicas, rotuladas de A a D. De 1974 a 1976, após reclamação de superestimação das classes mais altas, foram realizadas adaptações no critério, que consistiram na subdivisão de cada classe original em duas. Dois anos mais tarde, mesmo a versão já alterada sofria críticas. Em 1982, a ABA e a Associação Brasileira dos Institutos de Pesquisa de Mercado (ABIPEME) elaboraram e aprovaram um novo modelo, que passou a ser conhecido como Critério ABA-ABIPEME, composto de cinco classes: A, B, C, D e E, respectivamente descritas como classe alta, classe média, classe média baixa, classe pobre e classe muito pobre (MATTAR, 1995). Novas reclamações, e novos estudos foram realizados. A proposta resultante, elaborada por Almeida e Wickerhauser (1991), não foi aceita por parte dos associados da ABIPEME, que discordaram dos novos critérios de estratificação. Isso trouxe como conseqüência a abertura de uma nova associação denominada Associação Nacional das Empresas de Pesquisa (ANEP), formada pelos associados dissidentes da ABIPEME (ANUNCIANTES..., 1991; GRANDES..., 1992). A metodologia, no geral, é muito semelhante àquela utilizada por Chapin (1933) para desenvolver a escala socioeconômica com base nos bens e objetos da sala de estar. O princípio básico da metodologia empregada é o de se descobrir itens de conforto que tenham uma forte correlação com renda familiar. Uma vez descobertos quais são esses itens discriminadores da renda, procura-se estabelecer um sistema de pontuação (ou pesos) que, atribuídos à posse desses itens (e, às vezes, ao número de itens possuídos), vão permitir saber qual é a pontuação total desse indivíduo ou família. Um sistema de cortes na escala de pontuação passa a permitir que se classifique cada indivíduo ou família pesquisada em um estrato social. Da mesma forma que o sistema proposto por Chapin (1933) teve de ser reformulado por Guttman (1942) para poder ser utilizado, pois se encontrava desatualizado, os sistemas utilizados no Brasil apresentam problemas semelhantes e também precisam ser reformulados periodicamente para serem adequadamente utilizados. 55 O problema dos métodos está na utilização de variáveis e indicadores que são inadequados por não terem estabilidade ao longo do tempo e por serem pouco discriminadores dos estratos da população (PEREIRA, 2004). O uso de variáveis que possam prescindir dessa necessidade de constante atualização, como a medição do consumo de energia elétrica, pode ser uma alternativa viável. O monitoramento da adequabilidade do critério de classificação econômica passa a ser substituído pelo monitoramento da associação entre Renda e Consumo de Energia Elétrica, nesse novo contexto. 2.4 CLASSE ECONÔMICA DO CRITÉRIO BRASIL Posteriormente, em 1996, o Critério de Classificação Econômica Brasil (CCEB), ou simplesmente Critério Brasil, foi criado pela ANEP a pedido da ABA e é utilizado até os dias atuais. Em 2004, a ANEP e a ABIPEME se juntaram e fundaram a Associação Brasileira de Empresas de Pesquisa (ABEP), que mantém e torna públicas as regras de operacionalização do Critério Brasil desde então, com pequenas atualizações de itens domésticos de acordo com a evolução da tecnologia e sua incorporação na vida cotidiana (ABEP, 2004, 2010). Mais recentemente, em 2008, o critério foi revisto em seus itens coletados e seu sistema de pontuação e uma mais detalhada estratificação em classes foi desenvolvida, buscando manter, contudo, a base histórica comparativa desde 1996 (ABEP, 2008b). Para a construção e manutenção do critério ao longo destes anos são utilizados dados do Levantamento Socioeconômico (LSE) do IBOPE (ABEP, 2004, 2008a, 2009, 2010). De operação simples e concepção complexa, o Critério Brasil é freqüentemente criticado por diversas categorias de profissionais. Na maioria das vezes, as questões dizem respeito à sua incapacidade de segmentar a população de acordo com o estilo de vida ou classificação social (SILVA, 2002). A adoção pelo mercado de um critério de classificação econômica comum restabelece a unicidade dos mecanismos de avaliação do potencial de compra dos consumidores após alguns anos de coexistência de dois critérios. Basicamente, o Critério Brasil utiliza indicadores de posse de bens duráveis da família e de grau de instrução do chefe da família para compor uma escala de pontos. No critério em vigor até 2004 essa pontuação variava de 0 (zero) a 34 (trinta e quatro) pontos, e 56 era segmentada em 7 classes econômicas, apresentadas em ordem decrescente de renda a seguir: A1, A2, B1, B2, C, D e E. No critério atualmente em vigor, essa pontuação varia de 0 (zero) a 46 (quarenta e seis) pontos, e pode ser segmentada em 8 classes econômicas – a classe C foi dividida em C1 e C2. Os Esquemas 2.1 e 2.2, a seguir, apresentam a pontuação do critério e a composição das classes econômicas, para suas versões anterior (até 2007) e atual. O Anexo A descreve e detalha a operacionalização do critério e faz considerações sobre sua validade. Posse de Itens (Bens duráveis) e Empregada mensalista Grau de Instrução do chefe de família Esquema 2.1: Composição de Pontos e Classificação Econômica do Critério Brasil em vigor até 2007 Fonte: adaptado de ABEP, 2004. 57 Posse de Itens (Bens duráveis) e Empregada mensalista Grau de Instrução do chefe de família Esquema 2.2: Composição de Pontos e Classificação Econômica do Critério Brasil em vigor a partir de 2008 Fonte: adaptado de ABEP, 2008a. Nota: Os itens e pontuações destacados em vermelho são diferenças com relação ao CCEB em vigor até 2007. O Critério Brasil Adaptado (CBA), utilizado neste estudo, e detalhado no tópico 2.4, é calculado a partir do questionário da Amostra do Censo Demográfico 2000 e foi desenvolvido por Francisco (2006) tendo por base o Critério Brasil em vigor até 2007. Basicamente, as principais mudanças no novo Critério Brasil foram: a exclusão de uma variável (aspirador de pó), cujos testes demonstraram que este já não contribui para aumentar o poder de discriminação do modelo; a mudança no sistema de pontuação da grande maioria das variáveis; e a discriminação da classe C em C1 e C2. Optou-se pela manutenção da distribuição entre os segmentos existentes, com valores os mais próximos possíveis, nas proporções já consagradas pelo uso, facilitando seu uso em pesquisas contínuas e painéis. Esses ajustes aumentaram o coeficiente de explicação da renda pelo CCEB de 0,58 para 0,62 (ABEP, 2008b). A Tabela 2.1 traz a distribuição da população das diversas regiões brasileiras nas classes econômicas do Critério Brasil por região metropolitana do país. 58 Tabela 2.1: Distribuição (%) da População Brasileira por Classe Econômica por Região Metropolitana em 2008 Classe A1 A2 B1 B2 C1 C2 D E Total Brasil 0,6 4,4 9,1 18,0 24,5 23,9 17,9 1,6 Grande SP 0,6 5,2 10,6 20,6 26,9 21,8 13,8 0,6 Grande RJ 0,3 3,5 7,7 17,5 26,7 26,3 17,0 0,9 Grande BH 0,6 3,2 7,7 16,1 24,4 23,8 23,0 1,4 Grande CUR 1,1 5,3 13,4 25,3 23,3 19,4 10,7 1,6 Grande POA 0,2 4,9 11,3 22,9 27,1 21,0 11,9 0,8 Grande SALV 0,5 2,5 6,8 9,4 17,5 31,5 28,4 3,4 Grande FORT 1,0 3,5 5,2 10,1 14,6 27,9 30,7 7,0 Grande REC 0,3 3,3 5,8 10,9 19,7 27,6 28,1 4,3 Distrito Federal 1,5 8,8 13,6 20,4 22,0 17,5 15,4 1,0 Fonte: ABEP, 2010. Nota: SP = São Paulo, RJ = Rio de Janeiro, BH = Belo Horizonte, CUR = Curitiba, POA = Porto Alegre, SALV = Salvador, FORT = Fortaleza, REC = Recife Essa distribuição mostra-se variada, o que, segundo a ABEP, reflete sua discriminação efetiva do poder de compra entre as diversas regiões e “é uma comprovação adicional da conveniência do Critério de Classificação Econômica Brasil” (ABEP, 2010, p. 3). A distribuição por região metropolitana do país, contudo, não deixa claro o método de apropriação do Critério Brasil ao indivíduo. O critério busca classificar famílias, e, intuitivamente, o mercado estende a cada membro (da família) o estrato econômico da família a que pertence. Por isso, os dados da Tabela 2.1 provavelmente retratam essa apropriação. O Gráfico 2.1 mostra a evolução da renda familiar no Brasil de forma comparativa entre o levantamento anual do IBGE (censo decenal e PNADs anuais) e o Levantamento Socioeconômico (LSE) do IBOPE. Nota-se uma similaridade grande nos dois levantamentos, à exceção do ano 2000. O gráfico mostra ainda um crescimento da participação das classes B2 e C (em especial, C1) e a diminuição das classes D e E desde 2000, o que aparenta ser um movimento migratório ascendente, corroborado pelo crescimento da renda média no mesmo período. 59 2.200 LSE do IBOPE (CCEB) Censo e PNAD (IBGE) Classe Econômica Critério Brasil 2.000 1.801,21 1.957,04 1.940,00 Renda Familiar Média (R$) 1.800 1.693,65 1.766,00 1.670,00 1.600 1.516,90 1.507,54 1.269,79 1.365,84 1.268,89 1.175,26 1.400 1.200 1.000 1.039,73 1.076,00 800 2000 2001 2002 2003 2004 2005 2006 2007 2008 Gráfico 2.1: Renda Familiar Média e Distribuição (%) da Classe Econômica no Brasil de 2000 a 2008 Fonte: elaboração própria, a partir de IBGE, 2002; IBGE, 2009; ABEP, 2004, 2008a, 2009, 2010. Notas: A renda do IBGE de 2000 é do Censo Demográfico, e as demais são das PNADs anuais. As rendas do CCEB são médias ponderadas das rendas médias fornecidas por classe, a partir de LSE do IBOPE – valores de 2001 a 2004 não publicados. Na Grande São Paulo o movimento é similar para a classe C1 (crescimento) e D (decrescimento); as classes de maior poder aquisitivo (A1, A2, B1 e B2) e a classe E parecem estáveis em participação desde 2005, conforme destacado no Gráfico 2.2 abaixo. 60 100% 1 6 10 0,6 4,5 10,6 0,55 4,54 11,73 1,05 3,69 10,98 0,6 5,2 10,6 80% 16 Classe Econômica Critério Brasil 19,0 20,16 22,41 20,6 60% 22,4 38 24,75 24,35 26,9 40% 21,5 20,21 20,66 21,8 20% 26 2 20,7 0,7 16,97 1,10 15,97 0,90 13,8 0,6 0% 2000 2001 2002 2003 2004 2005 2006 2007 2008 Gráfico 2.2: Distribuição (%) de Classe Econômica na Grande São Paulo de 2000 a 2008 Fonte: elaboração própria, a partir de ABEP, 2004, 2008a, 2009, 2010. Nota: Valores de 2001 a 2004 não publicados. Esse movimento pode ser reflexo de um aumento na posse de bens duráveis pela população em geral, em notadamente muitos dos itens que compõem o Critério Brasil. A Tabela 2.2 a seguir apresenta a posse anual de alguns desses itens, coletada nas Pesquisas Nacionais por Amostras de Domicílios do IBGE. Tabela 2.2: Percentual de Domicílios segundo a Posse de Alguns Bens Duráveis em 1998 e 2008 no Brasil e na RMSP Bens Duráveis TV em cores Geladeira Freezer Rádio Máquina de Lavar 1998 78,2 81,9 19,7 90,5 32,3 Brasil 2008 94,5 92,1 16,0 88,9 41,5 1998 95,4 97,5 22,6 95,8 60,1 RMSP 2008 94,6 98,5 14,8 94,6 71,0 Fonte: elaboração própria, a partir das PNADs (IBGE, 2009). Nota: Em 1998, exclusive os domicílios da área rural de Rondônia, Acre, Amazonas, Roraima, Pará e Amapá. 61 O pequeno decréscimo do número de domicílios com freezers (3,7 pontos percentuais em dez anos) é compensado pelo aumento na participação de geladeiras (10,2 p.p.) no mesmo período. Vale destacar também o grande aumento no número de domicílios com televisão em cores - 16,3 p.p. em dez anos. Esse aumento histórico na posse de bens ocorre mais fortemente nos domicílios com renda mensal de até 5 salários mínimos. Utilizando a posse de TV em cores como exemplo, esse percentual era de 37,6% para os domicílios com renda mensal de até 1 salário mínimo em 1998 e passou para 81,5% em 2008, de 55,0% para 92,1% nos domicílios de renda de 1 a 2 salários mínimos, de 72,4% para 95,7% de 2 a 3 e de 85,5% para 98,0% de 3 a 5 (IBGE, 2009). Em 2001, o percentual de domicílios com televisão ultrapassou o de domicílios com rádio. Para a Região Metropolitana de São Paulo (RMSP), as mesmas tendências históricas e patamares de cobertura para 2008 para os bens destacados na Tabela 2.2 são mantidas, apesar de o percentual de domicílios com TV em cores e geladeira se manter acima de 95% desde 1998. A diferença está no percentual de domicílios com máquina de lavar roupa (60,1% em 1998 e 71,1% em 2008 na RMSP) e, curiosamente, o número de domicílios com geladeira é sempre superior ao de domicílios com TV em cores, o que não ocorre na distribuição brasileira desde 2005 (IBGE, 2009). Da mesma forma, é nas classes de menor poder aquisitivo (principalmente até 5 salários mínimos) que está o maior aumento de participação na posse dos bens duráveis analisados. A popularização de alguns bens duráveis já vem ocorrendo desde o início da década de 1990, e foi intensificada com a flexibilização do crédito ocorrida após o Plano Real (BUSSAB; FERREIRA, 1999). Em vista desses resultados, surge a questão sobre até que ponto um critério de estratificação socioeconômica baseado na posse de bens duráveis realmente reflete as condições de vida das famílias, ou é apenas reflexo de um acesso cada vez mais generalizado a esses bens. 62 2.5 RENDA E CLASSIFICAÇÃO ECONÔMICA O uso indiscriminado e sem ressalvas dos conceitos de classe econômica e estratos econômicos pode levar a caracterizações distorcidas do mercado brasileiro – principalmente para a caracterização da população de baixa renda. C. K. Prahalad (2005) apresenta números do universo de consumidores brasileiros, estratificados por renda familiar em salários mínimos, que mostram o tamanho dos consumidores de baixa renda e seu potencial de consumo. Segundo o autor, os “segmentos econômicos” C, D e E, 84% da população brasileira à época, representam a “base da pirâmide”. A mídia e o mercado, de maneira geral, trabalham com o limite de 10 salários mínimos de renda familiar para conceituar a baixa renda, com limites intermediários variáveis conforme a classificação – de 4 a 10 ou de 6 a 10 para a classe C, por exemplo (DUAILIBI; BORSATO, 2008, diversas notícias de jornal em DATA POPULAR, 2006, entre outros). Muito se fala atualmente sobre o consumidor de baixa renda. Estratégias de inclusão social dessa camada da população devem traçar o novo paradigma para a sobrevivência do capitalismo nos dias atuais. Muitos autores (PRAHALAD; LIEBERTHAL, 1998; HART; CHRISTENSEN, 2002; PRAHALAD; HART, 2002; HART; SHARMA, 2004; PRAHALAD, 2005) destacam a necessidade de “inovação com ruptura” (disruptive innovations), abordagem radical de mercado, e inclusão dos stakeholders marginais (população rural pobre, favelados, comunidades indígenas, líderes comunitários, ambientalistas etc) para o estabelecimento de um ecossistema novo para a geração de riqueza e desenvolvimento social na chamada “base da pirâmide”. Vale salientar que a denominação de classes de A a E para os ditos “segmentos econômicos” não condiz com a segmentação em classes econômicas do Critério Brasil, adotado como padrão de identificação do poder de consumo das famílias brasileiras. A distribuição de famílias brasileiras por classe econômica do Critério Brasil difere bastante da distribuição por faixa de renda familiar brasileira apresentada por Prahalad, conforme Tabela 2.3 a seguir. A adoção da mesma terminologia de classes econômicas (A a E) para a estratificação por faixa de salários mínimos gera a diferença na percepção geral da distribuição entre os ricos e pobres. 63 A diferença de distribuição está levando em conta apenas o critério. Independente do tamanho das classes D e E, sabemos da extensão da “base da pirâmide” no Brasil e o que ela representa em percentual de consumo. Não obstante, não podemos confundir a classificação econômica, baseada em posse de bens, com a estratificação por renda. Prahalad leva a cabo essa estratificação por renda, apesar da denominação errônea de segmentos econômicos, que sugere uma classificação de posse de bens. Tabela 2.3: Distribuição da População Brasileira segundo Critério Brasil e Faixa de Renda Familiar Critério Brasil (2000) Classe Econômica Critério Brasil A (A1 + A2) B (B1 + B2) C D E Distribuição da População (%) 6 23 36 31 4 Números de Prahalad (2002) Renda Familiar (em SMs) Acima de 25 De 10 a 25 De 4 a 10 De 2 a 4 Até 2 “Segmento Econômico” A B C D E Distribuição da População (%) 4,1 12,3 27,7 25,1 30,8 Fonte: elaboração própria, a partir de ABEP, 2004; PRAHALAD, 2005, p. 119. O mercado de maneira geral, incentivado pela mídia, pratica o uso indiscriminado da divisão de estratos econômicos por faixas de salários mínimos e pelo Critério Brasil, como em Duailibi e Borsato (2008), por exemplo. A Pesquisa Nacional por Amostra de Domicílios (PNAD) apresenta a evolução dessa distribuição por estratos econômicos baseada em faixas de renda familiar. Contudo, ela é baseada na distribuição de domicílios (Tabela 2.4), e não de indivíduos, como nas Tabelas 2.1 e 2.3. 64 Tabela 2.4: Número de Domicílios Particulares e Valor da Renda Domiciliar Média segundo as classes de rendimento mensal domiciliar no Brasil de 2008 Brasil Classes de rendimento mensal domiciliar (1) Mais de 20 SMs Mais de 10 a 20 SMs Mais de 5 a 10 SMs Mais de 3 a 5 SMs Mais de 2 a 3 SMs Mais de 1 a 2 SMs Até 1 SM Sem rendimentos (3) Sem declaração TOTAL Total de domicílios Total % (3) 1.557.694 3.760.564 9.083.975 11.580.161 9.815.510 12.384.519 7.032.942 738.963 1.701.789 57.656.117 2,78 6,72 16,23 20,70 17,54 22,13 12,57 1,32 Renda Domiciliar Média (2) R$ 14.028 R$ 5.685 R$ 2.875 R$ 1.617 R$ 1.040 R$ 649 R$ 320 RM São Paulo Total de domicílios Total % (3) 251.704 634.703 1.370.086 1.426.339 919.979 883.441 311.921 88.840 317.843 6.204.856 4,28 10,78 23,27 24,23 15,63 15,01 5,30 1,51 Renda Domiciliar Média (2) R$ 14.321 R$ 5.700 R$ 2.917 R$ 1.623 R$ 1.034 R$ 660 R$ 340 R$ 1.940 R$ 2.578 Fonte: IBGE, 2009. Nota: O salário mínimo (SM) à época da PNAD 2008 era de R$ 415,00 (quatrocentos e quinze reais). (1) Exclusive os rendimentos das pessoas cuja condição no domicílio era pensionista, empregado doméstico ou parente de empregado doméstico. (2) Inclusive os domicílios cujos componentes receberam somente em benefícios. (3) Exclusive os domicílios sem declaração. O Esquema 2.3 apresenta a evolução dessa distribuição por estratos econômicos baseada nas classes de rendimento mensal domiciliar (faixas de salários mínimos) de 1998 a 2008, segundo a Pesquisa Nacional por Amostra de Domicílios (PNAD). Podemos notar claramente um aumento significativo da participação das classes de 1 a 2 e de 2 a 3 salários mínimos (principalmente na RMSP) e uma queda significativa da participação das classes nas faixas de 5 ou mais salários mínimos de 1998 a 2008. A participação da faixa de 3 a 5 aumenta ao longo do período, mais fortemente na RMSP do que em geral no Brasil. Em suma, trata-se do aumento das “classes C e D”, tão apregoado no mercado, e da diminuição da desigualdade de renda no Brasil, representada pelo Índice de Gini. A partir da leitura dos Gráficos 2.1 e 2.2 e do Esquema 2.3, esse aumento de participação está ocorrendo a partir da diminuição do poder aquisitivo das famílias de maior renda domiciliar ou classificação econômica, principalmente na RMSP. Análises baseadas em intervalos absolutos de renda familiar (em reais), considerando a inflação real anual no período, suportadas pelos micro-dados das PNADs, permitem um refinamento desta análise, e podem ser objeto de complemento futuro. 65 Brasil 100% 90% 80% 70% 60% 50% 40% 13,0% 14,8% 19,5% 18,8% 15,1% 15,9% 16,5% 16,1% 16,5% 17,7% 17,6% 17,5% 21,0% 20,7% 7,1% 11,7% 6,7% 11,3% 5,1% 9,2% 4,8% 8,7% 4,0% 8,2% 3,8% 7,9% 3,4% 7,2% 3,0% 6,7% 16,3% 2,8% 6,9% 16,0% 2,8% 6,7% 16,2% Região Metropolitana de São Paulo 15,3% 12,9% 9,8% 9,2% 7,9% 12,7% 6,3% 12,7% 6,4% 12,0% 5,2% 11,2% 5,1% 11,9% 4,3% 10,8% 18,5% 18,0% 16,6% 17,4% 16,8% 16,2% 19,4% 19,4% 15,0% 23,8% 19,6% 19,4% 19,8% 20,8% 19,9% 19,4% 20,3% 20,7% 24,0% 23,8% 23,7% 22,6% 23,3% 25,2% 30,0% 28,6% 25,9% 21,7% 20,4% 17,1% 19,6% 23,2% 22,2% 22,1% 23,3% 24,2% 30% 20% 10% 0% 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 15,8% 18,9% 16,1% 19,6% 20,2% 21,1% 21,9% 22,9% 21,9% 22,1% 18,4% 11,0% 11,2% 10,2% 5,8% 5,3% 7,1% 12,6% 11,1% 6,7% 13,5% 12,7% 14,5% 15,6% 15,2% 15,6% 7,2% 1 1,9% 11,7% 13,7% 13,5% 14,7% 13,0% 14,3% 14,0% 14,6% 13,9% 12,0% 8,5% 14,1% 7,0% 14,1% 7,2% 15,1% 7,1% 15,1% 6,8% 15,0% 6,8% 4,6% 5 ,0% 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 Índice de Gini 0% 0,567 0,560 0,558 0,553 0,545 0,535 0,532 0,528 0,521 0,515 Até 1 SM ou Sem Rendimento (1) De 1 a 2 SMs De 2 a 3 SMs De 3 a 5 SMs De 5 a 10 SMs De 10 a 20 SMs Mais de 20 SMs Esquema 2.3: Distribuição dos Domicílios Particulares do Brasil e da RMSP segundo as classes de rendimento mensal domiciliar e Índice de Gini da Distribuição de Rendimento Mensal dos Domicílios Particulares Permanentes com Rendimento do Brasil de 1998 a 2008 Fonte: elaboração própria, a partir de IBGE, 2009. Nota: Até 2003, exclusive os domicílios da área rural de Rondônia, Acre, Amazonas, Roraima, Pará e Amapá. (1) Inclusive os domicílios cujos componentes receberam somente em benefícios. 66 2.6 CONSUMO DE ENERGIA ELÉTRICA A energia, nas suas mais diversas formas, é indispensável à sobrevivência da espécie humana. E mais do que sobreviver, o homem procurou sempre evoluir, descobrindo fontes e formas alternativas de adaptação ao ambiente e de atendimento às suas necessidades. Dessa forma, a exaustão, escassez ou inconveniência de um dado recurso tende a ser compensada pelo surgimento de outros. Em termos de suprimento energético, a eletricidade se tornou uma das formas mais versáteis e convenientes de energia, passando a ser recurso indispensável e estratégico para o desenvolvimento socioeconômico. No limiar do terceiro milênio, os avanços tecnológicos em geração, transmissão e uso final de energia elétrica permitem que ela chegue aos mais recônditos lugares do planeta, transformando regiões desocupadas ou pouco desenvolvidas em pólos industriais e grandes centros urbanos. Os impactos dessas transformações socioeconômicas são facilmente observados em nosso cotidiano. Mesmo que o consumo de eletricidade não seja necessariamente o melhor indicador do grau de desenvolvimento de uma região ou país, as atividades socioeconômicas tornam-se cada vez mais dependentes desse recurso. De 1973 a 2006, o consumo mundial de eletricidade aumentou 73% ao passar de 4.672 milhões (9,4% do total) para 8.084 milhões de tep (toneladas equivalentes de petróleo) (16,7%), segundo o Key World Energy Statistics, da International Energy Agency (IEA, 2008). Os 30 países desenvolvidos que compõem a Organização para Cooperação e Desenvolvimento Econômico (OCDE)8 são, historicamente, os maiores consumidores mundiais de energia – em consumo total e per capita. Sua participação no total mundial, porém, tem recuado ao longo do tempo. Os países em desenvolvimento apresentam participação relativa pouco expressiva, porém registraram, em alguns casos, aumento acumulado do consumo de eletricidade superior a 100% nos últimos 30 anos (ANEEL, 2008). Essa disparidade é explicada pela diferença da estrutura econômica e social entre os países da OCDE (e os demais desenvolvidos) e os restantes, em desenvolvimento. Os 8 Os países da OCDE são: Alemanha, Austrália, Áustria, Bélgica, Canadá, Coréia, Dinamarca, Estados Unidos, Espanha, Finlândia, França, Grécia, Hungria, Islândia, Irlanda, Itália, Japão, Luxemburgo, México, Nova Zelândia, Noruega, Países Baixos, Polônia, Portugal, Reino Unido, República Eslovaca, República Tcheca, Suécia, Suíça e Turquia (IEA, 2008). 67 primeiros são caracterizados por uma economia relativamente estável, com pouquíssimo espaço para aumentos acentuados na produção industrial ou no consumo de bens que pressionam a absorção de energia, como automóveis, eletrodomésticos e eletroeletrônicos. Em sociedades mais estruturadas e ricas, a maior parte da população conseguiu adquiri-los ao longo da segunda metade do século XX. Utilizam-se, na maior parte das vezes, de equipamentos energeticamente eficientes, que requerem ao longo do tempo, menor volume de energia para operação (ANEEL, 2008). Já os países em desenvolvimento realizam atividades que consomem muita energia, como a siderurgia e a produção de alumínio. Também estão sujeitos a instabilidades econômicas e a ciclos de expansão de infra-estrutura (normalmente envolvendo investimento externo) – vale destacar, desde a década de 1990, China (com aumento de 5,3% do consumo de energia apenas em 2007 e de surpreendentes 103% em dez anos), Rússia, Brasil e Chile (BP GLOBAL, 2008). Demanda reprimida de eletrodomésticos e eletroeletrônicos e incidência significativa de economia informal perturbam um pouco a relação entre PIB e energia nesses países (ANEEL, 2008). Com isso, a participação mundial da OCDE no consumo de energia elétrica recuou de 60,6% em 1973 para 47,3% em 2006 (IEA, 2008) – essa diferença foi consumida pelos países em desenvolvimento, principalmente. Os Estados Unidos da América são os principais consumidores mundiais de eletricidade (24,6%), seguidos da China (14,2%), do Japão (6,3%), da Rússia (5,0%), da Alemanha (3,5%), do Canadá (3,5%), da Índia (3,2%) e da França (2,9%) (THE WORLD FACTBOOK, 2008). Os países da União Européia consomem, em conjunto, 16,7%. O comportamento do consumo de energia elétrica guarda, de fato, estreita relação com a evolução do PIB. Essa relação é tanto mais forte quanto maior o peso do segmento industrial, tanto na economia, como no consumo de eletricidade (EPE, 2008b). Essa interrelação foi o principal motivo do acentuado crescimento no consumo mundial de energia verificado nos últimos anos. O Gráfico 2.3 abaixo mostra a associação entre as variações anuais do PIB mundial e do consumo de energia elétrica. 68 PIB (%) Consumo de Energia Gráfico 2.3: Variação Anual Percentual do PIB Mundial e do Consumo de Energia Mundial de 1998 a 2007 Fonte: Dados do IPEA e da BP Global de 2007, adaptado de ANEEL, 2008. O Brasil representa 2,4% do consumo mundial de energia (ANEEL, 2008), e é o nono colocado nesse ranking de países. Além disso, o Brasil é o quinto país mais populoso do mundo, com 2,83% da população mundial e possui o décimo PIB mundial (2,73% do total), segundo ranking baseado em purchasing power parity (PPP). De 2000 a 2005, registrou crescimento do consumo de energia de 13,93% e do PIB de 14,72%. O consumo de energia elétrica per capita no Brasil tem crescido aproximadamente 2,0% ao ano nos últimos dez anos, mas ainda encontra-se 34,6% abaixo da média mundial. O PIB per capita brasileiro está 42,7% abaixo do PIB per capita médio mundial. A Tabela 2.5 apresenta dados de consumo de energia e PIB, total e per capita, de alguns países do mundo (THE WORLD..., 2008). No Brasil, de 1879, ano que Dom Pedro II concedeu a Thomas Edison o privilégio de introduzir no país a lâmpada elétrica (MEMÓRIA DA ELETRICIDADE, 1988), até os dias de hoje, o papel da eletricidade mudou profundamente. Outrora alvo da curiosidade do Imperador, a eletricidade tornou-se imprescindível ao desenvolvimento do país e à sociedade moderna (MADUREIRA, 1996). O mercado de distribuição de energia elétrica no Brasil é atendido por 63 concessionárias, estatais ou privadas, de serviços públicos que abrangem todo o País (ANEEL, 2008). As concessionárias estatais estão sob controle dos governos federal, estaduais e municipais. Em várias concessionárias privadas verifica-se a presença, em seus grupos de controle, de diversas empresas nacionais, norte-americanas, espanholas, portuguesas e francesas. São atendidos mais de 64 milhões de unidades consumidoras, das quais 85,4% são consumidores residenciais, em 100% dos municípios brasileiros (ANEEL, 2008). 69 Tabela 2.5: Indicadores Demográficos, Econômicos e de Energia Elétrica de Alguns Países do Mundo Consumo E. E. anual per capita (kWh) 12.924,22 2.179,45 5.827,59 6.968,57 7.701,96 6.662,91 16.279,41 466,03 7.328,28 2.116,72 7.515,58 5.773,62 5.486,63 10.720,76 1.858,31 24.011,23 2.497,93 9.436,72 3.240,30 País Estados Unidos China União Européia Rússia Japão Alemanha Canadá Índia França Brasil Coréia do Sul Reino Unido África do Sul Austrália México Noruega Argentina Nova Zelândia Mundo Área (milhões km2) 9,162 9,326 4,423 16,996 0,375 0,349 9,094 2,973 0,546 8,457 0,098 0,242 1,220 7,618 1,923 0,307 2,737 0,268 130,341 População (milhões habitantes) 298,99 1.311,80 486,64 142,37 127,56 82,41 32,56 1.109,81 61,04 188,69 48,42 60,36 47,39 20,52 104,22 4,64 39,12 4,13 6.517,03 PIB (milhões US$) 13.201.820,0 2.668.071,0 11.050.000,0 986.939,6 4.340.133,0 2.906.681,0 1.251.463,0 906.268,0 2.230.721,0 1.067.962,0 888.024,2 2.345.015,0 254.991,6 768.177,7 839.181,9 310.959,7 214.057,7 103.873,2 48.385.988,6 Consumo E. E. anual (TWh) 3.892.000,0 2.859.000,0 2.858.000,0 985.200,0 982.500,0 549.100,0 530.000,0 517.200,0 447.300,0 402.200,0 368.600,0 348.500,0 241.400,0 220.000,0 202.000,0 111.500,0 97.720,0 38.930,0 17.154.402,9 PIB per capita (US$) 44.155,00 2.033,90 24.217,28 6.932,33 34.022,94 35.270,36 38.439,78 816,6 36.546,72 5.659,74 18.340,76 38.849,97 5.380,60 37.433,85 8.051,92 66.964,36 5.471,76 25.179,09 9.875,07 Fonte: elaboração própria, a partir de THE WORLD..., 2008. Nota: Dados de 2006, ordenados decrescentemente segundo o Consumo de Energia Elétrica anual. A estrutura do consumo de energia elétrica entre os segmentos de consumidores no território brasileiro mostra uma forte concentração do seu uso na indústria, com 46,7% do consumo total, seguido do uso residencial, com 22,1%, conforme Gráfico 2.4. Poucas variações ocorreram na estrutura desde 1970, tendo o setor industrial iniciado processo de ligeira queda de participação a partir da segunda metade da década de 80, mas mostrando recuperação nos últimos anos. A queda verificada nos anos de 2001 e 2002 é decorrente das restrições impostas pelo racionamento de energia elétrica, que atingiu todas as classes de consumidores (EPE, 2008a). 70 Gráfico 2.4: Evolução do Consumo de Energia Elétrica no Brasil por Classe de Consumo de 1970 a 2007 Fonte: EPE, 2008a, p. 27. Dessa forma, a eletricidade tornou-se fator indispensável ao bem-estar social e ao crescimento econômico do Brasil. Contudo, apesar de ser o serviço de maior cobertura (IBGE, 2009), é ainda deficitário em algumas regiões do país, seja pela falta de acesso ou pela precariedade do atendimento (ANEEL, 2002). O Programa “Luz para Todos” do Governo Federal, reativado em 2003, busca fazer a ligação de luz elétrica dos domicílios brasileiros ainda desprovidos desse serviço básico. De 2004 a 2008, estima-se que 7,8 milhões de pessoas foram beneficiadas com a realização de 1.577.700 novas ligações de energia elétrica (dados do Ministério de Minas e Energia em ANEEL, 2008, p. 48). Nacionalmente, o serviço de fornecimento de energia elétrica é o de maior cobertura no Brasil. Abrange 98,6% dos domicílios brasileiros (IBGE, 2009), índice que aumenta para 99,82% na área urbana e para 99,97% na RMSP (IBGE, 2009) e para 99,99% no município de São Paulo (AES ELETROPAULO, 2009). Tem mais capilaridade e cobertura que serviços de outras empresas de utilidades, como telefonia fixa e móvel, água encanada e gás (FRANCISCO, 2002). Os Gráficos 2.5 e 2.6 a seguir trazem a taxa de cobertura de atendimento nos últimos anos dos principais serviços de utilidade pública no Brasil e na RMSP, respectivamente. 71 Gráfico 2.5: Taxa de Atendimento (%) de Serviços de Utilidade Pública no Brasil Fonte: PNADs do IBGE, 2009. Notas: Esgoto corresponde a Rede Coletora e Fossa Séptica. Telefone corresponde ao percentual de domicílios com telefone fixo convencional ou telefone celular. Até 2003, exclusive os domicílios da área rural de Rondônia, Acre, Amazonas, Roraima, Pará e Amapá. Gráfico 2.6: Taxa de Atendimento (%) de Serviços de Utilidade Pública na Região Metropolitana de São Paulo Fonte: PNADs do IBGE, 2009. Notas: Esgoto corresponde a Rede Coletora e Fossa Séptica. Telefone corresponde ao percentual de domicílios com telefone fixo convencional ou telefone celular. 72 Considerando apenas as áreas urbanas do território nacional, a taxa de atendimento é historicamente alta, tendo aumentado de 97,48% em 1992 para 99,82% em 2008 (IBGE, 2009). A relação entre o PIB e o consumo de energia elétrica no Brasil é historicamente alta. No período de 1976 a 2007, apresentado no Gráfico 2.7, a correlação entre as duas séries temporais foi de 0,884, e de 0,877 para o decênio de 1998 a 2007. O Gráfico 2.8 apresenta a elasticidade-renda do consumo (relação entre o crescimento de consumo de energia e o crescimento da economia), ressaltando as variações significativas nos períodos destacados a cada 5 anos. A correlação entre as taxas de crescimento anual do PIB real e do consumo de energia elétrica é de 0,501 no período de 1977 a 2008, e de 0,488 para o decênio de 1999 a 2008. 400.000 350.000 300.000 250.000 TWh 200.000 Consumo Anual de Energia Elétrica 1.400.000 1.200.000 1.000.000 800.000 600.000 US$ (milhões) 150.000 100.000 50.000 0 1976 1978 1980 1982 1984 1986 1988 1990 1992 1994 1996 1998 2000 2002 2004 2006 PIB Real (câmbio médio) 400.000 200.000 0 Gráfico 2.7: Evolução Anual do Consumo de Energia Elétrica e do PIB Real do Brasil de 1976 a 2007 Fonte: dados do Banco Central do Brasil e da Eletrobrás (IPEADATA, 2009). 73 Variação % média anual PIB Real 12,0 11,9 Variação % média anual Consumo Energia Elétrica Elasticidade-Renda do Consumo de Energia Elétrica 1970-75: 1,19 1975-80: 1,65 1980-85: 5,54 1985-90: 2,56 1990-95: 1,29 1995-00: 2,09 2000-05: 0,68 4,6 4,0 3,1 1,8 1,3 2,2 2,8 1,9 4,6 10,1 7,2 7,2 70-75 75-80 80-85 85-90 90-95 95-00 00-05 Gráfico 2.8: Variação Percentual Média Anual em Períodos de 5 anos do Consumo de Energia Elétrica, do PIB Real e da Elasticidade-Renda do Consumo de Energia Elétrica do Brasil de 1970 a 2005 Fonte: adaptado de EPE, 2006, p. 4. De maneira geral, a estrutura de consumo de energia no Brasil tem sofrido transformações radicais ao longo das últimas três décadas. A energia proveniente da biomassa, principalmente a lenha, experimentou um declínio considerável, na proporção inversa do crescimento da participação da energia elétrica e derivados de petróleo, que passaram a desempenhar um papel fundamental ao longo do período (ACHÃO, 2003). Embora do ponto de vista energético seja um setor de importância média, do ponto de vista social o consumo de energia pelo setor residencial é da maior relevância, uma vez que é condição indispensável para se desfrutar das comodidades e benefícios mais essenciais da vida moderna. Na década de 70, houve crescimento intenso da economia brasileira (8,6% ao ano em média), o que se refletiu no consumo de eletricidade que, no mesmo período, expandiu 12% ao ano, indicando elasticidade-renda de 1,40 durante a década. Foi a época da reestruturação e da expansão do parque industrial nacional, dentro dos Planos Nacionais de Desenvolvimento, verificadas no contexto do processo de substituição de importações. 74 Já nos anos 80, a economia apresentou comportamento instável, tendo expandido, em média, 1,6% ao ano. Contudo, o consumo de energia elétrica seguiu crescendo a taxas significativas, consolidando no período 5,9% ao ano, impulsionado pela maturação ou implantação de grandes projetos industriais. Com isso, a elasticidade-renda do consumo no período foi de 3,69. Na década de 90, a elasticidade-renda caiu para 1,59, resultado de um crescimento médio de 2,7% da economia e de 4,3% do consumo de eletricidade, reflexo de mudanças estruturais no perfil da expansão de mercado, com a modernização da indústria nacional e o uso mais eficiente da eletricidade. Além disso, as indústrias eletro-intensivas não apresentavam mais expansões significativas. Três marcos importantes interferiram no desempenho da economia ao longo dos anos 90. O primeiro deles, o Plano Collor, congelou a base monetária do País, trazendo como reflexo imediato um período recessivo da economia. Entre 1990 e 1994 a economia cresceu 3,1% ao ano, enquanto o consumo de energia elétrica aumentou 3,5% ao ano (elasticidaderenda de 1,13). O segundo marco diz respeito ao Plano Real, implantado no início de 1994. Na medida em que se promoveu o controle do processo inflacionário, criaram-se condições favoráveis ao crescimento econômico. Assim é que, entre 1994 e 1997, a economia cresceu, em média, 3,4% ao ano e o consumo de energia elétrica 5,7% (elasticidade-renda de 1,68). O terceiro marco refere-se à crise financeira internacional, deflagrada a partir da Crise da Ásia, em 1997, e da moratória da Rússia, declarada em 1998. Este novo contexto levou o governo brasileiro a adotar medidas de ajuste econômico, entre as quais a elevação da taxa básica de juros e a desvalorização do Real, cujos efeitos se refletiram imediata e intensamente na atividade econômica do País e, conseqüentemente, no mercado brasileiro de energia elétrica (SCHAEFFER et al., 2003). Em 1998 e 1999, a economia praticamente não expandiu, registrando taxas de 0,2% e 0,8%, respectivamente. No período de 2000 a 2005, enfim, a economia brasileira seguiu apresentando crescimento baixo, fechando o período com taxa média anual de 2,8%. 75 Com o crescimento de consumo de energia elétrica de 1,9% ao ano nesse mesmo período, a elasticidade-renda foi de 0,68, a menor de todos os períodos aqui analisados. O racionamento de energia de 2000 e 2001 afetou significativamente a trajetória de evolução do mercado de energia elétrica. Além deste, entre Janeiro e Abril de 1986 ocorreu um primeiro racionamento, apenas nos estados da Região Sul, e em 1987 no Nordeste e parte de Goiás e Pará (SCHAEFFER et al., 2003). A privatização que ocorreu no setor elétrico brasileiro provocou profundas modificações no cenário de atuação das distribuidoras de energia elétrica. Dentre estas modificações, surge o papel do órgão regulador como agente promotor da competição e da mudança de postura das empresas em torno da orientação para o mercado. Esse novo contexto abre possibilidade para a utilização de estratégias de relacionamento (de maneira ampla) e de fidelização de clientes (em alguns submercados), situação até então inédita em um mercado tradicionalmente monopolista. A importância do relacionamento com o órgão regulador e com a sociedade busca estabelecer uma relação favorável à rentabilidade e continuidade do direito da concessão (ANDRADE, 2004). Atualmente as concessionárias de distribuição de energia elétrica passam por um importante momento para o setor. Se por um lado as regras do novo modelo impõem às concessionárias uma atuação direcionada à gestão estratégica, visando à melhoria da eficiência através do aumento da competitividade, repasse de eficiência aos clientes através de redução de tarifas e qualidade do atendimento, por outro lado, os clientes também estão cada vez mais exigentes e buscam nas empresas essa mesma qualidade nos serviços prestados, preços reduzidos e, acima disso, empresas comprometidas com valores sociais que reflitam suas expectativas. Quanto aos usos finais, a energia no setor residencial é destinada, basicamente, para as seguintes finalidades: cocção de alimentos, aquecimento de água, iluminação, condicionamento ambiental, conservação de alimentos (geladeira e freezer), serviços gerais (uso de máquinas para lavar roupas, secar roupas e lavar louças, microondas, ferro elétrico, aspirador de pó, microcomputador etc) e lazer (televisão, videocassete, home theater, aparelho de som etc) (ACHÃO, 2003; PEREIRA, 2004, entre outros). 76 Os eletrodomésticos de maior consumo domiciliar de energia elétrica são, em ordem decrescente de consumo médio mensal, o ar-condicionado e o aquecedor (de qualquer potência), a churrasqueira elétrica e a torneira elétrica, itens não tão freqüentes nos domicílios brasileiros. Considerando itens mais freqüentes, o chuveiro elétrico, a geladeira de 2 portas e o freezer são altos consumidores. O ferro de passar roupa também se destaca, dado o alto consumo quando utilizado com freqüência. A Tabela 2.6 apresenta os consumos típicos dos principais eletrodomésticos, com destaque para os que compõem o levantamento para o Critério Brasil. Tabela 2.6: Consumo Típico dos Principais Eletrodomésticos (continua) Dias Potência Média Estimados Média Utilização de Uso Diária (Watts) por Mês Aparelho de Som Aquecedor de Ambiente 7.500 BTU 10.000 BTU 12.000 BTU 15.000 BTU 18.000 BTU 3 em 1 Pequeno 80 20 1550 1000 1350 1450 2000 2100 100 10 120 600 3800 3500 200 90 180 500 50 65 170 110 1000 60 1500 800 1200 20 30 15 30 30 30 30 30 30 30 8 30 5 30 30 30 30 2 30 20 30 30 12 30 30 20 30 3h 4h 8h 8h 8h 8h 8h 8h 20 min 30 min 30 min 1h 4h 40 min* 8h 8h 3h 2h 10 min 10 min 4h 4h 1h 5 min 1h 1h 20 min Consumo Médio Mensal (kWh) 4,8 2,4 186 120 162 174 240 252 10 0,15 0,48 18 76 70 48 21,6 16,2 2 0,2 0,22 20,4 13,2 12 0,15 45 16 12 Ar-Condicionado Aspirador de Pó Barbeador, Depilador, Massageador Batedeira Cafeteira Elétrica Churrasqueira Elétrica Chuveiro Elétrico Grande Circulador de Ar Médio ou Pequeno Computador, Impressora, Estabilizador Enceradeira Escova de Dentes Elétrica Espremedor de Frutas De Fogão Exaustor De Parede Ferro Elétrico Fogão Comum À Resistência Grande Forno À Resistência Pequeno Forno Microondas 77 Tabela 2.6: Consumo Típico dos Principais Eletrodomésticos (conclusão) Dias Potência Média Estimados Média Utilização de Uso (Watts) Diária por Mês Furadeira Freezer Geladeira 350 1 30 30 30 30 30 30 15 10 30 12 10 30 12 30 20 30 30 30 30 30 12 8 30 30 30 30 30 30 30 30 30 30 30 8 15 1h 5h 5h 5h 5h 5h 5h 15 min 3h 40 min 1h 3h 40 min 1h 3h 1h 10 h 10 h 24 h 10 min 15 h 1h 1h 24 h 30 min 10 min 5h 5h 5h 5h 5h 5h 8h 8h 2h 4h Consumo Médio Mensal (kWh) 0,35 50 30 55 1,65 2,2 3,5 6 9 15 1,1 3,9 30 6 3,9 30 6 10,8 8,4 13,5 3 3,6 7 4,5 42 8 14,4 52,5 4 9 10,5 13,5 16,5 6 6 28,8 15,6 0,16 0,9 Lâmpada Vertical ou Horizontal 1 porta 2 portas Fluorescente Compacta de 11 W Fluorescente Compacta de 15 W Fluorescente Compacta de 23 W Incandescente de 40 W Incandescente de 60 W Incandescente de 100 W 130 90 130 11 15 23 40 60 100 300 100 1500 500 100 1500 500 120 420 45 10 5 1400 600 3500 1000 20 3500 800 60 70 90 110 40 40 120 65 10 15 Liquidificador Máquina de Costura Máquina de Lavar Louças Máquina de Lavar Roupas Máquina de Costura Máquina de Lavar Louças Máquina de Lavar Roupas Microcomputador Multiprocessador Grande Rádio Elétrico Pequeno Rádio Relógio Grande Secador de Cabelos Pequeno Grande Secadora de Roupa Pequeno Secretária Eletrônica Torneira Elétrica Torradeira Cores, 14 polegadas Cores, 18 polegadas Cores, 20 polegadas Televisão Cores, 29 polegadas Preto e Branco Portátil De Teto Ventilador Pequeno Videocassete Videogame Fonte: PROCEL/ELETROBRÁS, 2005. Nota: Considerando uma família típica brasileira. Os itens destacados em vermelho são coletados pelo Critério Brasil. 78 Itens de tecnologia representam, normalmente, baixo consumo de energia elétrica. A PNAD passou a pesquisar a existência de microcomputador nas residências em 2001, e constatou que 12,6% dos domicílios tinham este equipamento. Em 2008, esse percentual foi de 31,2% (IBGE 2009). Verificou-se, também, que em 8,6% dos domicílios havia microcomputador ligado à Internet em 2001, e 23,8% em 2008. Na RMSP, em 2008 46,7% dos domicílios possuíam computador e 38,6% tinham acesso à Internet. Esses altos índices de posse de bens duráveis e a altíssima taxa de atendimento do serviço de energia elétrica no Brasil e principalmente na RMSP mostram que a eletricidade exerce papel fundamental no dia-a-dia dos brasileiros. 2.7 O CONSUMIDOR DE ENERGIA ELÉTRICA DE BAIXA RENDA O Cenário atual das concessionárias de distribuição de energia elétrica para o atendimento de seus consumidores de baixa renda apresenta um paradigma que pode ser descrito sob três perspectivas complementares e não disjuntas: cliente, mercado e sociedade. Do ponto de vista do Cliente, a empregabilidade da população de baixa renda está voltada para o subemprego e trabalhos temporários, o que está intimamente ligado à sua condição de renda volátil, seu baixo poder aquisitivo e seu constante endividamento. Para a população em condições mais precárias, a situação de urbanização das áreas, a inadequação das instalações das residências e o estado muitas vezes precário de eletrodomésticos podem acarretar níveis elevados de consumo de energia elétrica (CAVARETTI, 2005). Esse contexto diminui as condições de acesso ao serviço público de energia elétrica e incentiva a prática de ligações clandestinas, fraudes e ligações abusivas. Do ponto de vista do Mercado a ser atendido e da missão das concessionárias de distribuição de energia, de bem servir a seus clientes, vários fatores dificultam o bom estabelecimento de um serviço sustentável. O elevado nível de impostos e encargos na tarifa de energia elétrica, o elevado nível de perdas (técnicas e comerciais) e os custos crescentes de produção são os principais motivos. Em 2008, a AES Eletropaulo registrou um nível de 11,6% de perdas de energia elétrica, dividido em 6,5% de perdas técnicas (compulsórias do processo de distribuição de energia elétrica; tipicamente transformação de energia elétrica em 79 calor no fio de transmissão) e 5,1% de perdas comerciais (furto de energia, através da prática de fraudes em geral e ligações clandestinas) (AES..., 2009). De 2003 a 2007 esse nível de perdas diminuiu 1,8 pontos percentuais (MAIA, 2008). Do ponto de vista da Sociedade, a melhoria da qualidade de vida e o acesso regular aos serviços públicos permitirão que ocorra a inclusão social dessa população. Corroborando Prahalad (2005) e Hart (2006), a geração de renda na base da pirâmide trará o desenvolvimento econômico das comunidades, o desenvolvimento das pessoas, o suporte público sem assistencialismo e a condição de empregabilidade. O provimento de infraestrutura elétrica, viária, urbanística e de serviços complementares, edificações planejadas e a própria condição de lazer trarão a urbanização dessas áreas. O combate às ligações clandestinas passou, historicamente, por ações derivadas de diversas políticas no setor elétrico. A mentalidade que imperava, e ainda impera em algumas distribuidoras estatais, utilizava a simples distribuição de medidores de energia elétrica de forma ampla e gratuita em núcleos habitacionais e favelas de alta incidência de irregularidades como instrumento de cunho político e eleitoreiro. O período pós-privatização do setor elétrico mudou esse paradigma e trouxe a preocupação com o resultado financeiro, com a sustentabilidade de políticas dessa natureza e com aspectos ligados ao uso racional de energia e à cidadania. No Brasil, a perda de energia elétrica entre o que é produzido (requerido) e o que é efetivamente consumido correspondia a 17,06% em 2006 (MAIA, 2008). Desse montante, cerca de 72 terawatts-hora (TWh), 42,093 TWh são perdas do sistema de distribuição de energia elétrica de Média e Baixa Tensão, dos quais 21,478 TWh (5,09% da energia requerida) são perdas não-técnicas – mais comumente, fraudes e ligações clandestinas de energia. A adequação das instalações elétricas dos domicílios com baixa renda e em regiões de pobreza faz parte de uma política que as distribuidoras devem seguir para realmente permitir que haja condições orçamentárias para a prática do pagamento sistemático das contas de energia elétrica. Nesses termos, a adoção de métodos de conservação de energia e uso adequado dos equipamentos elétricos obtém a redução no consumo, com a direta repercussão no valor final da conta. 80 Anualmente, a AES Eletropaulo deixa de faturar R$ 500 milhões (sem a incidência de impostos) por causa das ligações clandestinas de energia, estimadas em 477 mil na área de concessão da AES Eletropaulo. As ligações informais e fraudes consomem 2,338 GWh (gigawatts-hora) ano. Essa quantidade de energia representa o consumo residencial anual dos municípios de Santo André, São Bernardo, São Caetano e Diadema, que juntos têm 2 milhões de habitantes (AES..., 2009). Segundo a ANEEL, a perda não-técnica anual do setor brasileiro de distribuição de energia elétrica está em torno de R$ 5 bilhões (CIARELLI, 2007). O Programa de Eficiência Energética da AES Eletropaulo destina anualmente 0,5% da sua receita operacional líquida a projetos que promovem economia de energia elétrica em diversos ramos de atividade. São as políticas de incentivo ao uso eficiente de energia, principalmente para a população de baixa renda. Entre 1998 e 2008, a AES Eletropaulo investiu R$ 263 milhões em projetos direcionados a clientes comerciais, industriais, comunidades de baixa renda, poderes públicos e serviços públicos, gerando uma economia de aproximadamente 690 mil MWh/ano - energia suficiente para abastecer mais de 250 mil residências (AES..., 2010b). Em 2005, atendendo um pleito da distribuidora, a ANEEL autorizou a destinação de parte desses recursos também para a aquisição e doação do “padrão de entrada” (equipamento para a ligação de energia nos domicílios, composto de caixa de medição, bengala e disjuntor) para as regularizações de ligações clandestinas (AES..., 2005b). Além disso, com o objetivo auxiliar na redução do valor da conta de energia elétrica dos clientes com baixo padrão aquisitivo e com consumo elevado (acima de 150 kWh) que tiveram as ligações legalizadas, em 2006 a empresa iniciou projeto de substituição de lâmpadas comuns por lâmpadas fluorescentes e substituição de geladeiras e, em 2008, instalação de aquecedores solares em favelas (AES..., 2009). 81 2.8 PREÇO DA ENERGIA ELÉTRICA As faturas mensais emitidas pelas distribuidoras registram a quantidade de energia elétrica consumida no mês anterior e medida em kWh (quilowatt-hora). O valor final a ser pago pelo cliente corresponde à soma de três componentes: o resultado da multiplicação do volume consumido pela tarifa (valor do kWh, expresso em reais); os encargos do setor elétrico e os tributos determinados por lei. Os encargos do setor elétrico, embutidos na tarifa – e, portanto, transparentes ao consumidor – têm aplicação específica. Os tributos são destinados ao governo. Já a parcela que fica com a distribuidora é utilizada para os investimentos em expansão e manutenção da rede, remuneração dos acionistas e cobertura de seus custos. Até a década de 90, existia uma tarifa única de energia elétrica no Brasil, que garantia a remuneração das concessionárias, independentemente de seu nível de eficiência. Em 1993, com a edição da Lei nº 8.631, as tarifas passaram a ser fixadas por empresa, conforme características específicas de cada área de concessão – por exemplo, número de consumidores, quilômetros de rede de transmissão e distribuição, tamanho do mercado (quantidade de unidades de consumo atendidas por uma determinada infra-estrutura), custo da energia comprada e tributos estaduais, entre outros. O setor elétrico brasileiro criou em 2002 um mecanismo compulsório de benefício para os consumidores mais carentes – a Tarifa Baixa Renda, ou Tarifa Social9. Em linhas gerais, os consumidores residenciais de energia elétrica que estiverem cadastrados em programas sociais do Governo Federal, tais como Bolsa Escola ou Bolsa Família e consumirem em média de 80 a 220 kWh (quilowatt-hora) por mês e os consumidores que tiverem um valor de consumo de energia elétrica médio mensal de até 79 kWh são automaticamente classificados e faturados como consumidores de baixa renda, e ganham o benefício de uma tarifa bem mais econômica (ANEEL, 2008). Essa medida beneficia atualmente 14 milhões de famílias em todo o Brasil. Para 2010, o governo sinaliza mudanças 9 A Tarifa Social de Baixa Renda é a tarifa de energia elétrica aplicada a consumidores de baixa renda, conforme Lei nº. 10.438, de 26 de Abril de 2002 do Governo Federal e Regulamentação nº. 485/02 da ANEEL. A uniformização dos critérios para a prática dessa tarifa ainda não é totalmente aplicada, e será definida pelo Comitê de Revitalização do Setor Elétrico. Atualmente, cada distribuidora adota regras diferenciadas para a classificação desse segmento de consumidor (ABRADEE, 2005). 82 significativas nos critérios e na população contemplada com esse benefício (AGÊNCIA BRASIL, 2010). O subsídio da tarifa baixa renda está no custo diferenciado por quilowatt-hora. Os consumidores de tarifa residencial normal pagam R$ 0,29349 por quilowatt-hora, independente do total de energia consumida. Já os domicílios de baixa renda pagam tarifas menores, diferenciadas conforme a faixa de consumo, com desconto regressivo conforme aumenta o consumo total10. Um consumidor em condições típicas de baixa renda no município de São Paulo, que possua apenas uma geladeira simples (1 porta), três lâmpadas incandescentes de 40 W e uma televisão de 14 polegadas consome 57 kWh (conforme Tabela 2.6). Se ele não estiver enquadrado na Tarifa Baixa Renda, pagará nos dias de hoje R$ 16,72 pela energia fornecida, valor que, quando acrescido de impostos, totaliza R$ 17,64. O mesmo consumo para o tarifado baixa renda é de R$ 8,05 (R$ 7,64 + impostos). O percentual de domicílios brasileiros em situação de pobreza, definidos como abaixo da linha de pobreza, segundo IETS (2005), é de 32,1% em 2004. Esse número cai para 19,7% no Estado de São Paulo. O percentual de domicílios brasileiros tarifados como Baixa Renda em Dezembro de 2004 é de 34,4%, o que corresponde a 17 milhões de domicílios. Esse número cai para 25% no Estado de São Paulo em 2004 (BAIÃO, 2005). A diferença entre os percentuais de linha de pobreza e de clientes Tarifa Baixa Renda sugere que um público maior do que o dos efetivamente pobres está sendo beneficiado. A definição de Tarifa Baixa Renda baseada, em parte, no consumo médio domiciliar de energia elétrica é bastante simples e pode beneficiar clientes que não estejam em situação de pobreza. Do total de unidades consumidoras da AES Eletropaulo, 9,7% (um pouco mais de 500 mil ligações) são clientes enquadrados na Tarifa Baixa Renda. Soma-se a esses os clientes legalizados não cadastrados como baixa renda, mas que vivem em áreas de favelas (2,4%, cerca de 125 mil), e temos uma primeira aproximação do universo de clientes em condições 10 A Tarifa Baixa Renda da AES Eletropaulo é de R$ 0,09898 por quilowatt-hora até 30 kWh de consumo (desconto de 66,27%), de R$ 0,17342 para cada quilowatt-hora consumido que ultrapassar 31 até atingir 80 (desconto de 40,91%), de R$ 0,17607 para a faixa de 81 a 100 kWh (desconto de 40,01%) e de R$ 0,26412 para a faixa de 101 a 200 kWh (desconto de 10,01%). Para a parcela que ultrapassar 201 kWh aplica-se a tarifa normal de R$ 0,29349. Valores em vigor desde 30 de Junho de 2009, conforme Resolução Homologatória nº. 846 da ANEEL (AES..., 2010a). 83 de pobreza que deve ser atingido por políticas de relacionamento diferenciadas – 625 mil unidades consumidoras. Esse número também é resultado de compensações entre residências de famílias de alto poder aquisitivo e com baixo consumo (enquadrados erroneamente como Baixa Renda) e famílias em iguais condições de pobreza e que, pelo uso de aparelhos elétricos antigos e ineficientes, ou pelo grande número de moradores, ou pelo desconhecimento dos programas sociais do governo, não foram beneficiadas com a tarifa Baixa Renda. O grande desafio das empresas de distribuição de energia elétrica está em oferecer energia elétrica a essas famílias e, ao mesmo tempo, garantir que elas terão condições efetivas de honrar o compromisso do pagamento do serviço. O mercado brasileiro apresenta características únicas com relação a esse consumo. Em comparação com outros países, o dispêndio de energia elétrica domiciliar no orçamento familiar está na média internacional, conforme mostra o Gráfico 2.9. Luxemburgo Holanda Grécia Suécia Reino Unido Itália Irlanda Espanha Alemanha EUA Brasil Belgica Finlândia Portugal Dinamarca França Japão Austria 0,0% 1,0% 2,0% 3,0% 4,0% 5,0% Gráfico 2.9: Comparação Internacional dos Dispêndios em Energia Elétrica (%) no Orçamento das Famílias Fonte: BAIÃO, 2005. A Pesquisa de Satisfação dos Consumidores de Energia Elétrica aplicada na América Latina pela Comisión de Integración Energética Regional (CIER) em Julho de 2009 destaca as diferenças entre a renda familiar, o valor médio da fatura, a participação da fatura no orçamento familiar e a média de moradores por domicílio. 84 Tabela 2.7: Renda, Valor Médio da Fatura de Energia, Impacto da Conta de Luz no Orçamento Familiar de Alguns Países da América Latina Participação da Energia Elétrica no Orçamento Familiar 5,90% 6,90% 6,74% 11,30% 8,10% 9,50% 9,70% 5,50% 11,70% 7,40% 10,60% 10,30% Moradores por Domicílio (média aparada) 3,50 5,05 3,58 4,02 3,92 3,81 3,86 4,28 3,99 4,10 3,60 2,98 País Argentina Bolívia Brasil Chile Colômbia Costa Rica El Salvador Equador México Paraguai República Dominicana Uruguai Renda Familiar (média aparada) (US$) 458,91 287,22 622,95 493,03 312,93 389,23 288,71 377,21 375,60 335,23 325,99 668,25 Valor Médio da Fatura de Energia Elétrica (US$) 20,04 16,40 32,04 41,04 19,33 26,62 21,71 14,51 29,59 18,08 21,75 48,13 Fonte: VOX POPULI, 2009; INNOVARE, 2009. Nota: Os dados do Brasil são da Pesquisa ABRADEE de Março de 2009 (conversão: US$ 1 = R$ 2,30). Os demais são de Julho de 2009. Média aparada refere-se à média dos valores desconsiderando os 5% mais altos e os 5% mais baixos. O impacto do gasto com energia elétrica no orçamento das famílias brasileiras aumenta à medida que diminui a renda familiar, conforme apresenta o Gráfico 2.10. Cerca de 80% do consumo residencial está em famílias de até seis salários mínimos (IBGE, 2004b). Vale destacar que o impacto é de 3,8% da renda mensal familiar para famílias com renda de 1 a 2 salários mínimos e de 2,9% da renda mensal familiar para famílias com renda de 2 a 4 salários mínimos. 85 Gráfico 2.10: Dispêndio de Energia Elétrica no Orçamento das Famílias e Gasto Mensal: Classificação de Renda per capita Fonte: Pesquisa de Orçamentos Familiares (POF) 2003-2004 (IBGE, 2004b). Nota: Gasto mensal (R$) é per capita. Para a classe mais pobre, a posse de equipamentos elétricos caiu e o consumo médio de energia elétrica também no período de 1996 a 2003 (datas da realização das duas últimas POFs pelo IBGE). Os custos da tarifa de energia elétrica, relativamente elevados para essa população, mesmo em situações de tarifação social, levaram a uma forte inibição do consumo de energia para essas famílias, se traduzindo, possivelmente, numa piora ainda maior do seu bem-estar (AGUIAR et al., 2007). Esse efeito leva em conta a ocorrência do Racionamento de Energia entre 2000 e 2001, que afetou todas as classes em geral, mas principalmente as de maior poder aquisitivo. O que agrava a percepção e o impacto do custo da energia elétrica no bolso do consumidor é a alta taxa de impostos aplicada sobre o serviço no Brasil. A incidência de tributos na tarifa de energia elétrica no Brasil é significativamente maior em comparação a vários outros países. Os tributos e encargos recolhidos pelas distribuidoras respondem por 37,7% da conta do consumidor brasileiro, enquanto que esse percentual é de 5% no Reino Unido e em Portugal, de 7% nos EUA, de 15% no México e de 22% na Espanha, segundo o Energy Prices and Taxes (BAIÃO, 2005). Dada a importância e a influência, variada, do consumo de energia elétrica no orçamento domiciliar das famílias brasileiras (em especial, na cidade de São Paulo), trataremos o valor da conta de energia em reais (R$) como variável substituta (proxy) do consumo de energia elétrica em kWh, quando este último não estiver disponível. 86 2.9 ASSOCIAÇÃO ENTRE RENDA E CONSUMO DE ENERGIA ELÉTRICA Assim como o PIB, a Renda Domiciliar (ou Familiar) guarda intensa relação com o Consumo de Energia Elétrica Residencial no Brasil. Analisando comparativamente dados apurados de consumo de energia residencial per capita com dados de renda domiciliar per capita (já corrigidos a valores de 2008), a associação (correlação linear) é de 53,3% para o período de 1998 a 2008 (à exceção de 2000, não contabilizado). O consumo de energia, conforme já discutido, sofreu significativos efeitos do período de Racionamento de Energia Elétrica, ocorrido de meados de 2000 a início de 2002. O consumo total residencial já atingiu patamares anteriores ao racionamento, devido ao crescimento do país e da população e à perda gradativa de hábitos de consumo eficiente adquiridos durante o racionamento, mas o consumo residencial per capita ainda não, conforme Gráfico 2.11. Para a RMSP, a associação é um pouco mais fraca – 22,8% no período de 2001 a 2008 (fortemente perturbada pelos efeitos do racionamento); mais forte (66,3%) no período de 2004 a 2008, conforme Gráfico 2.12. 87 50 48 46 44 42 kWh 42,0 42,5 572,14 540,21 547,70 547,99 515,97 528,08 Renda Domiciliar Mensal per capita 559,83 611,91 628,73 661,11 700,00 600,00 500,00 41,7 40 40,1 400,00 38,4 37,5 36,1 36,2 35,1 36,1 Consumo Mensal Residencial de Energia Elétrica per capita 38 36 34 32 300,00 200,00 RACIONAMENTO 30 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 100,00 Gráfico 2.11: Evolução Anual da Renda Domiciliar Mensal e do Consumo de Energia Elétrica Residencial per capita no Brasil de 1998 e 2008 Fonte: elaboração própria, a partir de dados da Eletrobrás e IPEA (IPEADATA, 2009). Nota: Dado de 2000 não disponível (Número de Moradores por Domicílio da PNAD). 270 260 250 240 230 kWh 220 210 200 190 191,1 202,5 2.382,10 208,5 195,5 198,2 2.299,02 185,0 203,4 Consumo Mensal Residencial de Energia Elétrica 215,9 248,4 3200,00 3000,00 2.790,12 2.769,82 Renda Domiciliar Mensal 2.589,39 2.698,70 2.650,88 2.631,15 2800,00 2600,00 2400,00 2200,00 180 170 2000 2001 RACIONAMENTO 2000,00 2002 2003 2004 2005 2006 2007 2008 Gráfico 2.12: Evolução Anual da Renda Domiciliar Mensal e do Consumo de Energia Elétrica Residencial na RMSP de 2000 e 2008 Fonte: elaboração própria, a partir de dados do IPEA (IPEADATA, 2009) e Secretaria de Energia do Estado de São Paulo (SÃO PAULO, 2009). Nota: Dado de 2000 não disponível (Número de Moradores por Domicílio da PNAD). R$ R$ 88 Historicamente, estudos que utilizam o consumo de energia elétrica se apóiam em uma hipótese inversa à desta tese e costumam buscar um objetivo diverso – a Renda determina o Consumo de Energia Elétrica. Esses estudos têm caráter previsor e realizam projeções da demanda residencial de energia elétrica a partir da Renda, o que permite um melhor planejamento de mercado para as concessionárias de distribuição de energia. A grande maioria dos estudos mostra que a concentração da utilização da energia elétrica está intimamente relacionada com a concentração de renda no país. Muitos autores (ARAÚJO, 1979; BÔA NOVA, 1985; JANNUZZI, 1989; LINS; ANDRADE, 1989; JANNUZZI; SCHIPPER, 1991; MADUREIRA, 1996; POMPERMAYER; CHARNET, 1996; POMPERMAYER, 1996; LEITE, 1997; ELETROBRÁS, 2001; AES..., 2004, 2005a; ANEEL, 2002, 2008; FUKS; SALAZAR, 2008, entre outros) buscam caracterizar o Consumo de Energia Elétrica, especificamente em sua seção residencial, a partir de uma explicação da variação da Renda Familiar ou Domiciliar. Trabalhos publicados por representantes do setor de distribuição de energia elétrica brasileiro visam fundamentalmente a melhorar a eficácia de ferramentas de previsão de mercado, para incremento de melhorias nos processos de compra de energia e de gestão físico-financeira das empresas. Geralmente tratam dados agregados por unidades municipais, como o caso de Pompermayer e Charnet (1996), estaduais ou da federação como um todo, como o caso de Madureira (1996), e comparam seus resultados com indicadores de mercado das mesmas unidades administrativas, como PIB, renda média e inflação. Trata-se de uma prática adotada e replicada no setor. Os estudos existentes sobre consumo residencial de energia elétrica normalmente se voltam para a estimação empírica de modelos econométricos, como é o caso, por exemplo, de Andrade e Lobão (1997), Schmidt e Lima (2004) e Mattos e Lima (2005). Os dois primeiros estimam modelos tradicionais de elasticidade-preço e elasticidade-renda para aprimorarem sua eficácia em previsões de consumo e faturamento para o Brasil, e o último o faz para o Estado de Minas Gerais. Pompermayer e Charnet (1996) procuraram identificar e analisar quantitativamente a contribuição de alguns indicadores socioeconômicos e demográficos como variáveis preditoras do nível de consumo de energia elétrica residencial. A análise foi realizada para unidades municipais do Estado de São Paulo. Através de um modelo de regressão linear múltipla, os indicadores socioeconômicos e demográficos que se mostraram 89 estatisticamente significativos foram: valor adicionado per capita, índice de emprego, grau de urbanização, densidade demográfica, tipo de domicílio, número de pessoas por domicílio e renda do chefe de família. Já Cohen, Lenzen e Schaeffer (2005) analisaram a variedade de comportamentos da elasticidade-renda do consumo de energia residencial e dos requerimentos de energia residencial em diversas regiões do Brasil e mostraram que a intensidade de uso da energia cresce conforme a renda domiciliar, aumentando a variabilidade de comportamentos dessa relação na mesma proporção. No âmbito internacional, os modelos baseados em estudos empíricos locais também abundam. Lloyd, Kumar e Metham (1982) analisaram o perfil de uso doméstico da energia em Nadi-Lautoka, nas ilhas Fiji, utilizando dados de uma pesquisa em campo com 826 domicílios e dados da distribuidora local de energia Fiji Electricity Authority. Foster, Tre e Wodon (2000) analisaram dados de domicílios da Guatemala em uma pesquisa ampla sobre uso de diversos energéticos. Santamouris et al. (2007) fizeram estudo com 1.110 domicílios na área da grande Atenas, na Grécia. Ambos obtiveram resultados que destacam a forte associação entre Renda e Consumo de Energia Elétrica no âmbito residencial, conforme gráficos da Figura 2.1. Stoecklein et al. (1997) obtiveram uma correlação linear de 78% entre renda total e energia residencial em estudo em domicílios de Wanganui e Christchurch, na Nova Zelândia. (1) Gastos com Energia p er capita (US$) (2) 500 Consumo Eletricidade (kWh/domicílio/semana) (3) 50 40 30 20 10 0 400 300 200 100 0 1 2 3 4 5 6 7 8 9 10 Renda per capita (decil) 0 5.000 10.000 15.000 Renda (dólares) Figura 2.1: Relação entre Consumo Residencial de Energia Elétrica e Grupos de Renda em estudos na Grécia (1), Nova Zelândia (2) e Fiji (3) Fonte: (1) SANTAMOURIS et al., 2007, p. 28; (2) adaptado de STOECKLEIN et al., 1997; (3) adaptado de LLOYD; KUMAR; METHAM, 1982, p.121. Essa relação é específica para cada país em função de suas características técnicas e econômicas, conforme muitos outros estudos realizados (NEWMAN; DAY, 1975; DUBIN; 90 MCFADDEN, 1984; ANG; GOH; LIU, 1992; MANSOURI; NEWBOROUGH; PROBERT, 1996; WOUTER; LAM, 1998; NOORMAN, 1999; HEALY; CLINCH, 2002; TSO; YAU, 2003; MORENO; MARTÍNEZ, 2007, entre outros). Vale destacar os achados de McNeil e Letschert (2005, 2008) na tentativa de criar um modelo genérico para posse de equipamentos elétricos (refrigeradores e ar condicionado) como explicativa para a demanda de eletricidade nos domicílios. No estudo de 2005, a associação entre Renda Familiar e posse de refrigerador mostrou-se muito alta (coeficiente de explicação R2 acima de 0,90) em estudo comparativo entre Brasil, México, Nicarágua, Panamá, Peru e África do Sul, e pode ser analisada como uma tentativa de reproduzir um critério socioeconômico com propósitos similares ao do Critério Brasil. Alguns estudos brasileiros mediram essa associação em nível domiciliar. Hansen (2000) analisou dez tipologias residenciais no município de Porto Alegre e obteve uma associação (correlação de Spearman) de 0,710 entre as classes de tipologia e o consumo médio apurado. Santos (2006) avaliou 540 apartamentos em Campinas, São Paulo, e obteve explicação (R2) de 39,1% em modelo que incluía renda, número de moradores, área construída do domicílio, número de cômodos e variáveis demográficas. Rocha Jr. (2007) replicou metodologia de Francisco (2006) para os domicílios da área urbana de Vitória, Vila Velha, Cariacica e Serra, no Espírito Santo, utilizando microdados do Censo Demográfico 2000 do IBGE e dados de consumo residencial da distribuidora de energia Espírito Santo Centrais Elétricas S.A. (ESCELSA), agrupados em 53 áreas de ponderação, e comparou a associação entre Renda Domiciliar e Critério Brasil Adaptado (CBA) aos Questionário da Amostra do Censo (conforme detalhamento no Capítulo 4) e Consumo de Energia Elétrica Residencial. Obteve R2 de 94,03% na explicação da Renda pelo Consumo de Energia. A similaridade entre os três mapas da Figura 2.2 mostra a alta associação entre as três variáveis analisadas. 91 Figura 2.2: Renda Média Domiciliar (esquerda), Classe Econômica Brasil (centro) e Consumo de Energia Residencial (direita) de 2000 por Área de Ponderação de Vitória, Vila Velha, Cariacica e Serra no Espírito Santo Fonte: ROCHA Jr., 2007. Por outro lado, alguns estudos buscam analisar modelos preditivos de consumo de energia elétrica baseados em PIB e outros indicadores econômicos globais. Sözen e Arcaklioglu (2007) desenvolveram modelos baseados em redes neurais artificiais de consumo para a Turquia utilizando indicadores elétricos (geração, capacidade, exportação e importação) e PIB e obtiveram coeficientes de explicação (R2) de mais de 0,99 . Aydinalp, Ugursal e Fung (2004) também trabalharam com redes neurais na previsão do consumo residencial de aquecedores no Canadá. Ozturk e Acaravci (2009), no entanto, mostram que para Albânia, Bulgária e Romênia não há modelos estáveis de longo prazo que mostrem uma relação causal entre PIB e consumo de energia, enquanto que o equilíbrio na relação foi atingido para a Hungria, a partir de uma série temporal de 1980 a 2006 e modelos recentes de séries temporais. Já Egelioglu, Mohamad e Guven (2001) previram o consumo de eletricidade de área turística no Chipre baseando-se no total de consumidores, número de turistas e o preço da eletricidade, utilizando dados anuais de 1988 a 1997. Obtiveram R2 de 0,93 . 92 Basicamente, muitos estudos mostram que o comportamento da intensidade de uso de energia ao longo do tempo parece convergir para um padrão comum entre os diversos países, com os países em desenvolvimento aumentando sua intensidade de uso e os países desenvolvidos diminuindo (NILSSON, 1993; MIELNIK; GOLDEMBERG, 2000), conforme já destacado no item 2.6. Nguyen-Van (2009) realizou interessante estudo de painel entre países evidenciando que o consumo de energia elétrica aumenta com a renda para a maioria dos países e então se estabiliza em um patamar próprio de países de altíssima renda. Estudo comparativo entre o consumo de energia elétrica residencial de Austrália, Brasil, Dinamarca, Índia e Japão (LENZEN et al., 2006) já destacava esse achado, contrapondo-se a um comportamento típico de curva de Kuznets11 ambiental (KUZNETS, 1955; GROSSMAN; KRUEGER, 1991; YANDLE; VIJAYARAGHAVAN; BHATTARAI, 2002) discutido na literatura para diversos construtos ambientais, insumos e indicadores econômicos. Alguns autores buscam avaliar e comparar metodologias quantitativas de mensuração da explicação do Consumo de Energia Elétrica. Tso e Yau (2007) analisaram três metodologias: análise de regressão multivariada tradicional, árvores de decisão e redes neurais, e Ghanbari et al. (2009) analisaram as duas primeiras metodologias. Ambos destacaram as alternativas à regressão tradicional como amplamente viáveis e de melhor desempenho preditivo. Métodos baseados em regressão ordinal logística e variações (FUKS; SALAZAR, 2008) também se mostraram bastante eficientes na análise do consumo residencial no Rio de Janeiro de 2004. A literatura especializada, tanto nacional quanto estrangeira, é escassa no que se refere a estudos sobre distribuição e desigualdade espacial do consumo de energia elétrica residencial. Os raros casos em que se analisa, de forma decomposta espacialmente, o comportamento do consumo de energia elétrica residencial no Brasil não são estudos acadêmicos, mas relatórios técnicos descritivos e conjunturais, como em EPE (2006, 2008b). Mais além, o uso de técnicas de estatística espacial para avaliar a influência geográfica na relação são incipientes. Alguns poucos autores (NOONAN; JOHNSON, 2005; 11 Uma curva de Kuznets é uma representação gráfica da relação entre desigualdade econômica e renda ao longo do tempo para os países, conforme descoberta de Simon Kuznets (1955). Quando o país está em desenvolvimento, a desigualdade econômica tende a crescer até um certo ponto, quando essa desigualdade diminui. Por isso essa curva tem a forma de “U” invertido. Em 1991, os economistas reportaram um mesmo comportamento na relação sistemática entre renda e qualidade do ambiente (indicadores como poluição da água ou do ar), denominando-a de EKC (Environmental Kuznets Curve) (GROSSMAN; KRUEGER, 1991). 93 JOHANNESSON et al., 2006) utilizam técnicas de geoestatística (mais precisamente, modelos de superfície baseados em krigeagem, conforme detalhamento no Capítulo 3) para prever demanda de energia elétrica. Por outro lado, a literatura é abundante em estudos sobre a distribuição e desigualdade de renda, abordando aspectos espaciais. Desde estudos utilizando medidas de desigualdade de renda como o índice de Gini ou o índice de Theil, até estudos utilizando estatística espacial (ASSUNÇÃO, 2001; MESSNER; ANSELIN, 2004; CÂMARA; CARVALHO, 2004; ZAMBALDI; GOLDSZMIDT, 2006; VOSS; WHITE; HAMMER, 2006, entre outros). Neste contexto se insere este trabalho. Busca-se tirar proveito da sinergia entre a disponibilidade de dados em granularidade não-usual (consumo de energia e renda em áreas censitárias), de dados de pesquisa de campo georreferenciáveis em zonas intra-municipais e de técnicas de estatística espacial. 2.10 INDICADORES DE QUALIDADE DE VIDA Definir em que consiste a riqueza de um país, ou estado, ou município, tornou-se, nos dias de hoje, uma tarefa que exige o exame de vários aspectos econômicos, ambientais e sociais (GADREY; JANY-CATRICE, 2006). Sob essa perspectiva, índices elevados do PIB não são garantia de desenvolvimento sustentável, pois não levam em consideração desigualdades sociais e agressões ao meio-ambiente que comprometem o desenvolvimento sustentável, seja pela não formação de mão-de-obra qualificada, seja pelo esgotamento de recursos naturais empregados na produção de bens. Segundo Carvalho Jr. (2004), um indicador social ou econômico é uma medida normalmente quantitativa dotada de significado social e/ou econômico substantivo, usado para substituir, quantificar ou operacionalizar um conceito social/econômico abstrato, a ser utilizado em pesquisas acadêmicas ou para formulação de políticas. É um recurso metodológico, empiricamente referido, que informa algo sobre um aspecto da realidade socioeconômica ou sobre mudanças que estão se processando na mesma. 94 Por intermédio dos indicadores sociais é possível conhecermos aspectos da vida de uma nação, ou de uma região, e retratar seu estado social e nível de desenvolvimento, bem como projetar ações de transformação do cenário vigente (IBGE, 2004a). De acordo com Carvalho Jr. (2004), para que um indicador social seja uma ferramenta útil precisa possuir determinadas características, tais como: relevância social, validade, confiabilidade, cobertura, facilidade na obtenção e periodicidade na atualização. Estas características conferem a estes indicadores a possibilidade de retratarem um determinado cenário, e de visualizar tendências no tempo. A construção de indicadores socioeconômicos tem como principal finalidade permitir uma análise da dinâmica das coletividades em seus vários aspectos, proporcionando, dessa forma, subsídios para a avaliação e estabelecimento de objetivos e prioridades. Para isto, há a necessidade de um modelo teórico, consensual, que fundamente a construção de um indicador e seus componentes básicos, e, ao mesmo tempo, permita a compreensão de seu significado e suas limitações. Em suma, a definição de um indicador é determinada pelo modelo teórico que procura descrever o fenômeno estudado. A principal medida do desenvolvimento material verificada nas últimas décadas e adotada de forma generalizada a partir dos anos 1950, sob o estímulo de agências multilaterais como o Banco Mundial, tem sido dada pelo chamado Produto Interno Bruto per capita (PIB per capita). Segundo Debraj (1998, p. 43), tal medida não é perfeita e pode ser criticada de diferentes maneiras: em primeiro lugar, esse indicador não considera a questão da efetiva distribuição de renda interna a cada área analisada; em segundo, tem o grande defeito de ser unidimensional, isto é, não capta outros aspectos importantes do desenvolvimento, tais como as questões da educação, da saúde e do meio ambiente. Nesse contexto, Barros, Carvalho e Franco (2006, p. 5) postulam que “a Pobreza é indubitavelmente um fenômeno multidimensional. Entretanto, a necessidade de ordenar países, estados, municípios, bairros, momentos no tempo, grupos sociais e mesmo famílias leva a que uma representação escalar seja indispensável”. Uma alternativa, historicamente dominante, tem sido tratar a pobreza apenas como insuficiência de renda. Não obstante, recentemente grande ênfase tem sido dada à construção de medidas escalares de pobreza que levam em consideração suas diversas dimensões. 95 No campo de estudos sobre pobreza, as discussões teóricas mais recentes tendem a reconhecer a complexidade e a multidimensionalidade desse fenômeno que envolve vários fatores que se articulam e se influenciam mutuamente (CODES, 2008). A questão da multidimensionalidade da pobreza é preponderante no debate atual, constituindo-se no foco de discussão de diversos autores (SALAMA; DESTREMAU, 2001; WHITE; KILLICK, 2001; ROCHA, 2003; SCHWARTZMAN, 2004, entre outros). Em contraposição ao processo de concentração das riquezas e ao aumento generalizado dos níveis de pobreza internacionais, surge no começo da década de 1990 o conceito de Desenvolvimento Humano, idealizado por Amartya Sen, prêmio Nobel de Economia em 1998, que, em linhas gerais, estabelece que o progresso humano e a evolução das condições de vida das pessoas não podem ser medidos apenas por sua dimensão econômica. O paradigma do Desenvolvimento Humano tem como principais indicadores, em contraposição ao PIB per capita, os Índices de Pobreza Humana (IPH-1 e IPH-2), propostos por Anand e Sen (1997), e o Índice de Desenvolvimento Humano - IDH, criado pelo Programa das Nações Unidas para o Desenvolvimento (PNUD) pelo economista paquistanês Mahbub ul Haq (1995), com o objetivo de mensurar e comparar o desenvolvimento humano das nações. O IDH combina três componentes básicos, descritos no Quadro 2.2 abaixo. Renda (ou Riqueza) medida pelo poder de compra da população, baseado no PIB per capita ajustado ao custo de vida local para torná-lo comparável entre países e regiões, através da metodologia conhecida como Paridade de Poder de Compra (PPC) medida pela esperança de vida ao nascer, ou seja, o número de anos que viveria um recém-nascido, mantendo-se inalterados os padrões de mortalidade prevalecentes na época de seu nascimento, reflete também, indiretamente, as condições de saúde, mortalidade infantil, nutrição, higiene, acesso a serviços públicos básicos, mortalidade decorrente da violência, entre outros fatores medida por uma combinação da taxa de alfabetização de adultos e a taxa combinada de matrícula nos níveis de ensino fundamental, médio e superior Longevidade Educação Quadro 2.2: Dimensões do Índice de Desenvolvimento Humano (IDH) do PNUD Fonte: adaptado de PEDROSO, 2003. 96 Segundo Pedroso (2003, p. 21), “o objetivo principal do IDH é a mensuração de dimensões socioeconômicas combinadas, com o intuito de capturar dados até então ignorados pela medida de desenvolvimento econômico centrada exclusivamente no PIB per capita”. Basicamente, essa mensuração envolve a transformação das três dimensões anteriormente citadas em índices de Longevidade, Educação e Renda, que variam entre 0 (pior) e 1 (melhor), e a combinação destes sob a forma de um indicador sintético. Quanto mais próximo de 1 o valor calculado para o indicador, maior será o nível de desenvolvimento humano, ou qualidade de vida, do país ou região. Outros indicadores surgiram com o mesmo conceito de serem “socioeconômicos”, ou que buscam levar em conta ao mesmo tempo critérios econômicos, critérios humanos e sociais e, como ocorre com muitos deles, critérios ambientais (VIVERET, 2006; GADREY; JANY-CATRICE, 2006). Vale citar o Índice de Bem Estar Econômico de Osberg e Sharpe (2003), o Índice de Bem-Estar Econômico Sustentável (IBES) (DALY; COBB JR, 1989), o Indicador de Progresso Real (IPR) (VENETOULIS; COBB, 2004) e o Indicador de Poupança Verdadeira (Genuine Savings) do Banco Mundial (BOLT; MATETE; CLEMENS, 2002), entre outros. Independentemente da adoção de critérios uni ou multidimensionais ligados à mensuração da Pobreza (ou Riqueza) e de aspectos sociais e humanos, muitos autores vêem na unidade geográfica e na continuidade de mensuração aspectos fundamentais para a manutenção e adoção de um indicador (FUNDAÇÃO JOÃO PINHEIRO; IPEA, 1998; BARROS; HENRIQUES; MENDONÇA, 2001; TORRES; FERREIRA; DINI, 2003; PEDROSO, 2003; BARROS, CARVALHO, FRANCO; 2006; SILVEIRA et al., 2007, entre outros). Nesse sentido, a Fundação SEADE, centro de produção e disseminação de pesquisas e estatísticas socioeconômicas e demográficas, entidade mantida pelo Estado de São Paulo, criou o Índice Paulista de Responsabilidade Social (IPRS), a ser detalhado no item 2.11, e o Índice Paulista de Vulnerabilidade Social (IPVS). O IPVS (SEADE, 2004) se propõe a obter uma medida da vulnerabilidade social, entendida como sendo “a capacidade limitada de indivíduos ou grupos de responderem a riscos ou contingências e a conseqüente predisposição a decrescerem seu bem-estar” 97 (FILGUEIRA; PERI, 2004, p. 21), definição coerente com outros autores, como Kaztman (1999). A partir de uma análise fatorial realizada sobre os dados do Censo Demográfico 2000 do IBGE para o Estado de São Paulo, agregados em setores censitários, dois fatores predominantes foram revelados, denominados Socioeconômico (51% da explicação) e Ciclo de Vida Familiar (34%). Uma análise de agrupamento (cluster analysis) classificou-os em seis diferentes grupos de vulnerabilidade, de códigos 1 a 6, conforme Quadro 2.3 a seguir. Fator 1 - SócioEconômico Baixo (até -0,5) Médio (-0,5 a 1,0) Alto (1,0 a 1,5) Fator 2 - Ciclo de Vida Familiar Famílias Jovens (até -0,5) Famílias Adultas (-0,5 a 0,3) Famílias Idosas (maior que 0,5) (6) Muito Alta Vulnerabilidade (4) Vulnerabilidade Média (3) Vulnerabilidade Baixa (5) Vulnerabilidade Alta (2) Vulnerabilidade Muito Baixa Muito Alto (maior que 1,5) (1) Sem Vulnerabilidade Quadro 2.3: Grupos de Formação do Índice Paulista de Vulnerabilidade Social Fonte: adaptado de SEADE, 2004, p. 90. Trata-se de um dos poucos indicadores disponibilizados em nível de setores censitários para o Brasil. Estudos anteriores analisaram a associação entre a vulnerabilidade social e o consumo de energia elétrica para o município de São Paulo, utilizando as mesmas técnicas de regressão espacial apresentadas nesta tese, e chegaram a resultados muito consistentes – 61,8% de explicação do IPVS a partir do Consumo de Energia Elétrica Residencial (FRANCISCO et al., 2009). 2.11 INDICADORES BASEADOS EM CONSUMO DE ENERGIA ELÉTRICA Como a atividade humana e a maioria das questões ligadas ao tema sustentabilidade estão muito ligadas ao uso da energia, o sistema energético, de maneira ampla, é um potencial framework para prover os principais indicadores para desenvolvimento sustentável (KEMMLER; SPRENGA, 2007; KROPP, 2009). Modelos de estimação dos 98 indicadores energéticos (como os discutidos neste Capítulo 2) garantem a consistência e coerência da estimação desses indicadores e assim permitem que se gerencie a sustentabilidade. Tópicos ambientais são fundamentais, enquanto em países em desenvolvimento assuntos ligados à pobreza e à eqüidade são igualmente importantes. Em 2005, as agências internacionais International Atomic Energy Agency (IAEA), United Nations Department of Economic and Social Affairs, International Energy Agency (IEA), EuroStat e European Environment Agency desenvolveram guia e metodologia do que chamaram de Energy Indicators for Sustainable Development (EISD) (Indicadores de Energia para Desenvolvimento Sustentável). Trata-se de um conjunto de 30 indicadores, classificados em 3 dimensões: social, econômica e ambiental (IAEA et al., 2005). Eles são também divididos em 7 temas: Eqüidade (3 indicadores), Saúde (1 indicador), Padrões de Uso e Produção (14), Segurança (2), Atmosfera (3), Água (1) e Terra (6); e 19 subtemas. O Consumo de Energia Elétrica Residencial está ligado principalmente ao tema Eqüidade e seus três indicadores (de dimensão social) e a um indicador de dimensão econômica do tema Padrões de Uso e Produção. O Quadro 2.4 a seguir descreve esses indicadores e suas informações componentes. Tema Subtema Acessibilidade Indicadores de Energia Parcela de domicílios (ou população) sem energia elétrica ou fortemente SOC1 dependente de energia complementar (não comercial) SOC2 Parcela da Renda Domiciliar comprometida com combustíveis e eletricidade Componentes - Domicílios (ou população) sem energia elétrica ou fortemente dependente de energia complementar (não comercial) - Total de Domicílios ou população - Renda Domiciliar comprometida com combustíveis e eletricidade - Renda Domiciliar (total e dos 20% mais pobres) - Uso da Energia por Domicílio para cada faixa de Renda (quintis) - Renda Domiciliar para cada faixa de Renda (quintis) - Uso da Energia nos domicílios por uso final principal - Número de domicílios, área construída, moradores por domicílio, posse de eletrodomésticos Equidade Acessibilidade Econômica (Affordability) Disparidades SOC3 Uso Residencial da Energia para cada faixa de renda Padrões de Uso e Produção Uso Final ECO9 Intensidade da Energia Residencial Quadro 2.4: Indicadores associados ao Consumo de Energia Elétrica Residencial do EISD Fonte: adaptado de IAEA et al., 2005. 99 As dimensões social e econômica do conjunto de indicadores EISD e o uso de informações de Renda e de Consumo Residencial como componentes corroboram os achados de diversos estudos mencionados ao longo desta tese e fortalecem a investigação no âmbito da metodologia a ser detalhada no Capítulo 4. O Índice Paulista de Responsabilidade Social (IPRS) é um ótimo exemplo de uso do Consumo de Energia Elétrica como componente de uma medida de Renda, ou Riqueza. Trata-se de um indicador municipal e passou a ser desenvolvido pela Fundação SEADE em 2000, após a avaliação de outros indicadores (em especial, o IDH-M, concebido segundo Pedroso, 2003). Compõe-se de quatro conjuntos de indicadores: três setoriais que mensuram as condições atuais do município em termos de Renda, Educação e Longevidade – permitindo, nesse caso, o ordenamento dos 645 municípios do Estado de São Paulo segundo cada uma dessas dimensões; e uma tipologia constituída de cinco grupos, denominada grupos do IPRS, resumindo a situação municipal segundo os três eixos considerados. Em cada uma das três dimensões do IPRS, foram criados indicadores sintéticos que permitem hierarquizar os municípios paulistas conforme seus níveis de riqueza, longevidade e escolaridade. Esses indicadores são expressos em escala de 0 a 100 e constituem uma combinação linear das variáveis selecionadas para compor cada dimensão. A estrutura de ponderação foi obtida de acordo com um modelo de análise fatorial, em que se estuda a estrutura de interdependência entre diversas variáveis (SEADE, 2009). O Quadro 2.5 descreve esses indicadores em sua versão 2008 e destaca um em especial – o consumo residencial de energia elétrica. 100 Dimensão Componentes (Variáveis) Consumo de energia elétrica na agricultura, no comércio e nos serviços Valor adicionado fiscal per capita Consumo residencial de energia elétrica Renda Remuneração média dos empregados com Familiar carteira assinada e do setor público Mortalidade perinatal Mortalidade infantil Mortalidade de adultos de 15 a 39 anos Mortalidade de adultos de 60 anos ou mais % de jovens de 15 a 17 anos que concluíram o ensino fundamental % de jovens de 15 a 17 anos com pelo menos quatro anos de escolaridade % de jovens de 18 a 19 anos que concluíram o ensino médio % de crianças de 5 e 6 anos que freqüentam a pré-escola Riqueza do Município Riqueza Contribuição para o Indicador Sintético 23,71% 13,90% 43,51% 19,42% 30,00% 30,00% 20,00% 20,00% 36,08% 8,38% 35,37% 20,17% Longevidade Escolaridade Quadro 2.5: Variáveis Selecionadas por Contribuição para o Indicador Sintético de Composição do IPRS Fonte: adaptado de SEADE, 2009, p. 8. O IPRS utiliza o Consumo de Energia Elétrica Residencial médio do município como principal variável para captar a Renda Familiar. As estruturas de pesos dos indicadores sintéticos foram obtidas por meio de análise fatorial. Para a dimensão Riqueza obteve-se uma explicação da variância total de 61% (SEADE, 2009). Trabalhos já consagrados (FRIEDLANDER; 1973; HOQUE; RAHMAN; HUQ, 1980; ALAM et al., 1991, entre outros) mostraram que o Consumo de Energia é um indicador de Renda e de qualidade de vida. Esses estudos avaliaram dados agregados por país de forma longitudinal, em estudo individual, ou de forma comparativa entre países. Alam et al. (1991) utilizou dados de Consumo de Energia per capita de 112 países e analisou-os como explicação do physical quality of life indicator (PQLI) (indicador de qualidade de vida física) de M. Martin (1980), composto de três dimensões: expectativa média de vida (EV), mortalidade infantil (MI) e taxa de alfabetização (TA) – um precursor do IDH. Os gráficos na Figura 2.3 a seguir mostram a forte relação observada entre os construtos – R2 = 0,79 na explicação do PQLI pelo logaritmo neperiano do Consumo de Energia Elétrica. 101 R2 = 0,83 R2 = 0,67 R2 = 0,77 R2 = 0,79 Figura 2.3: Gráficos de Dispersão das dimensões do Physical Quality of Life Indicator (PQLI) e do Logaritmo Neperiano do Consumo de Energia Elétrica de 112 países do mundo – Expectativa de Vida (1), Taxa de Alfabetização (2), Mortalidade Infantil (3) e PQLI (4) Fonte: ALAM et al., 1991. Nota: Gráficos originais, com títulos e eixos ilegíveis, conforme paper em formato digital. Muitos autores, em trabalhos posteriores aos de Friedlander ou Alam, mostraram uma relação causal entre Consumo de Energia e Renda (YU; CHOI, 1985; MASIH; MASIH, 1996, 1997; SOYTAS; SARI, 2003; SHIVELY; WARD; DIFFENBAUGH, 2009). Soytas e Sari (2006) mostraram essa relação causal para países do G-7; e Sari e Soytas (2007) mostraram para 6 países em desenvolvimento. Como contraponto a este e outros estudos similares, Joyeux e Ripple (2007) mostraram que Renda e Consumo de Energia Elétrica Residencial não são suficientemente cointegrados temporalmente no longo prazo. Isso significa que indicadores de qualidade de vida que considerem informações de Renda como componentes e não considerem o Consumo de 102 Energia necessariamente perderão informações. Eles utilizaram dados de PIB per capita e consumo de energia per capita, de 1971 a 2001, de 9 países (Índia, Indonésia, Burma, Bangladesh, Malásia, Tailândia, Singapura, Austrália, EUA), além da União Européia. De qualquer forma, o debate prossegue, mas é inquestionável a forte associação entre as duas informações – talvez não o suficiente para que indicadores de qualidade de vida possam prescindir de algum deles para garantirem sua consistência. Pesquisas adicionais devem ser realizadas para adaptar medidas de qualidade de vida para capturar adequadamente os efeitos do Consumo de Energia Elétrica. A AES Eletropaulo, distribuidora de energia elétrica da Grande São Paulo, desenvolveu alguns indicadores para sua gestão operacional baseados em Consumo de Energia Elétrica. O Sinalizador de Produção Industrial (SPI) é um indicador econômico mensal elaborado pela Fundação Getulio Vargas em parceria com a AES Eletropaulo. Sua função é antecipar tendências da atividade industrial no estado de São Paulo. Construído com base em modelos econométricos, o SPI projeta, com um mês de antecedência, a evolução da produção física mensal da indústria paulista, tendo como referência o indicador da Pesquisa Industrial Mensal (PIM-SP) do IBGE. Os modelos usados são compostos por variáveis de domínio público e informações exclusivas sobre a carga de energia elétrica do segmento de grandes clientes industriais da AES Eletropaulo (FGV-IBRE, 2007). Dessa forma, além de permitir uma antecipação de informação importante para o mercado, a empresa melhora seus modelos de previsão de carga e demanda de energia. O Indicador de Propensão à Perda Comercial foi criado em 2006 (FRANCISCO; FAGUNDES, 2006a, 2006b; FRANCISCO et al., 2007) e aprimorado em 2008 (FRANCISCO; FAGUNDES, 2008; FRANCISCO et al., 2009). Trata-se do resultado de uma junção espacial de quatro níveis de informação: (i) perda percentual de energia (diferença entre valores de compra e venda de energia, apurados para cada estação transformadora de energia e associados à área de cobertura de cada estação através de algoritmo de delimitação 103 de polígonos de Thiessen12), (ii) renda domiciliar média por quilômetro quadrado – apurada através da proxy consumo residencial de energia elétrica médio, (iii) IPVS por setor censitário, e (iv) percentual de domicílios com a energia elétrica cortada, por quilômetro quadrado. A perda comercial de energia apurada é explicada em 63,29% pelas quatro variáveis através de modelos de estatística espacial (FRANCISCO et al., 2009). O Esquema 2.4 a seguir descreve a estrutura formativa do indicador, destacando o uso do Consumo de Energia Elétrica Residencial como proxy de Renda Domiciliar. Esquema 2.4: Diagrama de Construção do Indicador de Propensão à Perda de Energia da AES Eletropaulo Fonte: FRANCISCO et al., 2009. Turner et al. (2006), através de um importante estudo baseado em dados de aproximadamente 8 milhões de potenciais solicitantes de crédito em diversos estados norteamericanos, mostra benefícios potenciais que dados de Consumo de Energia Elétrica e perfil de pagamento da conta de luz podem trazer para modelos de concessão de crédito para a baixa renda, através da diminuição da assimetria de informação. 12 Também conhecido como Polígonos (ou Tesselação) de Voronoi, ou ainda de Dirichlet, trata-se da decomposição do espaço geográfico de acordo com a distância aos pontos determinados. Dado um conjunto A de n pontos no espaço queremos determinar para cada ponto p de A qual é a região V(p) dos pontos do plano que estão mais próximos de p do que de qualquer outro ponto em A, conforme exemplo da figura abaixo. 104 Em suma, muitos estudos analisam o comportamento do Consumo de Energia Elétrica Residencial e sua relação com a Renda ou outros indicadores econômicos, em nível global (estudos comparativos entre países e regiões, utilizando-se ou não de dados em painel, ou para um mesmo país ao longo dos anos), em nível estadual ou municipal, e alguns poucos utilizando-se de dados representativos de estruturas administrativas intra-municipais, como distritos ou áreas censitárias. Pesquisas domiciliares são utilizadas para investigar estrutura de uso da energia nas residências, mas ainda é incipiente a utilização de técnicas ou modelos que utilizem a localização geográfica dos domicílios. Este estudo se posiciona nesse contexto. Procura-se estender os modelos tradicionais com a incorporação da natureza geoespacial de suas observações, utilizando diversas técnicas de exploração espacial dos construtos avaliados – Renda e Consumo de Energia Elétrica. São elas: auto-correlação espacial e regressão espacial (em especial, Spatial Auto-Regression e Geographically Weighted Regression), em duas naturezas de associação: domiciliar e regional, que serão descritas no Capítulo 3. 105 3 ESTATÍSTICA ESPACIAL APLICADA A abordagem tradicional para o tratamento de dados sociais, econômicos e ambientais utiliza técnicas estatísticas bem estabelecidas, como testes de hipótese, análise de variância e modelos lineares. Estas, embora relevantes e úteis, não permitem considerar o espaço geográfico. Uma das motivações deste estudo é que “onde” ocorre o fenômeno é muito importante, e em alguns casos essencial à compreensão do mesmo. Este capítulo divide-se em quatro partes. A primeira apresentará uma visão histórica e conceitual da importância da aplicação de inteligência espacial em problemas de pesquisa e negócios, sob a perspectiva das ciências sociais aplicadas. A segunda parte descreverá brevemente o que se convencionou denominar Exploratory Spatial Data Analysis (ESDA) - análise exploratória de dados espaciais, e suas variações, como uma derivação da análise exploratória de dados. A terceira e a quarta partes tratarão da incorporação da natureza espacial das informações em técnicas estatísticas. A terceira parte apresentará a Estatística Espacial, suas particularidades e suas diferenciações históricas e conceituais da Geoestatística, e a quarta e última parte descreverá os fundamentos da inferência estatística (ou análise confirmatória de dados) espacial, em particular a Regressão Espacial, caracterizando especialmente os modelos Spatial Auto-Regressive model (SAR) e Geographically Weighted Regression (GWR), que serão utilizados neste trabalho. 3.1 INTELIGÊNCIA ESPACIAL EM PROBLEMAS DE PESQUISA E NEGÓCIOS Compreender a distribuição espacial de dados oriundos de fenômenos ocorridos no espaço constitui hoje um grande desafio para a elucidação de questões centrais em diversas áreas do conhecimento, seja em saúde, meio-ambiente, geologia, agronomia, ciências sociais, entre tantas outras. Tais estudos vêm se tornando cada vez mais comuns, devido à disponibilidade de Sistemas de Informação Geográfica ou Geographic Information Systems (GIS) de baixo custo e com interfaces amigáveis. Estes sistemas permitem a visualização 106 espacial de variáveis como população de indivíduos, índices de qualidade de vida ou vendas de uma empresa numa região através de mapas. Para tanto, basta dispor-se de um banco de dados e de uma base geográfica (como um mapa de municípios), e o GIS é capaz de apresentar um mapa colorido (ou cloroplético) permitindo a visualização do padrão espacial do fenômeno. Além da percepção visual da distribuição espacial do problema, é muito útil traduzir os padrões existentes em considerações objetivas e mensuráveis, que são endereçadas pela análise espacial de dados geográficos e a estatística espacial. A ênfase da análise espacial é mensurar propriedades e relacionamentos, levando-se em conta a localização espacial do fenômeno em estudo de forma explícita (CÂMARA et al., 2003). Os GIS apareceram como tecnologia inovadora e de ponta, disseminaram-se, chegaram ao computador pessoal (PC) e foram tecnicamente incorporados aos sistemas de informação em geral (ARANHA; FIGOLI, 2001). No entanto, sua incorporação sob o ponto de vista cultural ainda está incompleta – os processos técnicos mais operacionais ou transacionais das corporações já são atendidos por bancos de dados e sistemas geográficos, mas processos mais estratégicos ainda carecem de adoção pelas empresas – falta percepção de potencial, já que não há impedimento tecnológico (PENNA; FRANCISCO, 2004). De qualquer forma, essa percepção está aumentando, com a crescente utilização de métodos analíticos e de informações cientificas na tomada de decisões estratégicas e táticas pelas organizações (GREGORI; LINK, 2005). A mensagem básica inerente ao GIS é a palavra Integração. Integração de diferentes dados temáticos mediante o uso da localização espacial comum aos mesmos, integração de processos para tratamento destes dados e, conseqüentemente, de funções empresariais e de grupos ou pessoas envolvidas na captação, edição, armazenamento, manipulação, produção, apresentação e, principalmente, análise desses dados. Um exemplo pioneiro da incorporação do espaço ao processo de análise, no contexto das ciências sociais e administração, foi realizado no século XIX pelo médico John Snow. Em 1854, ocorria em Londres uma das várias epidemias de cólera trazidas das Índias. Pouco se sabia sobre os mecanismos causais da doença. Duas vertentes científicas procuravam explicá-la: uma relacionando-a aos miasmas, concentrados nas regiões baixas e 107 pantanosas da cidade, e outra à ingestão de água insalubre. O mapa da Figura 3.1 localiza a residência dos óbitos ocasionados pela doença e as bombas de água que abasteciam a cidade, permitindo visualizar claramente uma destas, em Broad Street (em destaque na figura), como o epicentro da epidemia. Estudos posteriores confirmaram esta hipótese, corroborada por outras informações tais como a localização do ponto de captação de água desta bomba a jusante (rio abaixo) da cidade, em local onde a concentração de dejetos, inclusive de pacientes coléricos era máxima. Esta é uma situação típica em que a relação espacial entre os dados contribui significativamente para o avanço na compreensão do fenômeno, sendo um dos primeiros exemplos da análise espacial (BAILEY; GATTREL13, 1995 apud FRANCISCO; TRISTÃO, 2006). Figura 3.1: Mapa de John Snow, da cidade de Londres, com óbitos por cólera (identificados por pontos) e poços de água (identificados por cruzes), com destaque para o poço contaminado Fonte: adaptado de CÂMARA; CAMARGO, 2002; FRANCISCO; TRISTÃO, 2006. 13 Bailey, Trevor; Gattrel, Anthony. Spatial Data Analysis by Example. Londres: Longman, 1995. 108 Uma derivação, ou apropriação, do GIS para uso em processos de inteligência de mercado e de marketing em geral é o geomarketing, ou marketing geográfico, que estuda as relações existentes entre as estratégias e políticas de marketing e o território ou espaço onde a instituição, seus clientes, fornecedores e pontos de distribuição se localizam (DAVIES, 1976). Na teoria, a origem do geomarketing ocorreu com a combinação bem sucedida da Economia com a Geografia. J. von Thünen (1826) desenvolveu a Teoria da Renda da Terra, tornando famosos os “anéis de Thünen”14 e inaugurou a incorporação da geografia na teoria econômica. Já Weber (1909), com a Teoria Geral da Localização e Lösch (1954) e Christaller (1933) com a Teoria do Lugar Central (TLC) inauguraram o conceito de “área de influência” em uma perspectiva prática e de apoio à administração15. Depois vieram os Modelos Gravitacionais de Reilly (1931) e Huff (1966). William Reilly demonstrou a utilidade dos modelos de Isaac Newton no marketing geográfico com sua Lei da Gravitação do Varejo – a interação potencial entre consumidores e vários pontos varejistas dentro de uma área urbana varia diretamente com o poder de atração (ou tamanho) de cada ponto, e inversamente com a distância que separa o consumidor do ponto de origem (REILLY, 1931). A operação de análises em geomarketing geralmente é precedida de duas etapas importantes: (i) a disponibilização de elementos sistemáticos, dentre os quais se destaca a base de eixos de logradouros; e (ii) a base de dados de objetos de interesse que é, em geral, composta do cadastro dos clientes ou prospects que se deseja mapear. A essas bases são associadas novas informações, conforme as etapas descritas a seguir: (iii) informações sociodemográficas (normalmente em nível de setores censitários), (iv) identificação e qualificação dos players do mercado (rede dos competidores, por exemplo), e 14 Johann Heinrich von Thünen concluiu que a renda econômica da produção agrícola depende da distância do mercado, ou seja, as terras mais próximas do centro consumidor tem maior renda em relação àquelas mais distantes. Como os custos de transporte aumentavam com a distância, o afastamento do mercado determinava a seleção de culturas. Assim, os produtos se distribuíam de maneira regular em torno do mercado – em forma que ficou conhecida como os Anéis de von Thünen. Nesse contexto, os produtos perecíveis ou de difícil transporte se localizavam próximos ao centro consumidor, e nos demais anéis estavam o cultivo da madeira, cultivo de cereais e a pecuária (THÜNEN, 1826; COSTA; CABELEIRA, 2002). Os custos unitários de transportes e o preço do solo urbano são, até hoje, funções decrescentes da distância ao centro consumidor. Alfred Weber trabalhou na modelação da localização industrial (1909). O economista August Lösch, em textos que culminaram no Economics of Location (1954), e o geógrafo Walter Christaller (1933) tiveram seus trabalhos conhecidos, em conjunto, como a Teoria do Lugar Central (TLC), que descreve o número, tamanho, espaçamento e composição funcional de centros comerciais, num mundo microeconômico de livre concorrência típico. Uma série de assumptions é feita com relação aos consumidores e fornecedores (pequenos, informados, racionais, igualmente distribuídos no espaço), e quanto à geografia (espaço homogêneo, custos uniformes e isotrópicos). O conceito e a operacionalização da “área de influência” e a formação de hierarquia de centros de comércio é deduzida dessa teoria (BROWN, 1992; ARANHA, 2001). 15 109 (v) conhecimento dos elementos que influenciam o negócio que está sendo estudado: rede de transporte (ruas, estradas, transporte público), barreiras naturais e culturais e zonas de influência (MACHADO; FRANCISCO; RIBEIRO, 2006). O trabalho desta tese incentiva a adoção de indicadores não-convencionais no mercado para a caracterização econômica do território e potencializa a utilidade e a dinâmica do processo descrito acima – em especial, as etapas (ii) e (iii). Hoje em dia, com o advento de ferramentas como Google Earth®, Google Maps® e Microsoft Virtual Earth®, com a realização das etapas de análise geográfica em um ambiente cloud computing apoiado nos protocolos da Internet e com a popularização de dispositivos móveis de localização (GPS-based) e de interação (PDAs e telefones celulares) convencionou-se denominar de WebGIS a todo esse novo contexto, o que acarreta uma mudança de paradigma comercial profunda no geomarketing e uma disseminação sem igual do poder e da inteligência analítica que é propiciada com o uso geográfico da informações. 3.2 ANÁLISE EXPLORATÓRIA DE DADOS ESPACIAIS Muitos dos aspectos que antecedem a estatística espacial estão relacionados à descrição e exploração de conjuntos de dados espaciais. O termo genérico para esses métodos é Análise Exploratória de Dados que, no contexto espacial, torna-se Análise Exploratória de Dados Espaciais, ou Exploratory Spatial Data Analysis (ESDA). O processo de análise de dados espaciais inclui métodos de visualização, métodos exploratórios para investigar algum padrão nos dados e métodos que auxiliem a escolha de um modelo estatístico e a estimação dos parâmetros desse modelo (CARVALHO, 1997). Podemos dividir as ferramentas da Análise Espacial em: seleção, manipulação, análise exploratória e confirmação (modelagem), segundo Anselin (1988). Por seleção, entendemos os processos de navegação num banco de dados geográfico realizando consultas e apresentando mapas cloropléticos simples. O processo de manipulação envolve todas as funções que criam dados espaciais, em especial com a utilização da álgebra de mapas em geoprocessamento (CÂMARA; CAMARGO, 2002). 110 As técnicas de análise exploratória permitem descrever e visualizar distribuições espaciais, descobrir padrões de associação espacial (aglomerados espaciais), sugerir a existência de instabilidades espaciais (não-estacionariedade) e identificar observações atípicas (outliers). As técnicas de análise exploratória aplicadas a dados espaciais são essenciais ao desenvolvimento das etapas de modelagem estatística espacial, em geral muito sensíveis ao tipo de distribuição, à presença de valores extremos e à ausência de estacionariedade (CARVALHO, 1997). As técnicas de análise confirmatória envolvem o conjunto de modelos de estimação e procedimentos de validação, necessários para implementar análises multivariadas com componentes espaciais. De uma forma geral, os problemas de análise espacial lidam com duas classes de dados: ambientais e socioeconômicos. Por dados ambientais (ou naturais) referimo-nos a todos os tipos de dados resultantes de levantamento de recursos naturais, como provenientes de estudos ligados a geologia, topografia, ecologia, climatologia, sismologia e mineração, entre outros. Chamamos de dados socioeconômicos todos aqueles decorrentes de levantamentos associados a recursos humanos, como saúde, demografia, economia, real estate, transportes, marketing – ciências sociais e administração em geral (CÂMARA; CAMARGO, 2002; TOMLINSON, 2003; SMITH; GOODCHILD; LONGLEY, 2007). No caso de dados ambientais, a abordagem usual é a da geoestatística (descrita no tópico 3.3), cujas técnicas buscam construir uma superfície de representação do fenômeno, com base em uma caracterização de similaridade espacial entre as amostras coletadas. O conceito de estacionariedade (também a ser descrito em 3.3) sustenta com bastante freqüência o comportamento dos dados ambientais, resultantes de fenômenos naturais (MAGRI; LYNCH, 2008). Para os dados socioeconômicos, a situação é mais complexa. Em grande medida, trata-se de dados associados a levantamentos populacionais, como censos e amostras, e que originalmente se referem a indivíduos ou domicílios localizados em pontos específicos do espaço. Por razões de confidencialidade e de tratamento estatístico, estes dados são agregados em unidades de análise, usualmente delimitadas por polígonos fechados (setores censitários, zonas de endereçamento postal, áreas de ponderação, distritos, municípios). A suposição 111 implícita neste caso é que as regiões apresentadas são intrinsecamente homogêneas e que as mudanças significativas só ocorrem nos limites (MARTIN, D.,1995), que, evidentemente, é uma falsa premissa, pois as unidades de levantamento são definidas por critérios operacionais ou político-administrativos e não há qualquer garantia de que a distribuição das variáveis socioeconômicas seja homogênea dentro destas unidades (CÂMARA; CAMARGO, 2002; DIAS et al., 2002). Deste modo, podemos postular que a simples apresentação de dados socioeconômicos como mapas temáticos é insuficiente, de forma geral, para caracterizar o fenômeno em estudo. A escolha das unidades de coleta e análise é parte crucial do uso de dados socioeconômicos em GIS. Estas unidades devem apresentar resolução (definida a partir da menor área para a qual as informações estão disponíveis e são representativas) adequada ao fenômeno que se deseja estudar. Quanto menor a escala, maior a população e a área da unidade de estudo, menor a resolução, menor a variabilidade dos dados, e, portanto, menor a homogeneidade interna e a capacidade de distinguir diferenças (ANSELIN, 1998; CÂMARA; CARVALHO, 2004). Aumentar a escala e a resolução traz outros problemas: à medida que diminui a área e a população, diminui também a ocorrência do evento estudado, podendo gerar instabilidade dos indicadores nos grupos (CARVALHO, 1997; DIAS et al., 2002). O problema da inter-relação entre a área de estudo e os resultados mensurados é chamado de problema da unidade de área modificável, ou Modifiable Area Unit Problem (MAUP). Os gráficos e os modelos lineares da Figura 3.2 ilustram a significativa diferença que podemos ter na relação entre variáveis de acordo com diferentes níveis de agregação ou escala que adotarmos. 112 • Modelo linear para todos os indivíduos: R2 = +0,15 • Modelo linear para cada grupo de dados ( ):R2 varia de -0,5 a -0,8 • Modelo linear considerando apenas as médias de cada grupo: R2 = +0,99 Figura 3.2: Diferentes Modelos Lineares sobre um mesmo conjunto de dados para ilustrar o MAUP Fonte: adaptado de DIAS et al., 2002. Devido aos efeitos de escala e de agregação de áreas, os coeficientes de correlação podem ser inteiramente diferentes no indivíduo e nas áreas (WRIGLEY et al., 1996). Este fenômeno, nas ciências sociais e na epidemiologia, é chamado de “falácia ecológica”16, que envolve a conclusão imprópria de relacionamentos a nível individual a partir de resultados agregados ao nível de unidade de área. Mudando-se a escala e as dimensões da unidade de análise podemos chegar a conclusões bastante diferentes. Agregação em regiões maiores que as unidades poligonais disponibilizadas reduz a variabilidade e tende a aumentar a correlação entre as variáveis (OPENSHAW; TAYLOR, 1979; JELINSKI; WU, 1996). E essa problemática é intrínseca ao estudo de fenômenos a partir de dados socioeconômicos disponíveis na forma de polígonos, independente da forma como os limites tiverem sido definidos (MARTIN, D., 1995; JELINSKI; WU, 1996). Os dados socioeconômicos podem ser abordados em duas perspectivas distintas: (i) como um conjunto de polígonos homogêneos, disjuntos e adjacentes, cobrindo toda a área em estudo, com atributos descritivos para cada região, e (ii) como um conjunto de amostras (onde cada amostra está associada a um ponto [centróide, sede ou arbitrário] da unidade de levantamento). 16 Deve-se observar que a chamada “falácia ecológica”, a rigor, nem é uma “falácia” nem é “ecológica”. Trata-se de uma propriedade inerente aos dados agregados por áreas. A agregação de indivíduos em áreas tende a aumentar a correlação entre as variáveis e reduzir flutuações estatísticas. (DIAS et al., 2002). 113 3.3 ESTATÍSTICA ESPACIAL E GEOESTATÍSTICA A Estatística Aplicada é utilizada tanto em modelos de dependência espacial para análise de dados ambientais quanto para análise de dados socioeconômicos. Geralmente as análises espaciais ambientais são aplicadas a fenômenos que apresentam um comportamento relativamente estável ao longo do tempo, enquanto as análises espaciais de mercado são aplicadas a fenômenos sociais, geralmente muito instáveis (CÂMARA; CAMARGO, 2002; FOTHERINGHAM; BRUNSDON; CHARLTON, 2002). espacial. O termo Estacionariedade é original da análise de processos aleatórios, particularmente vinculado a séries temporais. Um processo aleatório estacionário é identificado por apresentar propriedades estatísticas (média, variância, distribuição, correlações etc) que não variam no tempo. Da mesma forma, no contexto da análise espacial, um processo aleatório é estacionário no espaço (SMITH; GOODCHILD; LONGLEY, 2007). Fotheringham, Brunsdon e Charlton (2002, p. 9-11) discutem possíveis causas de não-estacionariedade espacial no estudo de um fenômeno social. A não-estacionariedade pode ser fruto de relacionamentos entre construtos que são intrinsecamente diferentes em regiões do espaço, devido a variações culturais, atitudinais, econômicas ou de preferências, o que corrobora crenças do pós-modernismo (THRIFT, 1983) sobre a importância do contexto local no entendimento do comportamento humano. A não-estacionariedade observada na relação mensurada pode ser, ainda, advinda de uma pré-concepção de modelo (ou statement) global de comportamento, ou seja, um problema de especificação. De qualquer forma, a discussão sobre essas causas é um dos grandes debates em vigor na Análise Espacial atualmente. Muitas técnicas, incluindo a GWR que utilizamos neste estudo, são adequadas para processos espaciais não-estacionários e buscam modelar explicitamente as diferenças locais (SMITH; GOODCHILD; LONGLEY, 2007). A Geoestatística pode ser definida como um conjunto de “modelos e métodos para dados observados em um conjunto discreto de localizações, de forma que o valor observado z i é ou uma medição direta de, ou está estatisticamente associado a, o valor de um Esta é, fundamentalmente, a diferença entre a Geoestatística e a Estatística Espacial: o conceito de estacionariedade 114 fenômeno espacial contínuo F ( x, y ) na localização ( xi , y i ) dentro de uma determinada região geográfica”, segundo Prof. Diggle da University of Lancaster (SMITH; GOODCHILD; LONGLEY, 2007, tradução nossa). Essa definição enfatiza que a geoestatística estuda fenômenos espaciais contínuos e estacionários no espaço. Como dados ambientais são resultantes de fenômenos naturais (como os processos geológicos, por exemplo) a hipótese de estacionariedade é sustentada com freqüência (CÂMARA; CAMARGO, 2002), e é o pressuposto central da geoestatística. Nesses termos, a abordagem geoestatística representa um conjunto de técnicas para se construir uma superfície com base numa caracterização da similaridade espacial entre as amostras. Diversos conceitos foram definidos para entender e modelar o comportamento (supostamente contínuo) das variáveis no espaço. Uma função comumente utilizada é a semivariância (experimental), a metade da soma dos quadrados dos desvios entre os pares de pontos em cada classe de distância (RIBEIRO Jr., DIGGLE; 2001), que tem a seguinte forma: ij 1 γˆ ( h) = ∑∆(2zi − z j ) 2 2 N ( h) d ij = h − d =h+ ∆ 2 , (3.1) onde h é uma distância fixa (ou lag), d ij é a distância entre os pontos i e j e ∆ é uma largura de banda com centro em h (ou seja, [h − ∆ 2 , h + ∆ 2] ). O somatório considera todos os pares de valores observados cuja separação espacial esteja dentro da largura de banda escolhida. Existem N(h) pares nessa situação, portanto γˆ (h) mede a (dis)similaridade espacial quadrada média entre os pares de dados dentro da banda h . O gráfico das semivariâncias γˆ (h) em função da distância h é chamado de semivariograma. A Krigeagem (ou Kriging) é o principal modelo inferencial de regressão utilizado em geoestatística para interpolar dados. Parte do princípio de que pontos próximos no espaço tendem a ter valores mais parecidos do que pontos mais afastados. A técnica de krigeagem assume que os dados recolhidos de uma determinada população se encontram correlacionados no espaço. Considera-se o método de krigeagem do tipo BLUE, Best Linear Unbiased Estimator, ou Melhor Estimador Linear não-Viciado: é linear porque as suas estimativas são combinações lineares ponderadas dos dados existentes; é não enviesada pois procura que a média dos erros (desvios entre o valor real e o valor estimado) seja nula; é a melhor porque os 115 erros de estimação apresentam uma variância de estimação mínima (CÂMARA; CAMARGO, 2002; MAGRI; LYNCH, 2008). O formato da curva produzida pelo semivariograma é uma análise exploratória fundamental para se avaliar o melhor modelo de krigeagem a se propor para modelar a superfície que descreve espacialmente o fenômeno, ambiental por natureza. Mais apropriada a fenômenos sociais e a dados socioeconômicos, a Estatística Espacial, por sua vez, é um campo da ciência regional que aborda o tema da dependência espacial e da heterogeneidade espacial, aspectos críticos em qualquer estudo de economia regional. Estas características podem invalidar o uso de técnicas estatísticas e econométricas convencionais. Os métodos quantitativos espaciais são um caso especial do enfoque estatístico geral e, portanto, necessitam de um conjunto de métodos e técnicas diferentes daqueles utilizados na estatística convencional (VALCARCE; SERRANO, 2000). A importância dos problemas causados pela heterogeneidade espacial e pela dependência espacial, assim como seus efeitos quanto à validade dos métodos estatísticos convencionais, remonta a 1914, com um trabalho de Student, que se refere a este tipo de problema pela primeira vez. O desenvolvimento e nascimento de um campo específico, contudo, se dá apenas a partir de 1948, com Moran, e 1954, com Geary, quando são apresentadas as primeiras estatísticas formais para medir a auto-correlação ou dependência espacial (LESAGE, 1999). Após esta fase inicial de reconhecimento do problema, é na década de setenta que surge o termo econometria espacial, cunhado por Paelinck e Klaasen (1979) e originalmente relacionado a tentativas de analisar a auto-correlação espacial no termo de erro de um modelo de regressão. Anselin (1988) define a estatística espacial de forma mais clara, como a coleção de técnicas que abordam as peculiaridades causadas pelo espaço na análise estatística de modelos da ciência regional. O maior desenvolvimento da estatística espacial ocorreu nas décadas de oitenta e noventa. Os trabalhos de Cliff e Ord (1981), Blommenstein (1983) e Anselin (1980, 1988) são os primeiros que analisaram de maneira geral os seus principais aspectos metodológicos. Duas características fundamentais a serem consideradas nos modelos que tratam de dados espaciais são a auto-correlação espacial e a heterogeneidade espacial e, para que estas possam ser analisadas, mostra-se fundamental o uso de uma matriz de pesos espaciais que indique a posição relativa das observações (VALCARCE; SERRANO, 2000), conforme apresentado no tópico 3.4 . 116 3.4 REGRESSÃO ESPACIAL O estudo dos argumentos estatísticos que permitem que façamos afirmações sobre as características de uma população a partir de informações dadas em amostras (subconjuntos) dessa população é o princípio da inferência estatística (BUSSAB; MORETIN, 2003). A estimação de parâmetros (valores da população), o teste de hipótese sobre os parâmetros e a predição (ou previsão) são problemas básicos desta área da Estatística (HAIR et al., 2005; COX, 2006, entre outros). A análise de regressão é o termo que descreve uma família de métodos que permite explorar e inferir a relação entre uma ou mais variáveis dependentes ou respostas e um conjunto de variáveis independentes. É muito utilizada também para a previsão, envolvendo séries temporais de dados. Um modelo de regressão relaciona uma variável dependente y como uma função das variáveis independentes X e dos parâmetros β que desejam ser estimados. Em notação matemática, temos y ≈ f ( X , β ) . Uma regressão linear considera que cada valor observado yi é uma combinação linear dos parâmetros (não se assume necessariamente relação linear com as variáveis independentes). As Equações 3.2 e 3.3 descrevem essa relação: y i = β 1 x i1 + β 2 xi 2 + K + β p xip + ε i y = Xβ + ε , , ou (3.2) (3.3)17 onde y é a variável dependente, X é o vetor de p variáveis independentes ( xi ), e ε é o termo de erro. Tipicamente assumimos que o valor esperado desses erros é zero, ou seja, E (ε ) = 0 , a variância é constante e desconhecida σ 2 , os erros são independentes (entre si e com relação às variáveis explicativas X) e sua distribuição é normal da forma ε ~ N (0, σ 2 I ) . 17 Para esclarecimento de notação vetorial e matricial, temos durante este trabalho:  x11  y1   y  x y =  2  , X =  21 M M  y  x  n  n1 L x1 p   β1   ε1   β   L x2 p  , β =  2  e ε = ε 2  . O M M M ε  β  L x np   n  p  117 Idealmente em análises de regressão, a escolha do modelo deve ser tão simples quanto possível, tanto em termos da expressão empregada quanto para o número de variáveis independentes incluídas – trata-se do princípio da simplicidade ou parcimônia18. Tipicamente o número de observações (n) é maior do que o número (p) de variáveis explicativas, o que torna o sistema superdeterminado. Uma abordagem para buscarmos a melhor solução é procurarmos o vetor β que minimiza a diferença entre o valor estimado e o valor observado para cada observação, ou para a soma das diferenças ao quadrado ( εε T ), explicação que justifica o termo regressão por mínimos quadrados, ou ˆ ordinary least squares (OLS). Nesses termos, o vetor de parâmetros β é estimado ( β ) da seguinte forma: ˆ β = (X T X ) X T y −1 e ˆ var( β ) = σ 2 X T X ( ) −1 . (3.4) Uma premissa básica adotada em modelos de regressão linear tradicionais é que as observações são independentes entre si, o que é improvável em muitos casos que envolvem dados com caracterização espacial (FOTHERINGHAM; BRUNSDON; CHARLTON, 2002; CÂMARA; CAMARGO, 2002). Uma outra premissa adotada largamente é que a estrutura do modelo permanece constante em toda a área em estudo. Regressões tradicionais podem incorporar natureza espacial em sua especificação através da simples inclusão das coordenadas (2 ou 3) de eventos pontuais, centróides de objetos poligonais, ou incorporando a distância do objeto observado até um ponto fixo de interesse do modelo, ou através de qualquer representação simplificada de adjacência ou vizinhança (SMITH; GOODCHILD; LONGLEY, 2007). Formas menos simplistas de se incorporar natureza espacial nas técnicas de regressão é incluir termos auto-regressivos baseados em proximidade ou adjacência (alguma medida de influência da vizinhança) ou através da adoção de métodos locais (na melhor 18 O princípio da parcimônia é um princípio filosófico largamente empregado na Ciência. Foi proposto pelo filósofo inglês Ockam no século XVII e seu enunciado é aproximadamente o seguinte: Se existe mais de uma explicação para uma dada observação, devemos adotar aquela mais simples (COURTNEY; COURTNEY, 2008, entre outros). 118 conceituação espacial do termo) ao invés de globais. Esses métodos serão apresentados nas seções seguintes. 3.4.1 AUTO-CORRELAÇÃO ESPACIAL E CRITÉRIOS DE VIZINHANÇA A auto-correlação espacial avalia e analisa o grau de dependência entre observações no espaço. Em geral, relações de dependência espacial e seus efeitos são estimados a partir de matrizes de vizinhança das áreas estudadas em um mapa (GRIFFITH, 1987; ANSELIN, 1988). Os critérios de vizinhança podem ser determinados com base em fronteiras e distâncias, e seus resultados influenciam estatísticas respectivas e os diagnósticos espaciais a elas associados (GRIFFITH, 1987). A Figura 3.3 a seguir ilustra a construção de uma matriz de vizinhança simples, convenientemente denominada de W. W= Figura 3.3: Exemplo de Matriz de Vizinhança Fonte: adaptado de CÂMARA et al., 2003. Nesta matriz, utilizada inicialmente por Moran (1948) e Geary (1954), wij é igual a 1 se as regiões i e j são fisicamente adjacentes (contíguos) e 0, em caso contrário. Dependendo da natureza do fenômeno em estudo, pode-se adotar que o objeto espacial é “vizinho de si próprio” (ou seja, wii = 1 ), ou que não é, conforme adotado no exemplo da Figura 3.3. 119 Outra possibilidade é a utilização do critério de distância ao invés da contigüidade, considerando-se vizinhas aquelas observações cuja distância é inferior a um valor pré-estabelecido. As linhas das matrizes são, normalmente, padronizadas, de maneira que sua soma seja igual a 1, o que permite que a multiplicação de uma variável pela linha da observação i represente a média de tal variável ponderada pelos vizinhos de i. Uma análise exploratória da distribuição espacial das variáveis de interesse, somada a formulações teóricas prévias, é útil e relevante para a escolha do critério de vizinhança a ser aplicado em uma análise. Como diagnóstico complementar, o teste de modelos de análise apoiados em matrizes de vizinhança elaboradas a partir de diferentes critérios permite a verificação de qual matriz provê o melhor ajuste na análise. Tyszler (2006) observa que as matrizes de distância têm melhor comportamento do que as matrizes de contigüidade quando utilizadas em estimação dos parâmetros espaciais em regressão. Neste trabalho, serão testadas matrizes de vizinhança por contigüidade (fronteiras), por distância e variações, descritas na medida de sua utilidade para as análises. As matrizes de vizinhança são normalmente utilizadas para acompanhar medidas de auto-correlação espacial de variáveis de interesse. O termo auto-correlação advém do estudo analítico de séries temporais, em que uma variável no instante de tempo t está associada a si mesma, em instantes de tempo t − k (conceito de defasagem temporal). Vários autores (CLIFF; ORD, 1981; GOODCHILD, 1986; GRIFFITH, 1987; FORTIN; DALE, 2005; entre outros) adaptaram esse conceito para o contexto geográfico, em que o espaço representado é contínuo e bivariado e, portanto, não ordenável. Assim como auto-correlação é proximidade no tempo, auto-correlação espacial é proximidade (em duas dimensões) no espaço. Busca-se analisar em que medida uma observação está associada (correlacionada) às observações de sua vizinhança. Uma medida consagrada na literatura para auto-correlação espacial foi definida por Moran (1948). O índice I de Moran pode ser considerado um indicador de correlação entre o valor de uma variável observada em uma região e os valores da mesma variável observados em suas regiões vizinhas (GRIFFITH, 1987). É calculado da seguinte forma: 120 I= n ∑∑ w ( y ij i =1 j =1 n ij i =1 n n i − y ) (y j − y ) i ∑∑ w i =1 j =1 n n ∑ (y − y) 2 , (3.5) em que y é a variável de interesse e wij é uma célula da matriz de vizinhança. Para que o cálculo do índice de Moran represente um indicador de auto-correlação espacial, os pesos das vizinhanças de cada observação devem ser ponderados para que todas as linhas da matriz de vizinhança tenham soma igual a 1. Desta forma, temos que n n ∑∑ w i =1 j =1 ij = n . O indicador varia de -1 (perfeita dispersão) a 1 (perfeita associação), passando pelo valor de padrão espacial totalmente aleatório (0). Assim, o índice de Moran assume a forma de covariância dos vizinhos em relação a y sobre a variância total de y, e, portanto, pode ser considerado um índice de covariância padronizada, ou um índice de correlação entre a variável de interesse (y) em uma região e a mesma variável na vizinhança desta região. O termo de variância total de y (denominador do índice) é n ∑ ( yi − y )2 , e o termo ∑∑ wij ( yi − y )(y j − y ) , ou a covariância dos vizinhos em i =1 n n i =1 j =1 relação a y (e também numerador do índice) é obtido a partir da soma de produtos cruzados (ponderados pelo peso) da matriz de vizinhança: wij ( yi − y ) ( y j − y ). Observando a formulação do índice de Moran, podemos verificar que cada observação i tem uma contribuição local para compor o indicador global de dependência espacial. A esse conjunto de contribuições locais, ou componentes individuais, devidamente adaptado em sua formulação, denominamos Local Indicators of Spatial Association (LISA), que pode ser visualizado espacialmente e testado para significância estatística para prover uma indicação de padrões de concentração espacial da variável em estudo na área. O índice I i para a observação i, é computado multiplicando-se o valor local normalizado z i pela média local, conforme Anselin (1995): 121 z i ∑ wij z j Ii = n ∑z j j n 2 j . (3.6) Geary (1954) desenvolveu outra medida clássica de auto-correlação, conhecida como C de Geary, mais sensível à correlação espacial local do que o I de Moran. A Fundação SEADE (2009) utilizou o Indicador I de Moran e análises exploratórias espaciais locais para aprimorar as estimativas das dimensões formativas do IPRS (conforme tópico 2.11) em pequenos municípios do Estado de São Paulo. 3.4.2 SAR – MODELO ESPACIAL AUTO-REGRESSIVO Uma das formas de analisar a influência ou dependência espacial de uma variável em um modelo de regressão desta variável é incorporar a matriz de vizinhança espacial (ou proximidade espacial) como parte do conjunto de variáveis explicativas. Isso culmina na incorporação, para a explicação de y, de um termo em y – por isso denominado, por alguns autores, de variável dependente espacialmente defasada. Portanto, o modelo espacial autoregressivo ou Spatial Auto-Regressive model (SAR) assume a seguinte forma: y = ρWy + Xβ + ε , (3.7) onde W é a matriz de proximidade espacial, o produto Wy expressa a dependência espacial em y e ρ é o coeficiente espacial auto-regressivo. A hipótese nula para a não existência de auto-correlação é que ρ = 0 . A idéia básica neste modelo é incorporar a auto-correlação espacial como componente do modelo. Além do termo espacial auto-regressivo ρWy , o conjunto de variáveis independentes X continua a contribuir com a explicação da variabilidade de y, e o termo de erro ε mantém seus pressupostos conforme a Equação 3.2 (independência e ε ~ N (0, σ 2 I ) ). Essa formulação é conhecida como Spatial Lagged Auto- regressive model. 122 Vários autores apropriaram esse modelo a fenômenos sociais, econômicos e demográficos. Em especial, Sposati (1996), Câmara et al. (2003), Zambaldi e Goldszmidt (2006), Genovez et al. (2007a, 2007b) e Feitosa et al. (2007), entre outros, mostraram haver ganhos significativos na aplicação destas técnicas para o município de São Paulo. Um outro modelo, de similar conceituação, denominado Spatial Error model, assume que o termo de erro é espacialmente dependente, e não a variável y. Sua formulação está a seguir: y = Xβ + u , onde u = λ Wu + ε . (3.8) Esse modelo é aplicado quando parece haver significativa auto-correlação espacial e os testes para o Spatial Lagged model não sugerem a inclusão de um termo espacial autoregressivo em y no modelo (SMITH; GOODCHILD; LONGLEY, 2007). Os modelos espaciais auto-regressivos incorporam a dependência espacial do fenômeno de forma global. Os parâmetros que se deseja inferir, ρ, β e λ, são, por assunção, invariáveis em toda a área estudada. São, pois, modelos de regressão com efeitos espaciais globais. Esses modelos serão estudados na investigação territorial deste trabalho, analisando a relação e a dependência espacial para os construtos Renda Familiar e Consumo de Energia Elétrica Residencial. 3.4.3 GWR – GEOGRAPHICALLY WEIGHTED REGRESSION Os pressupostos, implícitos, dos modelos de regressão multivariada tradicional, ou de regressão espacial com termo espacial auto-regressivo, são típicos de modelos globais. São técnicas que buscam valores únicos: um valor médio, uma variância, ou desvio-padrão, e uma auto-correlação espacial. Modelos locais, por sua vez, são multivalorados: diferentes valores das estatísticas podem ocorrer nas diferentes localizações dentro da área estudada. O Quadro 3.1 apresenta de forma concisa as principais diferenças entre modelos globais e locais: 123 Modelos Globais Indicadores sumarizados para a região estudada como um todo Parâmetros não “mapeáveis” Parâmetros inadequados para visualização Modelos não espaciais ou espacialmente limitados Destaca SIMILARIDADES no espaço Busca regularidades, ou “leis” Não adequado para Não-Estacionariedade Espacial Exemplos : Regressão Clássica Spatial Auto-regressive models (SAR) I de Moran Modelos Locais Desagregação local das estatísticas globais Parâmetros mapeáveis Parâmetros adequados para visualização em ferramenta GIS Modelos espaciais Destaca DIFERENÇAS no espaço Busca exceções, ou “hot spots” locais Adequado para Estacionariedade e Não-Estacionariedade Espacial Exemplos : Geographically Weighted Regression (GWR) Regimes Espaciais Local Indicators Spatial Association (LISA) Quadro 3.1: Diferenças entre Modelos Globais e Locais quanto às suas características espaciais Fonte: adaptado de Fotheringham; Brunsdon; Charlton, 2002; Whigham, 2007; Francisco, 2007. Esses princípios que diferenciam os dois tipos de modelos estão associados aos conceitos de estacionariedade espacial, conforme descrito anteriormente. A técnica Geographically Weighted Regression (GWR), ou Regressão Ponderada Geograficamente, foi desenvolvida por Fotheringham, Charlton e Brunsdon (1997, 2002) para descrever uma família de modelos de regressão em que os coeficientes, parâmetros β , podem variar espacialmente. Ela ajusta um modelo de regressão a cada ponto observado, ponderando todas as demais observações como função da distância (ou de qualquer medida de vizinhança) deste ponto. Em outras palavras, temos regressões diferentes para cada observação – assim, a contribuição (valor do parâmetro) de cada variável explicativa ao modelo é diferente para cada ponto. A formulação da GWR é dada a seguir: y ( g ) = β 0 ( g ) + β1 ( g ) x1 + β 2 ( g ) x 2 + K + β p ( g ) x p + ε , (3.9) onde g é um vetor dos n pontos, no espaço bidimensional, os parâmetros do vetor β ( g ) são específicos para cada observação i de localização g i = (u i , vi ) e o termo de erro ε é suposto 124 independente e de comportamento ε ~ N (0, σ 2 I ) . Temos, na realidade, um conjunto de n regressões diferentes, uma para cada ponto g i do espaço. ˆ Os parâmetros da matriz β ( g ) são estimados para cada linha independente, ou ˆ seja, para cada vetor β ( g i ) da seguinte forma: ˆ β ( g i ) = (X T W ( g i ) X ) X T W ( g i ) y −1 , (3.10)19  wi1 0 onde W ( g i ) =  M 0  0 wi 2 M 0 L 0 L 0  é uma matriz diagonal de n linhas com as ponderações O  L win   espaciais de cada observação para o ponto g i . Mais ainda, wij representa o peso do ponto g j na calibração do modelo para o local g i . Basicamente, se a variação espacial local aumenta, a confiabilidade das medidas globais como representações das condições locais diminui (FOTHERINGHAM; BRUNSDON; CHARLTON, 2002; WHIGHAM, 2007). Esse é o princípio da adoção da técnica GWR na explicação de muitos fenômenos atualmente. A escolha da função de proximidade (ou ponderação) espacial é muito importante para o modelo, pois ela determinará a influência espacial das observações entre si. Podemos simplesmente determinar que wij = 1 ∀ i, j e teremos a GWR reduzida a uma (várias iguais) regressão clássica OLS. Ou podemos estabelecer uma distância h (largura de banda) máxima 1 se d ij < h de influência para cada ponto g i , e estabelecer que wij =  . Assim, teremos n 0 se d ij ≥ h regressões clássicas aplicadas a cada ponto g i e sua amostra de influência (pontos localizados até h unidades de g i ) . Os diferentes esquemas de ponderação são denominados kernels. 19 β ( g ) é uma matriz de n linhas e p colunas, conforme abaixo:  β 0 ( g1 ) β1 ( g1 )  β ( g ) β1 ( g 2 ) β (g) =  0 2 M M  β (g ) β (g ) 1 n 0 n L β p ( g1 )   L β p (g2 ) . O M L β p (g n )   125 Para evitar problemas de descontinuidade das ponderações (FOTHERINGHAM; BRUNSDON; CHARLTON, 2002), especifica-se wij como uma função contínua de d ij . Em estimativas locais, é importante darmos mais peso para as observações mais próximas em estimação, em relação às mais distantes (MITTAL; KAMAKURA; GOVIND, 2004). Os kernels mais tipicamente aplicados são: Kernel Gaussiano: (fixo) Kernel Bi-square: (fixo) wij = e − 0 , 5 d ij h ( )2 , se d ij < h wij = 0 , caso contrário wij = 1 − ( d ij (3.11) ( 2 h2 ) ) 2 , se d ij < h wij = 0 , caso contrário (3.12) em que h é a largura de banda e d ij é a distância entre os pontos g i e g j . Nesses esquemas, em que a largura de banda é fixa, o número de observações que influenciam a estimação dos parâmetros no ponto g i é variável. Áreas mais densas produzem kernels com mais observações, enquanto que áreas menos densas podem comprometer o modelo ao produzirem amostras locais com muito poucos indivíduos. Áreas com grande variação na densidade de observações ao longo do espaço podem enviesar os modelos (FOTHERINGHAM; BRUNSDON; CHARLTON, 2002, p. 57). Se os pontos são regularmente espaçados, não há problema na adoção de um kernel fixo. Porém, em casos de diferença significativa de densidade de observações, podemos trabalhar com adaptive kernels, ou esquemas de ponderação adaptáveis, em que o número de vizinhos é fixo. Essa variação pode ser aplicada da seguinte forma: 126 wij = e Kernel Gaussiano: (adaptável) − 0 , 5 d ij h ( )2 , se g j é um dos (3.13) k vizinhos mais próximos de g i e h é a distância do k-ésimo vizinho mais próximo. wij = 0 , caso contrário wij = 1 − ( d ij Kernel Bi-square: (adaptável) ( 2 h2 ) ) 2 , se g j é um dos (3.14) k vizinhos mais próximos de g i e h é a distância do k-ésimo vizinho mais próximo. wij = 0 , caso contrário Uma questão importante para os modelos locais é determinar qual o tamanho das regiões “locais”. Em outras palavras, qual vizinhança devemos considerar no estudo local? Qual deve ser a largura de banda h, ou qual deve ser o número k ideal de vizinhos a se adotar? Se adotarmos larguras de banda muito grandes, a tendência é o modelo se aproximar da solução OLS, que não considera em essência a dependência espacial; se adotarmos kernels muito pequenos, a estimação dos parâmetros irá crescer sua dependência das observações mais próximas entre si, aumentando a variância global (FOTHERINGHAM; BRUNSDON; CHARLTON, 2002, p. 59). Estatisticamente e computacionalmente, essa é a parte mais complicada do GWR. Duas técnicas são mais comumente utilizadas para se obter a “melhor” largura de banda: minimização por validação cruzada, ou cross-validation (CV) (CLEVELAND, 1979; BOWMAN, 1984) e minimização do Akaike Information Criterion (AIC) (AKAIKE, 1974; FOTHERINGHAM; CHARLTON; BRUNSDON, 1997; HURVICH; SIMONOFF; TSAI, 1998). Suas formulações estão abaixo: n ˆ CV = ∑ [ yi − y ≠i ( h )] i =1 2 , (3.15) ˆ em que y i é o valor observado da variável dependente no ponto g i , y ≠i (h) é o valor estimado de y i em sua influência h com g i omitido do processo de calibração. CV é a soma do quadrado dos erros dessa estimação. 127  n + tr ( S )  ˆ AIC c = 2 n log e (σ ) + n log e ( 2π ) + n  n − 2 − tr ( S )     , (3.16) ˆ em que n é o tamanho total da amostra, σ é o desvio padrão estimado e tr ( S ) é o traço da hat matrix20 S , que é uma função da largura de banda. O AIC leva em consideração as diferenças em graus de liberdade dos modelos quando adotamos diferentes larguras de banda. O uso do AIC traz vantagens na busca de modelos mais ajustados, principalmente para amostras pequenas (FARBER; PÁEZ, 2007), mas deve ser evitada para volumes de dados muito grandes, por ser computacionalmente mais custoso (FOTHERINGHAM; BRUNSDON; CHARLTON, 2002; BRUNSDON, 2003). De qualquer forma, é recomendável a exploração de diversas larguras de banda e a investigação da significância estatística dos parâmetros estimados, à luz da literatura para o fenômeno estudado, para a adoção de um modelo como sendo o melhor (FOTHERINGHAM; BRUNSDON; CHARLTON, 2002; WHIGHAM; HAY, 2007). Um outro critério de escolha da largura de banda para GWR é o Bayesian Information Criterion (BIC), utilizado por Nakaya (2003), a partir de formulação de Schwartz (1978). Vários autores debatem as vantagens e desvantagens do AIC perante o BIC, propondo inclusive variações a ambos (BURNHAM; ANDERSON, 2002; RODRÍGUEZ, 2005). O critério BIC não está atualmente implementado nas ferramentas computacionais do GWR adotadas neste estudo e não foi utilizado. Muitos estudos utilizam a técnica GWR na exploração da relação entre variáveis no contexto das ciências sociais, economia, marketing e administração (OLIVEIRA, 2003; MITTAL; KAMAKURA; GOVIND, 2004; LU et al., 2006; HAY et al., 2007; CAHILL; MULLIGAN, 2007; BAGHERI; HOLT; BENWELL, 2009; FRANCISCO et al., 2009, entre outros). Oliveira (2003) utilizou a técnica para a estimação da renda mensal média dos chefes de família do município de São Paulo, em nível de setores censitários, a partir dos dados do Censo Demográfico 2000. 20 T T ˆ S é tal que y = Sy e cada linha da matriz S , ri ,é dada por ri = X i (X W ( g i ) X ) X W ( g i ) . −1 128 A técnica GWR será adotada na investigação territorial, em comparação à técnica SAR e mesmo ao modelo não espacial baseado em OLS neste estudo. Pela significativa diferença de densidade demográfica (e de domicílios) que o município de São Paulo apresenta em suas diferentes partes do território, notadamente com alta concentração nas regiões centrais (CÂMARA et al., 2004; FRANCISCO et al., 2009), adotaremos kernel adaptável gaussiano e bi-quadrado (conforme Equações 3.13 e 3.14) nos modelos GWR analisados. No contexto territorial, em que toda a área estudada está coberta, uma forma alternativa, ainda incipiente na literatura, é a implementação de um modelo espacial autoregressivo (SAR, conforme descrito no tópico 3.4.2) para cada amostra local definida conforme a largura de banda h ou número de vizinhos k a partir do CV ou AIC. Esta abordagem será especificada na metodologia adotada neste trabalho, no Capítulo 4. A GWR será adotada também na investigação domiciliar, em que a informação de localização espacial mais detalhada que se obtém (na Pesquisa ABRADEE) é o distrito em que a entrevista ocorreu. 129 4 METODOLOGIA E ESTRATÉGIAS DE PESQUISA Este capítulo divide-se em duas partes: investigação domiciliar e territorial. Retoma-se o modelo de dados que será utilizado, destacando a operacionalização das variáveis frente à natureza dos dados de cada universo considerado, e descrevendo as análises que serão realizadas. A primeira parte (investigação territorial) descreverá os microdados do Censo Demográfico 2000, seu período de observação, unidade de referência, operacionalização, questionário, variáveis e número de casos; e os dados de consumo de energia elétrica, suas principais definições, informações disponibilizadas, período de extração dos dados, granularidade e estatísticas utilizadas, análises realizadas e verificação das hipóteses. Em especial, a estratégia de agregação, integração e comparação entre os dois conjuntos de dados analisados e aplicação dos modelos de estatística espacial em nível territorial serão discutidas neste capítulo. A segunda parte (investigação domiciliar) descreverá a estrutura da Pesquisa ABRADEE, nas cinco rodadas anuais utilizadas neste estudo, destacando seu período de observação, unidade de referência, operacionalização, questionário, variáveis, número de casos, análises realizadas e verificação das hipóteses através dos modelos de estatística espacial. E apresentará detalhadamente os seis algoritmos de alocação de pontos nos polígonos dos distritos. 4.1 INVESTIGAÇÃO TERRITORIAL A investigação da relação entre Renda e Consumo de Energia Elétrica se dará, em nível territorial, a partir da manipulação dos microdados do Censo Demográfico do IBGE de 2000 e sua integração com informações de consumo de energia elétrica ao mesmo nível. Os dados de consumo de energia elétrica de cada cliente da AES Eletropaulo serão agregados no mesmo nível de granularidade disponibilizado nos microdados do censo, conforme estratégia de operacionalização descrita neste tópico. 130 4.1.1 MICRODADOS DO CENSO DEMOGRÁFICO 2000 DO IBGE As estatísticas oficiais constituem um elemento indispensável ao sistema de informação de uma sociedade democrática. Elas proporcionam ao Governo, à economia e ao público em geral dados acerca da situação econômica, demográfica, social e ambiental de sua população. São, por definição, produzidas por órgãos oficiais que se destinam ao conhecimento da realidade do país, e geram direitos e obrigações (BITTENCOURT, 2005). Com este fim, os organismos oficiais de estatística devem compilar e dar acesso de forma imparcial a estatísticas oficiais, de utilidade prática comprovada, para que os cidadãos possam exercer seu direito de se manterem informados. Os principais produtores de dados oficiais no Brasil são o Instituto Brasileiro de Geografia e Estatística (IBGE); o Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira (INEP), responsável pelo censo escolar e da educação superior; o Banco Central, responsável pelas estatísticas financeiras e de comércio exterior; e os Ministérios da Saúde, do Trabalho, da Previdência e da Justiça (BITTENCOURT, 2005). Destaca-se ainda a Fundação SEADE, um dos mais especializados centros nacionais de produção e disseminação de pesquisas, análises e estatísticas socioeconômicas e demográficas do Estado de São Paulo. O IBGE é o órgão oficial responsável pelas pesquisas censitárias, estatísticas sociodemográficas, econômicas, agropecuárias, de preços e por algumas pesquisas especiais no Brasil. Sua missão é “retratar o Brasil com informações necessárias ao conhecimento de sua realidade e ao exercício da cidadania” (BITTENCOURT, 2005, p. 10). Censos Demográficos ocorrem regularmente no mundo. Segundo a Organização das Nações Unidas, “um recenseamento de população pode ser definido como o conjunto das operações que consistem em recolher, agrupar e publicar dados demográficos, econômicos e sociais relativos a um momento determinado ou em certos períodos, a todos os habitantes de um país ou território” (ONU, 2008, p. 7, tradução nossa). Muitos países realizam censos demográficos decenalmente como EUA, China, Índia, Portugal, Espanha, Argentina, Chile, Grécia e Hong Kong. Outros o fazem a cada cinco anos, como Japão, México, Canadá, Austrália e Nova Zelândia. A França publica seus 131 resultados censitários anualmente, com a adoção em 2004 de um processo contínuo de censo parcial, cuja renovação completa do levantamento se dá após cinco rodadas anuais. Já a Alemanha implantou levantamentos amostrais ao invés de censitários desde o último censo de 1987 (ONU, 2010). O Censo Demográfico brasileiro ocorre desde 189021, e decenalmente desde 194022. Seu pioneirismo mantém o país com um excelente retrospecto de levantamentos regulares e inovadores. Conforme determinado por lei23, suas informações são confidenciais e obrigatórias, destinam-se exclusivamente a fins estatísticos e não podem ser utilizadas como objeto jurídico de prova (IBGE, 2002). A coleta do Censo Demográfico 2000 foi realizada no período de 1º de Agosto a 30 de Novembro de 2000. Foram pesquisados 54.265.618 domicílios, nos 5.507 municípios existentes em 2000, de todo o território nacional, tendo mobilizado mais de 200 mil pessoas (IBGE, 2002). Destina-se a dois propósitos, que se traduzem operacionalmente em duas unidades de investigação: (i) domiciliar – conta e levanta informações sobre todos os domicílios do país, e (ii) populacional – conta e levanta informações de toda a população que vive em domicílios. Para o planejamento do censo, o território nacional foi dividido em 215.811 áreas contíguas, respeitando-se os limites da divisão político-administrativa, do quadro urbano e rural legal, de outras estruturas territoriais de interesse e de dimensão adequada para sua operação. Essa unidade territorial é denominada setor censitário (IBGE, 2002), e engloba de 200 a 300 domicílios. Setor censitário é a unidade territorial de coleta e de controle cadastral percorrida por um único recenseador. A operacionalização do Censo Demográfico 2000 reflete a realização, na verdade, de duas pesquisas: (i) a pesquisa do Universo, que levanta as características básicas da população, das pessoas responsáveis pelos domicílios e dos domicílios e seus respectivos moradores, para a totalidade da população, e (ii) a pesquisa da Amostra, mais extensa e complexa, aplicada em cerca de 11,7% dos domicílios particulares brasileiros, contendo, 21 22 23 A primeira contagem da população do Brasil foi realizada anteriormente, ainda durante o Império, em 1872. À exceção da década de 1990, quando o Censo Demográfico foi realizado em 1991. Lei nº 5.534, de 14 de Novembro de 1968 (IBGE, 2002). 132 adicionalmente ao questionário do Universo, perguntas mais detalhadas sobre características do domicílio e de seus moradores, referentes a educação, religião, cor ou raça, deficiência, migração, fecundidade, nupcialidade, trabalho e rendimento. As frações amostrais aplicadas (pesquisa da Amostra) dependem do tamanho populacional do município. Dessa forma, para os municípios com população estimada, em Julho de 2000, de até quinze mil habitantes, a cada 5 (cinco) domicílios recenseados, em 4 (quatro) é aplicado o Questionário Básico (Universo) e em 1 (um) o Questionário da Amostra – fração amostral de 20% dos domicílios; enquanto que para os municípios com população estimada acima de quinze mil habitantes, a cada 10 domicílios recenseados em 9 (nove) é aplicado o questionário Básico e em 1 (um) o Questionário da Amostra – fração amostral de 10% dos domicílios (IBGE, 2002). A pesquisa do Universo constrói uma série de indicadores demográficos e socioeconômicos básicos nos mais detalhados níveis geográficos, inclusive de setor censitário. Inclui: 10 quesitos de características do domicílio, 8 quesitos para a pessoa responsável do domicílio ou para o individual em domicílio coletivo e 5 quesitos para cada um dos demais moradores do domicílio, assim discriminados (IBGE, 2002): • Características do domicílio: espécie (se particular permanente, particular improvisado ou coletivo) e para o domicílio particular permanente: tipo, condição de ocupação do domicílio, condição de ocupação do terreno, forma de abastecimento de água, forma de canalização da água, número de banheiros, existência de sanitário, tipo de escoadouro do banheiro ou sanitário e destino do lixo; • Características do morador reconhecido como o responsável pelo domicílio ou do morador individual em domicílio coletivo (chefe do domicílio): sexo, se responsável pelo domicílio ou individual em domicílio coletivo, mês e ano de nascimento, idade em 31.07.2000, se sabe ler e escrever, curso mais elevado que freqüentou no qual concluiu pelo menos uma série, última série concluída com aprovação e rendimento bruto (do trabalho e de outras fontes) do mês de Julho de 2000; • Características de cada um dos demais moradores do domicílio: sexo, relação com o responsável pelo domicílio, mês e ano de nascimento, idade em 31 de Julho de 2000, se sabe ler e escrever. A pesquisa da Amostra, por sua vez, não é suficiente para propiciar significância estatística no detalhe geográfico do setor. A representatividade se dá para áreas de ponderação, que são unidades geográficas formadas por um agrupamento mutuamente exclusivo de setores censitários para a aplicação dos procedimentos de calibração das estimativas da Amostra com as informações conhecidas para a população como um todo (IBGE, 2002). 133 Os critérios de criação das áreas de ponderação para o Censo Demográfico 2000, segundo IBGE (2002), estão a seguir: 1. O maior nível geográfico utilizado é o município; isto significa que uma área de ponderação é composta por setores censitários dentro de um único município, podendo ser o próprio município; O menor tamanho de uma área de ponderação não municipal é de 400 domicílios particulares ocupados na amostra; Em alguns municípios as áreas de ponderação foram definidas considerando suas divisões administrativas, sempre respeitando o critério de tamanho mínimo; alguns municípios tiveram apenas 2 áreas definidas: uma considerando todos os setores do distrito-sede e outra considerando todos os setores dos demais distritos; em outros municípios, cujos distritos possuem tamanho que fere o critério de tamanho mínimo, também foram definidas duas áreas: uma constituída por todos os seus setores urbanos e outra por todos os seus setores rurais, mesmo que isso significasse setores não contíguos; Para um conjunto de municípios grandes em termos de população, foi feita uma consulta aos órgãos de planejamento municipal para que as áreas de ponderação fossem definidas em conjunto. Nesses municípios também foram considerados os critérios de tamanho mínimo e de contigüidade do conjunto de setores para a definição das áreas de ponderação; Os municípios que não se enquadram nas situações 1 a 4 acima tiveram suas áreas de ponderação definidas automaticamente, usando uma metodologia de agregação de setores implementada por meio de um sistema computacional que faz uso de informações georreferenciadas especialmente desenvolvido; essa metodologia considera os critérios de tamanho mínimo, vizinhança entre os setores e a homogeneidade dos setores em relação a um conjunto de características conhecidas para o universo no nível dos setores. Entre as 15 variáveis utilizadas constavam, por exemplo: rendimento médio dos responsáveis pelos domicílios no setor, número médio de pessoas por domicílio particular permanente, proporção de domicílios particulares permanentes ligados à rede geral de água, média de anos de estudo dos responsáveis por domicílios. 2. 3. 4. 5. (IBGE, 2002, p. 12) Apenas 484 municípios brasileiros contêm mais de uma área de ponderação. Os demais 5023, por definição, são sua própria área. O questionário da Amostra investiga 23 quesitos de características do domicílio e 66 quesitos de características dos moradores do domicílio. A aplicação desses 66 quesitos para cada pessoa depende da idade e do sexo, podendo ter saltos na aplicação - os quesitos de nupcialidade, trabalho e rendimento, por exemplo, só são aplicados para pessoas com 10 anos ou mais e os de fecundidade só para as mulheres de 10 anos ou mais. O Anexo B desta tese apresenta o questionário da Amostra completo. A descrição dos itens da pesquisa da Amostra está a seguir: 134 • Características do domicílio: espécie (se particular permanente, particular improvisado ou coletivo) e para o domicílio particular permanente: tipo, número de cômodos existentes no domicílio, número de cômodos que servem de dormitório para os moradores do domicílio, condição de ocupação do domicílio, condição de ocupação do terreno, forma de abastecimento de água utilizada no domicílio, forma de canalização da água, número de banheiros, existência de sanitário, tipo do escoadouro do banheiro ou sanitário, destino do lixo, existência de iluminação elétrica, existência dos bens duráveis: rádio, geladeira ou freezer, videocassete, máquina de lavar roupa, forno de microondas, linha telefônica instalada, microcomputador; e quantidade de televisores, automóveis para uso particular e aparelhos de ar condicionado; • Características de cada morador, por tema: o Dados gerais: sexo, relação com o responsável pelo domicílio, relação com o responsável pela família, número da família a que pertence, mês e ano de nascimento, idade em 31.07.2000, cor ou raça e religião ou culto; Deficiência: existência de deficiência mental permanente que limite as atividades habituais, avaliação da capacidade de enxergar, avaliação da capacidade de ouvir, avaliação da capacidade de caminhar/subir escadas, existência de algumas deficiências físicas (paralisia permanente total, paralisia permanente das pernas, paralisia permanente de um dos lados do corpo, falta de alguma das seguintes partes do corpo: perna, braço, mão, pé ou dedo polegar); Migração: se sempre morou no município, tempo de moradia sem interrupção no município, nascimento no município, nascimento na unidade da federação, nacionalidade, ano que fixou residência no Brasil, unidade da federação ou país de nascimento, tempo de residência na unidade da federação, unidade da federação ou país de residência anterior, onde residia há 5 anos, unidade da federação ou país de residência há 5 anos, município e unidade da federação ou país estrangeiro onde trabalha ou estuda; Educação: se sabe ler e escrever, alfabetização, se freqüenta escola ou creche (rede particular ou pública), curso que freqüenta, série que freqüenta, se não freqüenta escola mas já freqüentou: curso mais elevado que freqüentou no qual concluiu pelo menos uma série, última série concluída com aprovação, se concluiu o curso que estudou e espécie de curso mais elevado concluído (especificar se for superior: graduação mestrado ou doutorado); Nupcialidade (para as pessoas nascidas até 31.07.1990): se vive ou viveu em companhia de cônjuge ou companheiro, natureza da última união e estado civil; o o o o • Trabalho e rendimento: o Na semana de referência (de 23 a 29 de Julho de 2000): existência de trabalho remunerado, existência de trabalho remunerado do qual estava temporariamente afastado, existência de trabalho não remunerado em ajuda a conta-própria ou empregador (morador) ou como aprendiz ou estagiário, existência de trabalho não remunerado em ajuda a empregado (morador) em atividades de cultivo, extração vegetal, criação de animais, caça, pesca ou garimpo; existência de trabalho para o próprio consumo, número de trabalhos, ocupação principal, atividade principal, condição de ocupação principal, se empregado pelo regime jurídico dos funcionários públicos ou militares, número de empregados (só para empregadores), contribuinte para Instituto de Previdência, rendimento bruto do mês de Julho de 2000 no trabalho principal, nos demais trabalhos, horas trabalhadas habitualmente por semana no trabalho principal e nos demais trabalhos; No último mês (Julho de 2000): se procurou trabalho, se aposentado de Instituto de Previdência Oficial, se possuía rendimentos provenientes de: aposentadoria, pensão; aluguel; pensão alimentícia, mesada, doação recebida de não morador; renda mínima / bolsa-escola, seguro-desemprego; e outros; o • Fecundidade: número de filhos nascidos vivos até 31.07.2000 (por sexo), número de filhos nascidos vivos que continuam vivos em 31.07.2000 (por sexo), sexo do último filho nascido vivo até 31.07.2000, mês e ano de nascimento (ou idade presumida) do último filho nascido vivo até 31.07.2000, se o último filho nascido vivo estava vivo em 31.07.2000 e número de filhos nascidos mortos até 31.07.2000. 135 Os Quadros 4.1 e 4.2 trazem as variáveis dos bancos de dados de Pessoas e de Domicílios utilizadas para este estudo. Variável V0104 V0105 AREAP V1005 V1006 V1007 V0300 V0201 V0202 V7100 V0203 V0204 V0209 V0210 V0213 V0214 V0215 V0216 V0217 V0218 V0219 V0220 V0221 V0222 V0223 V7616 V7617 P001 Descrição Distrito Subdistrito Código da Área de Ponderação Situação do Setor Censitário Situação do Domicílio Tipo do Setor Censitário Código do Domicílio Espécie do Domicílio Tipo do Domicílio Número de Moradores Número de cômodos Número de cômodos como dormitório Número de Banheiros Existência de Sanitário Existência de Iluminação Elétrica Existência de Rádio Existência de Geladeira ou freezer Existência de Videocassete Existência de Máquina de Lavar roupa Existência de Forno de microondas Existência de Linha telefônica instalada Existência de microcomputador Número de Televisores Número de Automóveis para uso particular Número de Aparelhos de ar-condicionado Rendimento mensal domiciliar Rendimento mensal domiciliar em salários mínimos Peso atribuído ao domicílio Quadro 4.1: Variáveis de Domicílio da base de Microdados do Censo Demográfico 2000 utilizadas Fonte: elaboração própria, a partir de IBGE, 2002. 136 Variável V0104 V0105 V0300 V0400 AREAP V1005 V1006 V1007 V0402 V0428 V0429 V0430 V0431 V0432 V0433 V0434 V4355 V4300 V0436 V0438 V4511 V4513 V4514 V4521 V4523 V4524 V4525 V4526 V4573 V4583 V4593 V4603 V4613 V4614 V4615 P001 Descrição Distrito Subdistrito Código do Domicílio Número de ordem da pessoa recenseada Código da Área de ponderação Situação do Setor Censitário Situação do Domicílio Tipo do Setor Censitário Relação da pessoa com responsável pelo domicílio Sabe ler ou escrever Freqüenta escola ou creche Curso que freqüenta Sério que freqüenta Curso mais elevado que freqüentou, concluindo pelo menos uma série Última série concluída com aprovação Concluiu o curso no qual estudou Código do curso mais elevado concluído Anos de estudo Vive em companhia de cônjuge ou companheiro(a) Estado civil Não tem rendimento no trabalho principal Total de rendimentos no trabalho principal Total de rendimentos no trabalho principal, em salários mínimos Não tem rendimento nos demais trabalhos Total de rendimentos nos demais trabalhos Total de rendimentos nos demais trabalhos, em salários mínimos Total de rendimentos em todos os trabalhos Total de rendimentos em todos os trabalhos, em salários mínimos Rendimento de aposentadoria ou pensão Rendimento de aluguel Rendimento de pensão alimentícia, mesada, doação Rendimento renda mínima, bolsa escola, seguro desemprego Outros rendimentos Total de rendimentos Total de rendimentos, em salários mínimos Peso atribuído à pessoa Quadro 4.2: Variáveis de Pessoas da base de Microdados do Censo Demográfico 2000 utilizadas Fonte: elaboração própria, a partir de IBGE, 2002. O relacionamento entre esses dois conjuntos de dados (Domicílios e Pessoas) se dá a partir do código do domicílio (variável V0300). A variável V0402 traz a relação da pessoa recenseada com o responsável pelo domicílio. Sua discriminação em 20 classes está descrita no tópico 2.1. 137 As variáveis V1005 e V1007 trazem a classificação do setor censitário em que está localizado o domicílio entrevistado em Situação e Tipo. Situação descreve a área geográfica do setor, e o Tipo descreve a natureza dos domicílios que compõem um setor (IBGE, 2002). Suas classes estão abaixo: Situação do Setor: 1 – Área urbanizada de vila ou cidade; 2 – Área não urbanizada de vila ou cidade; 3 – Área urbanizada isolada; 4 – Rural – extensão urbana; 5 – Rural – povoado; 6 – Rural – núcleo; 7 – Rural – outros aglomerados; e 8 – Rural – exclusive os aglomerados rurais. Tipo do Setor: 0 – Não especial (setor comum, sem características especiais); 1 – Aglomerado subnormal (favelas e assemelhados); 2 – Quartel; 3 – Alojamento; 4 – Embarcação; 5 – Aldeia indígena; 6 – Penitenciária; e 7 – Asilo. Para este estudo, trabalharemos com o tipo do setor, discriminado como: Não especial, Aglomerado subnormal e Outros. A discriminação por situação não será analisada, uma vez que tal condição não determina ou inibe a localização de domicílios residenciais. Vale destacar que, apesar de estarem disponíveis tais características dos setores censitários, os dados não permitem uma associação direta do domicílio ou pessoa amostrada com o setor a que pertence, e sim apenas à sua área de ponderação (a partir da variável AREAP), conforme já mencionado. Os domicílios classificam-se quanto à sua Situação (V1006) (basicamente Urbano ou Rural), Espécie (V0201) e Tipo (V0202) (basicamente Casa, Apartamento ou Cômodo). A Espécie categoriza os domicílios em: 1 – Particular permanente, 2 – Particular improvisado, e 3 – Coletivo. Notadamente, muitas informações coletadas pelo censo só se referem a domicílios particulares permanentes, como é o caso da composição da renda e dos itens de posse de bens do domicílio, analisados no presente estudo. O Brasil foi dividido, conforme exposto, em 215.811 setores censitários, abrangendo a pesquisa de 54.265.218 domicílios nos 5.507 municípios brasileiros existentes em 2000 (IBGE, 2002). O agrupamento desse total de setores originou 9.336 áreas de ponderação em todo o território nacional. A data de referência do Censo Demográfico 2000 é 31 de Julho de 2000. O levantamento do número de moradores e das informações de cada um deles é feita referente a essa data. Isso significa que novos moradores, nascidos ou mudados para o domicílio 138 posterior a essa data não são considerados. Além disso, as informações de rendimentos mensais referem-se ao ocorrido efetivamente no mês de Julho de 2000. O município de São Paulo é dividido em 96 distritos. Distrito é uma divisão territorial e administrativa em que certa autoridade administrativa, judicial ou fiscal exerce sua jurisdição (SEADE, 2005a). Em São Paulo, as áreas de ponderação foram definidas respeitando a divisão administrativa em distritos, e utilizando metodologia de agregação de setores implementada por meio de um sistema computacional que faz uso de informações georreferenciadas especialmente desenvolvido. No total, referente ao Censo Demográfico 2000, o município de São Paulo está dividido em 13.278 setores censitários e em 456 áreas de ponderação (IBGE, 2002). A Figura 4.1 e a Tabela 4.1 a seguir apresentam a subdivisão do município de São Paulo em distritos, áreas de ponderação e setores censitários. São Paulo 96 Distritos 456 Áreas de Ponderação São Paulo Obs: Cores dos polígonos diferenciam as Áreas de Ponderação Distritos Setores Censitários Figura 4.1: Subdivisão do Município de São Paulo em Distritos, Áreas de Ponderação e Setores Censitários Fonte: elaboração própria, com utilização da ferramenta ArcView® GIS 3.2. 139 Tabela 4.1: Quantidade de Áreas de Ponderação e Setores Censitários do Censo Demográfico 2000 por Distrito do município de São Paulo (continua) Código Distrito 355030801 355030802 355030803 355030804 355030805 355030806 355030807 355030808 355030809 355030810 355030811 355030812 355030813 355030814 355030815 355030816 355030817 355030818 355030819 355030820 355030821 355030822 355030823 355030824 355030825 355030826 355030827 355030828 355030829 355030830 355030831 355030833 355030834 355030835 355030836 355030837 355030838 355030839 355030840 355030841 355030842 355030843 355030844 355030845 355030846 355030847 355030896 355030848 355030849 355030850 355030851 355030852 355030832 355030853 355030854 355030855 355030856 355030857 355030858 355030859 355030860 355030861 Nome Distrito Água Rasa Alto de Pinheiros Anhanguera Aricanduva Artur Alvim Barra Funda Bela Vista Belém Bom Retiro Brás Brasilândia Butantã Cachoeirinha Cambuci Campo Belo Campo Grande Campo Limpo Cangaíba Capão Redondo Carrão Casa Verde Cidade Ademar Cidade Dutra Cidade Líder Cidade Tiradentes Consolação Cursino Ermelino Matarazzo Freguesia do Ó Grajaú Guaianazes Iguatemi Ipiranga Itaim Bibi Itaim Paulista Itaquera Jabaquara Jaçanã Jaguara Jaguaré Jaraguá Jardim Ângela Jardim Helena Jardim Paulista Jardim São Luís José Bonifácio Lajeado Lapa Liberdade Limão Mandaqui Marsilac Moema Moóca Morumbi Parelheiros Pari Parque do Carmo Pedreira Penha Perdizes Perus Número de Áreas de Ponderação 5 2 1 5 4 1 4 2 2 1 10 2 6 1 3 4 8 6 10 4 5 9 9 6 7 4 5 4 7 9 4 3 5 5 8 8 9 4 1 2 4 10 5 5 11 4 6 3 4 4 5 1 5 3 2 1 1 3 5 5 7 4 Número de Setores Censitários 122 66 36 113 139 22 134 60 42 41 228 72 157 48 99 101 185 153 216 111 106 281 216 130 245 109 142 143 162 339 122 130 141 153 267 261 278 117 29 48 151 275 174 171 298 156 187 103 109 95 130 17 137 98 52 124 21 77 135 166 140 80 140 Tabela 4.1: Quantidade de Áreas de Ponderação e Setores Censitários do Censo Demográfico 2000 por Distrito do município de São Paulo (conclusão) Código Distrito 355030862 355030863 355030864 355030865 355030866 355030867 355030868 355030869 355030870 355030871 355030895 355030872 355030873 355030874 355030875 355030876 355030877 355030878 355030879 355030880 355030881 355030882 355030883 355030884 355030885 355030886 355030887 355030888 355030889 355030890 355030891 355030892 355030893 355030894 Nome Distrito Pinheiros Pirituba Ponte Rasa Raposo Tavares República Rio Pequeno Sacomã Santa Cecília Santana Santo Amaro São Domingos São Lucas São Mateus São Miguel São Rafael Sapopemba Saúde Sé Socorro Tatuapé Tremembé Tucuruvi Vila Andrade Vila Curuçá Vila Formosa Vila Guilherme Vila Jacuí Vila Leopoldina Vila Maria Vila Mariana Vila Matilde Vila Medeiros Vila Prudente Vila Sônia Número de Áreas de Ponderação 3 7 5 4 3 5 8 4 6 3 3 6 6 5 5 11 6 1 2 4 7 5 3 6 4 2 7 1 5 6 5 6 5 4 Número de Setores Censitários 122 175 140 98 115 115 277 126 169 93 84 177 200 135 165 324 180 40 47 127 209 140 74 177 122 66 184 38 147 215 130 163 140 104 Total Fonte: elaboração própria. 456 13.278 As informações referentes à pesquisa do Universo são disponibilizadas pelo IBGE em formato digital de banco de dados. A menor unidade de referência disponível é o setor censitário. Os dados são oferecidos por município, estado ou região do Brasil. São disponibilizadas estatísticas referentes a todos os assuntos investigados na Pesquisa do Universo. Com relação a rendimentos, objeto deste estudo, temos apenas a renda do chefe do domicílio nesse nível de agregação, conforme já exposto. As informações referentes à pesquisa da Amostra são disponibilizadas pelo IBGE no produto denominado “Microdados do Censo Demográfico 2000”, também oferecido por município, estado ou região. Cada unidade de referência é um domicílio entrevistado, e os 141 arquivos de microdados permitem sua agregação por área de ponderação, subdistrito ou distrito. Os dados apresentam, em arquivos separados, as informações de Domicílio e de Pessoas. No município de São Paulo foram visitados, para a pesquisa da Amostra, 303.669 domicílios, que representam o universo de 3.032.905. A base dos microdados do município de São Paulo apresenta, pois, 303.669 registros de domicílios. Foram obtidas informações de 1.057.086 pessoas, que representam o universo de 10.414.207 à época. As estratégias de composição das diversas modalidades de renda associadas ao domicílio serão descritas a seguir, bem como o cômputo da pontuação de classe econômica a partir dos dados disponíveis. 4.1.2 COMPOSIÇÃO DA RENDA E CÁLCULO DO CRITÉRIO BRASIL ADAPTADO A partir desse vasto conjunto de informações dos microdados da pesquisa da Amostra do Censo Demográfico 2000 para o município de São Paulo, o cálculo da renda associada ao domicílio é feito a partir dos totais de rendimentos individuais dos moradores do domicílio, disponíveis na base de dados de Pessoas, a saber: rendimentos no trabalho principal, nos demais trabalhos, de aposentadoria ou pensão, de aluguel, de pensão alimentícia, mesada ou doação, de renda mínima, bolsa escola ou seguro desemprego, de outras fontes (variáveis V4511 a V4613 no Quadro 3.5). Essas rendas complementam, em nível domiciliar, a informação de rendimento mensal (V7616 e V7617) da base de dados de Domicílio. Para este trabalho, serão computadas as seguintes modalidades de renda: Renda proveniente do Trabalho principal (V4513), Renda proveniente de Trabalho (principal e demais trabalhos) (V4525), Renda proveniente de outras fontes (soma de V4573, V4583, V4593, V4603 e V4613) e Renda total (V4614). A agregação dessas rendas para o nível domiciliar se dará de duas formas: para a Família e para todos os moradores do domicílio. Conforme exposto no Capítulo 2, para o IBGE, as pessoas cuja relação com o responsável pelo domicílio seja do tipo Pensionista, 142 Empregado Doméstico ou Parente do Empregado Doméstico não são consideradas membros do domicílio. O rendimento mensal domiciliar (V7616) da base de Domicílios é calculado segundo essa definição. Julgamos que tais membros excluídos do domicílio contribuem efetivamente com o mesmo, usufruindo de seus bens, consumindo suas facilidades e, por conseguinte, consumindo parte da energia elétrica ofertada. Dessa forma, estenderemos a agregação das rendas individuais para essas categorias de pessoas, culminando, pois, no cômputo das seguintes quatro modalidades de renda: (i) Renda Trabalho Família: soma dos valores dos rendimentos nominais mensais provenientes de trabalho dos moradores do domicílio, exclusive das pessoas consideradas na condição do domicílio como pensionistas, empregados domésticos e parentes dos empregados domésticos; (ii) Renda Total Família: soma dos valores dos rendimentos nominais mensais dos moradores do domicílio, exclusive das pessoas consideradas na condição do domicílio como pensionistas, empregados domésticos e parentes dos empregados domésticos; (iii) Renda Trabalho Domicílio: soma dos valores dos rendimentos nominais mensais provenientes de trabalho de todos os moradores do domicílio; e (iv) Renda Total Domicílio: soma dos valores dos rendimentos nominais mensais de todos os moradores do domicílio. Denominamos de “Família” o conjunto dos membros do domicílio que contribuem para a composição da renda domiciliar segundo os critérios do IBGE, que não inclui Pensionista, Empregado Doméstico e Parente do Empregado Doméstico, conforme detalhado no tópico 2.1. A denominação “Domicílio” foi estendida, pois, para todas as pessoas recenseadas do domicílio, incluindo, assim, Pensionistas, Empregados Domésticos e Parentes dos Empregados. Assim, a variável V7616 da base de dados de Domicílio corresponde à Renda Total Família, conforme exposto. Este estudo considerará o Critério Brasil Adaptado, definido em estudos anteriores (FRANCISCO, 2006), composto de um sistema de pontuação adaptado para que possamos computar uma classificação econômica a partir dos dados do Censo Demográfico 2000. Os questionários do censo (versões do Universo e da Amostra) não coletam todos os itens necessários para o cômputo do Critério Brasil (conforme descrito no tópico 2.4). Por isso, foram realizadas as adaptações destacadas no Quadro 4.3. 143 Critério Brasil Adaptado (CBA) Critério Brasil (original de 2000) Quadro 4.3: Sistema de Pontos de Posse de Bens Duráveis do Critério Brasil Adaptado e do Critério Brasil Fonte: elaboração própria. Nota: As adaptações estão destacadas em vermelho. A escala de pontos do Critério Brasil pode variar de 0 (zero) a 34 (trinta e quatro) pontos. A escala de pontos do Critério Brasil Adaptado (CBA) aqui utilizado pode variar de 0 (zero) a 29 (vinte e nove) pontos. Com o Critério Brasil Adaptado, podemos associar uma medida de pontuação de classe econômica aos domicílios levantados na pesquisa da Amostra do Censo Demográfico 2000 e agregá-la às áreas de ponderação. Foram computadas a média e a mediana da pontuação do CBA por área de ponderação. A mediana é uma medida menos influenciada por valores extremos atípicos da distribuição do que a média (BUSSAB; MORETTIN, 2003). 4.1.3 DADOS DE CONSUMO DE ENERGIA ELÉTRICA DA AES ELETROPAULO As grandes concessionárias de distribuição de energia elétrica, em especial a AES Eletropaulo, possuem um cadastro de seus clientes totalmente georreferenciado (FRANCISCO, 2002). A localização do medidor de energia elétrica que alimenta esses clientes é armazenada nos sistemas técnicos das distribuidoras, suportados, em geral, por Sistemas de Informação Geográfica. Todos os clientes da concessionária estão, pois, localizados no espaço geográfico, associados a um dispositivo ou ativo elétrico (poste, transformador) e a um circuito alimentador. 144 Todos os pontos que recebem energia elétrica no território nacional estão cadastrados e são servidos por uma distribuidora de energia elétrica. Essa distribuição é territorial e, a menos dos autoprodutores de energia elétrica24, dos produtores independentes25 e dos clientes livres26, todos os domicílios e pontos de recebimento de energia elétrica que estão no território de uma concessionária são clientes dela. A menor divisão administrativa sob gestão de uma distribuidora de energia elétrica é o município. O município de São Paulo faz parte da área de concessão da AES Eletropaulo, que é uma das maiores empresas de distribuição de energia elétrica da América Latina e atende à parcela populacional com maior poder aquisitivo do Brasil. A AES Eletropaulo distribui energia elétrica em 24 municípios da Região Metropolitana de São Paulo (RMSP), conforme Figura 4.2. Nesta área (de apenas 4.526 km2), a empresa fornece energia para mais de 16,1 milhões de pessoas, concentradas em 5,8 milhões de unidades consumidoras, das quais 5,4 milhões são residenciais. No principal centro econômico do Brasil, que responde por 14% do PIB nacional (AES..., 2009), o consumo anual aproximado, em 2008, foi de 41,4 mil gigawatts-hora de energia (SÃO PAULO, 2009). Cada cliente da concessionária de energia elétrica pertence a uma das seguintes classes: residencial, comercial, industrial, rural, poder público, serviços públicos, iluminação pública e consumo próprio (AES..., 2004, 2005a). Corresponde a um medidor de energia, ou relógio de luz, cujo consumo é faturado mensalmente através de uma conta de energia elétrica, normalmente entregue mensalmente (FRANCISCO, 2004). Cada cliente residencial corresponde, em linhas gerais, a um domicílio residencial. Para cada cliente existem informações históricas do consumo mensal de energia, do faturamento (total e discriminado nas parcelas referentes à energia consumida e impostos, data de vencimento da fatura e período correspondente de leitura), além de informações de arrecadação (valor pago, data de pagamento, modalidade de pagamento) e de todo o ciclo comercial desse cliente (por exemplo, data de ligação, datas de inspeções realizadas etc), e informações técnicas (circuito 24 “Pessoa física ou jurídica ou empresas reunidas em consórcio que recebam concessão ou autorização para produzir energia elétrica destinada ao seu uso exclusivo” (BRASIL, 1996, p. 1). “Pessoa jurídica ou empresas em consórcio que recebam concessão ou autorização para produzir energia elétrica destinada ao comércio de toda ou parte da energia produzida por sua conta e risco” (BRASIL, 1996, p.1). Condição para clientes com alto consumo e demanda de energia elétrica, que podem optar pela compra de energia elétrica junto a qualquer fornecedor (distribuidor ou comercializador de energia) (ANEEL, 2000, p. 4). 25 26 145 alimentador, carga declarada, número e duração de interrupções de energia elétrica ocorridos por mês etc). Brasil Estado de São Paulo RMSP Estado de São Paulo Região Metropolitana de São Paulo Área de Concessão da AES Eletropaulo 1 2 3 4 5 6 7 8 9 10 11 12 São Paulo Pirapora do Bom Jesus Cajamar Santana de Parnaíba Itapevi Barueri Jandira Carapicuíba Osasco Vargem Grande Paulista Cotia Embu 13 14 15 16 17 18 19 20 21 22 23 24 Taboão da Serra Itapecerica da Serra São Lourenço da Serra Embu-Guaçu Juquitiba Diadema São Bernardo do Campo São Caetano do Sul Santo André Mauá Ribeirão Pires Rio Grande da Serra Figura 4.2: Descrição dos Municípios da Área de Concessão da AES Eletropaulo Fonte: elaboração própria, com utilização da ferramenta ArcView® GIS 3.2. 146 Para a AES Eletropaulo, com relação à base de clientes residenciais de 2000, o que está localizado geograficamente é o medidor de energia, associado univocamente à identificação do “número do cliente”. Uma vez localizado e cadastrado (no momento em que esse medidor passa a ser um ativo elétrico em uso pela empresa), ele não modifica mais sua posição. A família que habita o domicílio a que ele está vinculado pode mudar (quando ocorre transferência de titularidade, por exemplo), mas o número do cliente não muda. Dessa forma, é possível realizarmos uma análise histórica da quantidade e perfil das diversas famílias que habitaram um determinado domicílio. Em suma, o número do cliente identifica o medidor de energia, e não diretamente a família que o habita. Uma vez desligado o medidor (por opção do titular da conta, ou por falta de pagamento) sua situação muda para “Desligado”. Os clientes em situação “Ligado Direto” ou “Desligado sem Medidor” apresentam também uma localização geográfica. Os “Ligados Direto” não têm, ainda, a medição de seu consumo mensal diretamente faturado; seu consumo é previamente acordado (avença). Vale destacar que a coordenada espacial que efetivamente está armazenada nos Sistemas de Informação Geográfica da AES Eletropaulo é a coordenada do ativo elétrico mais próximo do medidor de energia. Comumente é o poste ou o transformador. Este fica tipicamente situado do lado de fora da casa, geralmente próximo ao logradouro. Este pode situar-se, em alguns casos, do outro lado da rua de endereço do cliente. Essas considerações serão levadas em conta durante a análise e discussão dos resultados. Para a comparação com os dados do Censo Demográfico 2000, que apresentam data de referência de 31 de Julho de 2000, foram extraídas informações referentes a todos os clientes residenciais (medidores de energia elétrica) do município de São Paulo da AES Eletropaulo que tiveram algum consumo de energia elétrica faturado no período de Setembro de 1999 a Agosto de 2000. A opção por esse intervalo em detrimento ao intervalo de Agosto de 1999 a Julho de 2000 é devida à defasagem de um mês que existe entre o período de consumo e o período de faturamento no ciclo comercial das distribuidoras de energia elétrica. O valor de consumo faturado em Agosto de 2000, por exemplo, corresponde ao que foi efetivamente consumido em Julho de 2000. Nesses termos, as informações censitárias de rendimento, referentes a Julho de 2000, podem ser associadas ao consumo de energia elétrica realmente ocorrido em Julho de 2000 ou sua média móvel de doze meses até esse período. 147 As informações levantadas da AES Eletropaulo referentes a consumo de energia elétrica para cada cliente foram: (i) Consumo (em kWh) em Agosto de 2000, e (ii) Consumo Médio mensal (em kWh) de Setembro de 1999 a Agosto de 2000. Os valores de valor de conta de energia elétrica (em reais) não estavam disponíveis para o período. Caso o medidor de energia elétrica tenha passado a existir nos sistemas comerciais da AES Eletropaulo em data posterior a Setembro de 1999, foi considerado o consumo médio no intervalo do mês de sua incorporação até Agosto de 2000, inclusive. A Opção de Faturamento dos clientes foi incorporada à extração de informações. Trata-se da indicação de faturamento do cliente, discriminado, para o contexto deste trabalho, em: normal, ou beneficiado pela Tarifa Baixa Renda (pelo consumo baixo, por estar situado em área de regularização, ou em algumas situações especiais de domicílios multi-familiares ou conjuntos habitacionais). 4.1.4 MANIPULAÇÃO, ENRIQUECIMENTO E CRUZAMENTO DAS INFORMAÇÕES As áreas de ponderação do Censo Demográfico 2000 são descritas, localizadas espacialmente e fornecidas pelo IBGE em formato de arquivo manipulável por ferramentas GIS. Dessa forma, conseguimos visualizar e analisar espacialmente os 456 polígonos das áreas de ponderação do município de São Paulo. Por meio da localização geográfica do medidor de energia elétrica, associaremos a cada cliente da AES Eletropaulo o código da área de ponderação que o contém. As ferramentas GIS (Sistemas de Informação Geográfica) possibilitam essa identificação e a associação das informações da entidade continente (polígono do IBGE) à entidade conteúdo (ponto que representa a localização do cliente), através de algoritmos de junção espacial (ESRI, 2002). Em seguida, estabeleceremos sumarizações dos indicadores elétricos dos clientes para cada área de ponderação. Computaremos, tipicamente, o consumo residencial médio mensal de Agosto de 2000 e a média do consumo residencial médio mensal de até 12 meses de todos os consumidores residenciais de cada área de ponderação. Adicionalmente, calcularemos o número de ligações residenciais ativas de energia elétrica em Agosto de 2000. 148 Nesses termos, teremos condições de analisar conjuntamente, para as áreas de ponderação, as diversas modalidades de renda média, a pontuação média e mediana do Critério Brasil e os diversos consumos médios de energia elétrica. O Esquema 4.1 apresenta a estratégia de junção espacial das informações de Renda e Pontuação do CBA médias com as de Consumo de Energia Elétrica Residencial deste estudo. 4.1.5 APLICAÇÃO DAS TÉCNICAS DE ESTATÍSTICA ESPACIAL Uma vez disponibilizadas as informações das variáveis nas áreas de ponderação (conforme descrito anteriormente neste tópico 4.1), a verificação das hipóteses em análise neste estudo se dará através de técnicas de estatística espacial. As hipóteses H2 e H3, que investigam a existência de padrões de dependência espacial das variáveis Renda Domiciliar e Consumo de Energia Elétrica Residencial, serão verificadas através do índice auto-correlação espacial global I de Moran e da análise dos índices de auto-correlação espacial local (através da confecção de LISA maps). A hipótese H1, que investiga a relação entre Renda e Consumo de Energia, será avaliada através de modelos de regressão da Renda a partir do Consumo. A influência da geografia neste fenômeno (intrínseca à natureza dos construtos em avaliação, que terá sido testada em H2 e H3) será incorporada através de modelos de regressão espacial, descritos no Capítulo 3, que envolvem o estabelecimento de matrizes de vizinhança (ou proximidade), baseadas em adjacência ou em distância. Diversos tipos serão testados, a saber: número fixo k de vizinhos (com ponderação gaussiana ou bi-square no caso da aplicação de GWR) e adjacências de primeira, de segunda e de terceira ordens27. 27 A vizinhança de primeira ordem é a adjacência direta (considerando adjacentes polígonos que tem apenas um ponto [Rook] ou uma parte de uma aresta [Queen] em comum). Vizinhança de segunda ordem incorpora os vizinhos dos vizinhos, e a de terceira ordem um terceiro nível, e assim por diante, conforme ilustra a figura: 1a Ordem 2a Ordem 3a Ordem ... 149 Cliente Residenciais AES Eletropaulo Consumo de Energia Elétrica por Cliente Sobreposição geográfica, Junção espacial e Sumarização Associação da Área de Ponderação aos Clientes AES Eletropaulo e Cálculo do Consumo Médio de Energia Elétrica por Área de Ponderação Área de Ponderação Renda Domiciliar Média e Classe Econômica Brasil (pontuação média) Renda Domiciliar Média, Classe Econômica Brasil (pontuação média), e Consumo de Energia Elétrica Residencial Médio Área de Ponderação Esquema 4.1: Estratégia de Associação das Informações do Censo Demográfico 2000 com Dados de Consumo de Energia Elétrica Fonte: elaboração própria, com utilização da ferramenta ArcView® GIS 3.2. 150 A partir dessas matrizes de vizinhança, serão testados modelos de regressão espacial SAR e GWR, além do modelo básico, inicial, de regressão linear simples (OLS). Esses modelos espaciais, quando aplicados sobre uma base de polígonos, exigem continuidade na cobertura do espaço. Nesses termos, a existência de outliers, ou pontos extremos, não determinará a retirada desse indivíduo da amostra, para que se evite a formação de “buracos” (polígonos faltantes) na área estudada. Além dos modelos espaciais tradicionais, será implementada uma aplicação combinada das técnicas GWR e SAR. A combinação não é própria, uma vez que os modelos são intrinsecamente diferentes (local e global, respectivamente). Porém, essa aplicação utilizará o princípio da GWR (realização de n regressões, cada qual com sua amostra local para a estimação da variável dependente no polígono [área de ponderação] g i ), e o termo espacial auto-regressivo em cada amostra local, próprio da técnica SAR em seu Spatial Lagged Auto-regressive model. A formulação dessa técnica mista adotada está a seguir: y ( g ) = ρ ( g )W ( g ) y ( g ) + X ( g ) β ( g ) + ε , (4.1) onde g indica um vetor dos n polígonos, no espaço bidimensional, W ( g ) é a matriz de proximidade espacial (conforme discutido no tópico 3.4.1 e apresentada na Equação 3.7), específica para cada polígono g i do vetor g, o produto W ( g ) y ( g ) expressa a dependência espacial em y na amostra local de cada g i e ρ ( g ) é o coeficiente espacial do termo autoregressivo na amostra local do polígono g i . O conjunto de variáveis independentes X tem contribuição específica β em cada amostra local do vetor g (por isso é X ( g ) β ( g ) ), que é, por sinal, não espacial. O termo de erro ε mantém seus pressupostos conforme a Equação 3.2 (independência e ε ~ N (0, σ 2 I ) ) para cada amostra local. Esse modelo, criado originalmente neste estudo, é oportunamente denominado de GWR “global” com SAR “local”, ou simplesmente GWR+SAR. A amostra local adotada para cada polígono pode ser determinada por adjacência, distância ou fixando-se um número k de vizinhos – nos últimos dois casos, utilizando a minimização do AIC ou CV para determiná-la otimamente (FOTHERINGHAM; BRUNSDON; CHARLTON, 2002). 151 A Figura 4.3 ilustra as diferenças dos modelos que serão aplicados na Investigação Territorial, e o Apêndice A apresenta o código dessa implementação em ferramenta estatística R 2.9.1 (R DEVELOPMENT CORE TEAM, 2009). OLS SAR GWR GWR+SAR OLS: y = Xβ + ε SAR: y = ρWy + Xβ + ε GWR: y ( g ) = GWR+SAR: x : Consumo de Energia Elétrica Residencial β 0 ( g ) + β1 ( g ) x1 + β 2 ( g ) x2 + K + β p ( g ) x p + ε y ( g ) = ρ ( g )W ( g ) y ( g ) + X ( g ) β ( g ) + ε y : Renda Domiciliar Figura 4.3: Diferenças entre os Modelos de Regressão Linear OLS, SAR, GWR e GWR+SAR Fonte: elaboração própria, com utilização da ferramenta ArcView® GIS 3.2. As seguintes regressões serão aplicadas: 1 OLS – Regressão Linear Simples 2 GWR com kernel adaptável (k vizinhos) gaussiano a partir de minimização do AIC – k Gauss 3 GWR com kernel adaptável (k vizinhos) bi-square a partir de minimização do AIC – k Bi − square 4 5 6 7 8 9 SAR com matriz de adjacência de 1ª ordem SAR com matriz de adjacência de 2ª ordem SAR com matriz de adjacência de 3ª ordem SAR com matriz de adjacência do tipo Relative Neighbor SAR com matriz de adjacência do tipo Gabriel’s Graph SAR com matriz de adjacência do tipo Sphere of Influence 10 SAR com matriz de proximidade com k Gauss vizinhos 11 SAR com matriz de proximidade com k Bi − square vizinhos 12 GWR+SAR com matriz de adjacência local de 1ª ordem 13 GWR+SAR com matriz de adjacência local de 2ª ordem 14 GWR+SAR com matriz de adjacência local de 3ª ordem 15 GWR+SAR com matriz de proximidade com k Gauss vizinhos 16 GWR+SAR com matriz de proximidade com k Bi − square vizinhos 152 Algumas matrizes de vizinhança aplicadas ao termo espacial auto-regressivo na SAR têm caráter exploratório. O objetivo é avaliar a influência da definição de vizinhança adotada na mensuração da dependência espacial do fenômeno estudado. Tyszler (2006) observou comportamento ligeiramente melhor das matrizes com pesos ponderados por distância. A partir de uma rede de triângulos Delaunay, que conecta as áreas de ponderação (em que cada área está sempre conectada a seus n vizinhos mais próximos), o grafo Relative Neighbor é definido pela seguinte relação: x e y são vizinhos ⇔ d ( x, y ) ≤ min (max (d ( x, z ), d ( y , z ) ) z ∈ S ) , (4.2) em que d( ) é a distância entre as áreas, S é o conjunto de pontos e z um ponto arbitrário (TOUSSAINT, 1980). O grafo Gabriel é definido pela seguinte relação: 2 2 x e y são vizinhos ⇔ d ( x, y ) ≤ min d ( x, z ) + d ( y, z ) ( ) 12 z∈S ) , (4.3) em que x, y, z e S são conforme acima (MATULA; SOKAL, 1980). O grafo Sphere of Influence (esfera de influência) é definido a partir de um conjunto finito de pontos S. Seja rx a distância do ponto x (associado à área x) ao vizinho mais próximo em S, e C x o círculo centrado em x com raio rx . Assim (KIRKPATRICK; RADKE, 1985), x e y são vizinhos ⇔ C x e C y se interceptam em pelo menos 2 pontos. (4.4) Adicionalmente, análises exploratórias da distribuição espacial do coeficiente de determinação R2, dos parâmetros β e ρ das regressões e do índice I de Moran serão realizadas a partir da variação das matrizes de vizinhança – em especial, com a variação do número k de vizinhos. 153 4.2 INVESTIGAÇÃO DOMICILIAR O conjunto de dados analisado na Investigação Domiciliar é a Pesquisa de Satisfação do Consumidor Residencial Urbano da Associação Brasileira dos Distribuidores de Energia Elétrica (doravante Pesquisa ABRADEE), aplicada nos anos 2004, 2006, 2007, 2008 e 2009, sempre durante o mês de Março. Essa pesquisa é domiciliar e foi aplicada na área de concessão da AES Eletropaulo. Os resultados das entrevistas realizadas no município de São Paulo foram disponibilizados para este estudo. 4.2.1 PESQUISA ABRADEE A Pesquisa ABRADEE é realizada no setor elétrico brasileiro desde 1999, aplicando-se simultaneamente para muitas das concessionárias brasileiras de distribuição de energia elétrica que são associadas da ABRADEE (40 em 2004, 43 em 2005, 48 em 2006, 44 em 2007, 45 em 2008 e 49 em 2009) (INNOVARE, 2009), abrangendo a imensa maioria dos consumidores residenciais brasileiros (99% em 2009, cerca de 53 milhões de domicílios). Sua realização conjunta, além de garantir a comparabilidade dos resultados devido à uniformidade metodológica e à simultaneidade de aplicação, possibilita redução de custos devido à economia de escala (ABRADEE, 2003). Essa pesquisa avalia a satisfação geral dos clientes, itens de qualidade do serviço fornecido e imagem da concessionária, e permite a classificação das empresas e a premiação das melhores colocadas nas diversas categorias. A pesquisa foi aplicada, de 1999 a 2008 pelo Instituto Vox Populi e em 2009 pelo Instituto Innovare, ambos sediados em Belo Horizonte. A pesquisa pode ser dividida em duas partes: (i) uma pesquisa de importância, na qual o respondente deve ordenar e quantificar a importância de cada um dos atributos dentro de suas respectivas áreas e entre cada uma das áreas, e (ii) a pesquisa de satisfação e fidelidade, na qual são obtidas as avaliações referentes à satisfação com os atributos de Qualidade e Preço e à fidelidade do cliente em relação à distribuidora. São cinco áreas de Qualidade avaliadas: Fornecimento de Energia, Informação e Comunicação com o Cliente, Conta de Luz, Atendimento ao Cliente e Imagem. Essas áreas 154 formam um conjunto de 29 atributos28. A média de satisfação de todos os atributos, declarada pelos respondentes, ponderada pela importância atribuída pelos respondentes ao mesmo conjunto de atributos origina o Índice de Satisfação com a Qualidade Percebida (ISQP) da concessionária, e é utilizado para classificação (ranqueamento) e premiação das empresas do setor, segundo categorias por região e porte, no Prêmio ABRADEE. Os resultados do ISQP contribuem em 25% com a pontuação geral da distribuidora de energia nesse prêmio (ABRADEE, 2008). A área de Valor Percebido compreende a avaliação do Preço (ABRADEE, 2003), contempla 4 atributos e origina o Índice de Satisfação do Cliente com o Preço Percebido (ISCP). A pesquisa é domiciliar com planejamento amostral probabilístico estratificado, o que garante a representatividade da distribuidora de energia elétrica pesquisada. A população alvo é composta de clientes residenciais da zona urbana da área de concessão. O respondente é o chefe de família, ou cônjuge, de um domicílio de residência permanente do entrevistado e de uso exclusivamente residencial, cujo medidor de energia seja próprio, com fornecimento regularizado, com o valor da conta de energia diferente de zero, alfabetizado, e que possa informar a renda mensal total da família e do chefe da família. Além disso, nem o respondente nem membros de sua família podem trabalhar na concessionária que está sendo pesquisada. As entrevistas têm duração média de 40 a 50 minutos, conforme o ano de aplicação. Para garantir a representatividade da concessionária, são realizadas 625 entrevistas29 em toda sua área de concessão, o que garante, para o universo de cada distribuidora, um nível de confiança de 95,5% e uma margem de erro de 4% (ABRADEE, 2003; INNOVARE, 2008). A distribuição se dá a partir da classificação dos municípios em estratos por número de consumidores residenciais, ordenados previamente e divididos de forma a buscar a representatividade aproximada de 20% para cada estrato. Busca-se, pois, a composição de 5 estratos para cada distribuidora pesquisada. Em seguida, calcula-se o número de municípios que farão parte da amostra, utilizando a fórmula de alocação ótima de 28 Até 2005 eram 26 atributos. Em 2006, um novo atributo de Atendimento ao Cliente foi adicionado, e em 2007 dois novos da área de Imagem da Empresa. Em 2009, os atributos da área de Imagem foram revistos, mas foi mantido o total de 29 atributos. São 625 entrevistas para as distribuidoras com 500 mil consumidores ou mais (que são 29 das 63 do Brasil). Para distribuidoras de energia com até 500 mil consumidores são realizadas 400 entrevistas (nível de confiança de 95,5% e margem de erro de 5%). 29 155 Neyman (NEYMAN, 1934), e o número de municípios a serem sorteados dentro de cada estrato (ABRADEE, 2003; INNOVARE, 2008). Opcionalmente, é facultada à distribuidora a contratação da expansão da amostra por regiões específicas. Essa expansão garante a representatividade da região pesquisada, através da realização de entrevistas adicionais por região, para completar 100, 150, 200 ou 277 casos, compreendendo uma margem de erro por região de 10%, 8%, 7% ou 6%, respectivamente. Após o sorteio dos municípios pesquisados, é realizado um sorteio dos setores censitários, que são unidades geográficas definidas pelo IBGE para dividir o território brasileiro e realizar o controle cadastral da coleta do Censo (IBGE, 2002) e englobam, aproximadamente, de 200 a 300 domicílios cada. Em seguida, são sorteados os domicílios dentro de cada setor censitário, segundo técnicas de arrolamento e pesquisa domiciliar já tradicionais. São realizadas cerca de 5 entrevistas por setor censitário (INNOVARE, 2008). São abordados cerca de 2,1 a 2,5 domicílios para cada entrevista realizada. As principais razões para a não realização da entrevista são: domicílio vazio ou desabitado (60,4%), recusa (14,2%) e crivos de controle e cotas de renda (13,6%) (INNOVARE, 2009). A pesquisa traz informações de: (i) caracterização socioeconômica e demográfica da família: sexo e idade do respondente, quantidade de pessoas no domicílio, renda mensal da família e do chefe da família, e classe econômica segundo o Critério Brasil30; e (ii) variáveis de caracterização de consumo de energia elétrica: valor médio da conta de luz, percepção do preço da energia elétrica, e comparação do fornecimento de energia elétrica com serviços de água, telefone e gás. O questionário completo da Pesquisa ABRADEE está apresentado no Anexo C. Na rodada de 2005, a pergunta sobre renda familiar coletada em reais (e não em estratos de salários mínimos) não foi realizada (VOX POPULI, 2005). Dessa forma, não pudemos utilizar as técnicas de regressão linear adotadas para as demais rodadas e, por isso, não consideramos os resultados de 2005 neste estudo. 30 Apenas até 2004 a classe econômica do Critério Brasil foi coletada. Nos anos subseqüentes a posse de bens duráveis específica para o CCEB foi retirada do questionário. 156 O conjunto de variáveis socioeconômicas e demográficas levantado pela pesquisa e utilizado neste estudo é descrito no Quadro 4.4. Variável Distrito Subregião Tipo do Questionário Gênero Idade Número de Pessoas Escolaridade Classe de Renda do Domicílio Classe de Renda do Chefe Renda Mensal do Domicílio Classe Econômica Brasil Valor Médio da Conta Tipo dos Dados (Natureza) Nominal Nominal Nominal Nominal Ordinal (7 classes) Contínuo Ordinal Ordinal (7 classes) Ordinal (8 classes) Contínuo Ordinal (7 classes) Contínuo Descrição Distrito (de São Paulo) ou Município em que está o Domicílio Subregião pesquisada Amostra ou expansão Gênero (masculino, feminino) do respondente Idade do Entrevistado: até 18 anos, de 18 a 25, de 26 a 35, de 36 a 45, de 46 a 55, de 56 a 65, mais de 65 anos Número de pessoas que moram no domicílio Escolaridade (do entrevistado): categorizado em 5 classes até 2005 e em 8 a partir de 2006 Renda do domicílio – as classes correspondem a intervalos de salários mínimos, conforme valor à época: até 1 SM, de 1 a 2, de 2 a 5, de 5 a 10, de 10 a 15, de 15 a 20, mais de 20 SMs Renda do chefe do domicílio – mesma categorização da variável anterior, incluindo a classe “analfabeto” Renda do Domicílio (em reais) Classe Econômica do Critério Brasil: A1, A2, B1, B2, C, D, E (disponível somente na Pesquisa ABRADEE 2004) Valor médio da conta de energia elétrica (em reais) (segundo a percepção do respondente) Quadro 4.4: Variáveis da Pesquisa ABRADEE Fonte: elaboração própria, a partir dos bancos de dados e dos questionários das rodadas da pesquisa ABRADEE. Nota-se que o Consumo de Energia Elétrica (em kWh) não está diretamente disponível. Utilizaremos o Valor Médio da Conta de Luz (em reais) como variável proxy dessa informação. Além disso, a Classe Econômica Brasil não está disponível em seu sistema de pontuação de 0 a 34, e sim, apenas, em suas 7 classes econômicas. Já a Renda Familiar, a Renda do Chefe da Família e o Valor da Conta de Luz são variáveis contínuas nessa pesquisa. A AES Eletropaulo contrata a expansão da Pesquisa ABRADEE em subregiões desde 2004. Nesse ano, a expansão ocorreu em 7 subregiões (correspondentes às 7 diretorias 157 regionais vigentes à época). Em 2006 foram 13 subregiões (algumas diretorias regionais foram subdivididas para a pesquisa) e a partir de 2007 a empresa padronizou sua expansão em 12 áreas. Foram realizadas, ao todo, 1.050, 1.350, 1.200, 1.200 e 1.200 entrevistas, respectivas aos anos de 2004, 2006, 2007, 2008 e 2009. No município de São Paulo, foram realizadas 750, 750, 700, 700 e 700 entrevistas, respectivas às mesmas rodadas. Por crivo, todos os respondentes da amostra informaram a classe de renda do domicílio. Porém, desse total, alguns não informaram a renda em reais ou o valor médio da conta de luz. O total de entrevistas válidas, pois, para esta pesquisa, foi 662, 717, 670, 654 e 677, espalhadas em 75, 74, 73, 78 e 73 distritos, respectivos aos anos 2004, 2006, 2007, 2008 e 2009. O conjunto final adotado para análise neste estudo contempla todas as entrevistas do município de São Paulo com valor válido de renda domiciliar (em reais) e de valor de conta de luz (em reais). Pequenas mudanças na operacionalização do sorteio de setores censitários (e conseqüente agregação de entrevistas por distrito) causaram a variação no número de distritos com entrevistas válidas ao longo das rodadas analisadas. Espacialmente, no entanto, a abrangência de distritos em áreas centrais e periféricas é grande em todas as rodadas. Aplicaremos as técnicas de regressão da Renda Domiciliar a partir do Consumo de Energia Elétrica (utilizando a proxy Valor da Conta de Luz) sobre os dados da Pesquisa ABRADEE das cinco rodadas especificadas. Pela natureza espacial do fenômeno e pela disponibilidade da informação do distrito em que ocorreu cada entrevista, aplicaremos as análises baseadas em estatística espacial na avaliação da associação entre os construtos do modelo, em especial a GWR. Sua aplicação, no entanto, será feita após uma análise sobre as possibilidades de real localização dos domicílios dentro dos polígonos, conforme discutido no tópico 4.2.2, seguinte. 158 4.2.2 ALTERNATIVAS DE ALOCAÇÃO DE PONTOS EM POLÍGONOS É muito comum hoje em dia coletarmos dados de pesquisas de campo “habilitados espacialmente”. A motivação vem de diversas disciplinas, incluindo o universo do marketing e das ciências sociais e as subseqüentes melhorias que a estatística espacial permite na interpretação, medição das relações e predição. Contudo, é também muito comum que o dado relacionado a esses assuntos não esteja devidamente apropriado para as análises espaciais. Muitos formulários de coleta de dados não tornam disponível a informação de localização adequada (em acurácia ou precisão) – essas situações produzem dados cuja localização precisa de cada observação é desconhecida – apenas a informação sobre a região onde a observação foi coletada (distrito, código postal, município) é publicada. Essa situação pode ser vista como o oposto ao conhecido MAUP, ou problema da unidade de área modificável, que descreve o efeito da mudança de escala e de zoneamento nas relações observadas entre os elementos espaciais, conforme discutido no tópico 3.2. Para a situação descrita aqui, ao invés de termos um conjunto de pontos que podem ser agregados em uma variedade de maneiras em unidades poligonais, temos um conjunto de polígonos com dados (entrevistas) associados, e que queremos alocar em um lugar (ponto) específico, de acordo com alguma estratégia razoável. As técnicas de estatística espacial (em especial, os modelos de regressão descritos no tópico 3.4) estendem dados baseados em polígonos para pontos alocados nos polígonos para a aplicação de seus métodos de resolução e maximização. Os modelos SAR utilizam esse artifício para a geração de matrizes de proximidade e ponderações por distância (no termo auto-regressivo ρWy), que são internamente baseados na distância entre os centróides dos polígonos envolvidos na predição. Os modelos GWR contam com as distâncias computadas entre as observações (tratadas diretamente como pontos) para calcular os pesos de cada observação em cada amostra local e, mais importante ainda, para indicar o tamanho da amostra local mais apropriada, baseada em minimização do Akaike Information Criterion (AIC) ou cross-validation (CV). Como o distrito de cada entrevista é a única informação localizacional que temos, e a GWR considera pontos como sua unidade espacial básica de observação, a forma mais 159 simples de procedermos é associarmos o centróide ou a localização da sede do distrito (quando disponível e conhecida) a cada entrevista. Dessa forma, muitas entrevistas ficam associadas a um mesmo ponto. Sob essa peculiaridade, a questão parece ser a unidade de observação. A unidade é o domicílio, mas não temos maneira de geocodificar sua localização a não ser associá-lo ao centróide ou a algum ponto arbitrário no interior do distrito – a sede do mesmo parece ser a mais razoável. Isso significa que qualquer domicílio no mesmo polígono deveria ser alocado efetivamente nesse ponto escolhido dentro do distrito, “um sobre o outro”. Isso resultaria em um peso de 1 para todos esses pontos na regressão da amostra local de qualquer um deles quando aplicada a GWR, enquanto que observações de distritos adjacentes receberiam um peso menor, mas novamente igual para todos os seus domicílios. Aparentemente a aplicação de GWR baseada nos centróides não produz resultados realistas devido aos pesos semelhantes aplicados aos dados que poderiam ser espacialmente dispersados e, portanto, ter influências diferentes de sua vizinhança, o que é intrínseco à sua natureza de domicílio. A abordagem “ingênua” do centróide (ou sede) para a alocação dos dados pontuais pode ser encarada como nosso modelo espacial inicial, ou benchmark, ou null model – e qualquer outro modelo de alocação que adotássemos deve ser comparado a ele, para avaliarmos se a busca pela relação mais “realista” caminha no sentido do aumento da associação entre os construtos em estudo, ou em sentido contrário. Para tratar desta questão central, seis alternativas de distribuição, ou alocação, de pontos em polígonos foram consideradas. Algum conhecimento adicional sobre o processo de planejamento amostral, ou sobre a área em estudo, ou ainda sobre o conjunto de variáveis socioeconômicas e demográficas coletadas nas pesquisas de campo certamente suportará aperfeiçoamentos na qualidade desses algoritmos, ou talvez sugerir novas abordagens. Não obstante, conhecimento prévio sobre o planejamento amostral não costuma ser considerado pelos “usuários” da pesquisa (principalmente em Ciências Sociais) – e este estudo selecionou uma alternativa específica para mostrar o potencial de aprimoramento que esse conhecimento poderia produzir. Os algoritmos das alternativas de alocação foram implementados através da ferramenta estatística R 2.9.1 (R DEVELOPMENT CORE TEAM, 2009), utilizando as 160 extensões (packages): GPCLIB 1.4-4, MAPTOOLS 0.7-26, SPLANCS 2.01-23 e SPATSTAT 1-17-0. O Apêndice B apresenta o código original dessa implementação. 4.2.2.1 Alternativa 1: Geração Completamente Aleatória de Pontos nos Polígonos Esta é a alternativa mais simples e intuitiva a ser considerada. Para cada distrito da pesquisa, selecionamos o número n de entrevistas e aplicamos a geração de n pontos completamente aleatórios no interior do polígono do distrito (na realidade, geramos um ponto aleatório no interior do bounding box31 do polígono e mantemo-lo se estiver efetivamente DENTRO do polígono, senão descartamos; repetimos esse processo até que as n entrevistas estejam posicionadas). O comando csr da extensão SPLANCS do R é o núcleo dessa implementação (ROWLINGSON; DIGGLE, 1993; BIVAND; GEBHARDT, 2000). O Esquema 4.2 mostra um exemplo da aplicação desta alternativa. 31 Menor retângulo que contém completamente o polígono. 161 Distritos Densidade de Probabilidade (constante) Alocação de Pontos Totalmente Aleatória (10 pontos, neste exemplo) Pontos Alternativa 1 Esquema 4.2: Alternativa 1 de Alocação de Pontos em Polígonos Fonte: elaboração própria, com utilização da ferramenta ArcGIS® ArcScene 9.3. 162 4.2.2.2 Alternativa 2: Geração Aleatória de Pontos baseada na Densidade de Domicílios Para esta alternativa, a densidade de domicílios no município de São Paulo foi utilizada como uma informação de probabilidade, ou verossimilhança, para a localização das entrevistas. Essa informação foi obtida da AES Eletropaulo, que possui o cadastro de todos os domicílios eletrificados de cada distrito em questão. Utilizando uma malha quadrada de 100 metros de lado, computamos o número de consumidores residenciais por célula por distrito (respectiva à época de cada pesquisa utilizada). Baseado neste grid, geramos um padrão aleatório contendo n pontos independentes e identicamente distribuídos, com a malha de domicílios por quadrícula como densidade de probabilidade, considerando que temos n entrevistas por distrito. A partir da malha quadrada com a densidade de domicílios, uma pixel image é gerada (i.e., uma matriz retangular de localizações [pixels] no espaço bi-dimensional, com um valor numérico associado a cada pixel), considerada, por conseguinte, uma superfície com uma densidade de probabilidade associada. Em seguida, a função rpoint da extensão SPATSTAT se encarrega de gerar um padrão de pontos aleatórios contendo n pontos independentes e identicamente distribuídos, utilizando a pixel image como superfície de distribuição de probabilidade (BADDELEY; TURNER, 2005; BADDELEY, 2008). O Esquema 4.3 apresenta um exemplo desta implementação. Como a informação de distribuição dos domicílios é usualmente publicada pelos Census Bureaux ou Agências (em regiões censitárias) a disponibilidade desse dado é comum e poderia ser utilizada. A diferença está na temporalidade. Para o caso específico deste estudo, esses dados seriam de 2000, e os dados gerados na malha quadrada são específicos para o período da realização de cada rodada utilizada da Pesquisa ABRADEE (de 2004 a 2009, no mês de Março). Para outros contextos, caso a diferença de temporalidade entre a informação de concentração de domicílios e a pesquisa de campo realizada seja pequena (ou assumida irrelevante), essa alternativa de incorporação de dados censitários (ou outras fontes secundárias semelhantes) deve ser considerada. 163 Densidade de Probabilidade  total de domicílios   por quadrícula    Malha quadrada de 100m de lado Distritos Alocação de Pontos Baseada na Densidade de Domicílios (10 pontos, neste exemplo) Pontos Alternativa 2 Esquema 4.3: Alternativa 2 de Alocação de Pontos em Polígonos Fonte: elaboração própria, com utilização da ferramenta ArcGIS® ArcScene 9.3. 164 4.2.2.3 Alternativas 3A e 3B: Geração Aleatória de Pontos baseada na Superfície de Probabilidade de Fitness para Consumo de Energia Elétrica As alternativas 3A e 3B são baseadas na distribuição do consumo de energia elétrica no domicílio de São Paulo, obtidas através da base de consumidores residenciais da AES Eletropaulo, e devem ser consideradas apenas no contexto específico desta pesquisa. A alternativa 3A gera uma malha (pixel image bi-dimensional) de fitness, ou aptidão32, para o consumo de energia elétrica (valor da conta de energia elétrica como proxy), a partir do cômputo da média de consumo de energia elétrica por quadrícula no grid (100 metros de lado), utilizando um processo semelhante ao descrito para a alternativa 2. Em seguida, novamente similar à alternativa 2, geramos um padrão aleatório de n pontos independentes (BADDELEY; TURNER, 2005; BADDELEY, 2008), distribuídos de acordo com essa superfície (baseada na densidade de consumo de energia, ou valor médio da conta de luz). É importante mencionar que, neste caso, é criada uma superfície para cada entrevista a ser alocada, isto é, o processo completo de alocação espacial de cada entrevista é repetido para cada valor de conta de luz encontrado na amostra – por isso, a malha é de aptidão a cada entrevista. A mesma função rpoint da extensão SPATSTAT (aplicada na alternativa 2) é utilizada para gerar um ponto aleatório para cada entrevista, de acordo com sua superfície de distribuição (pixel image) específica. Vale notar que alguns pontos podem ser espacialmente alocados em células com baixa densidade de conta de luz. Isso é porque existe uma pequena (mas não nula) probabilidade para essas células serem escolhidas. A Alternativa 3B é uma variação da Alternativa 3A. Ela considera a pré-seleção das 5 ou mais quadrículas da malha cujo valor médio da conta de luz (valor do pixel, diretamente proporcional à densidade de probabilidade associada a esse pixel) mais se aproxima do valor da conta de luz de cada entrevista. Caso existam quadrículas com valores similares próximos ao da entrevista em questão, todas são pré-selecionadas – no mínimo 5. O objetivo dessa variação é aumentar a probabilidade de alocação espacial das entrevistas em células que realmente apresentem valores médios próximos ao da conta de luz do entrevistado. Isso é mais adequado para contas de luz com valores extremos ou outliers na 32 Utilizando linguagem própria dos algoritmos evolucionários. 165 distribuição, evitando que a grande quantidade de pixels na imagem possa diminuir a probabilidade de alocação do valor extremo em uma célula de comportamento médio realmente similar. Uma versão simplificada dos algoritmos para as alternativas 3A e 3B (em metalinguagem) está em seguida, no Esquema 4.4, e, em detalhes, no Apêndice A. Os Esquemas 4.5 e 4.6 mostram a estrutura, através de exemplos, dessas implementações. input : SurveyData ← List of Energy Consumptions of n households (collected in the interviews) PowerGrid ← Grid (pixel image) of 100 squared meters cells containing average of residential energy bill as pixel value output : Suggested location for each household in SurveyData 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 foreach District in List of Districts do C ← List of Cells located within the district ( subset of PowerGrid ) foreach S in SurveyData do # q stores the absolute difference in consumption between S and each cell in C q ← abs( Value( C ) – Value( S ) ) # only for Alternative 3B if (Alternative 3B) # select 5 cells at minimum (extends only if there is more than 5 cells with value = Value( S ) ) number_of_selected ← max( 5, number of cells with Value = Value( S ) ) # sort vectors C and q in ascending order of pixel value # (likely cells of S [smallest values] get initial positions in the vectors) C ← sort_in_ascending_order_of_pixel_value_ordered( C ) q ← sort_in_ascending_order_of_pixel_value_ordered( q ) # give probability of sampling = zero for non selected cells q[(number_of_selected+1):number_of_cells] ← 0 endif (Alternative 3B) # convert q to a maximised value q ← (max( q ) + 1 ) - q # construct proportional measure of fitness for energy consumption q ← q / sum( q ) # generate one random point, from q associated spatial distribution (pixel image) location( S ) ← rpoint( 1, q ) end end return location( SurveyData ) Esquema 4.4: Algoritmo Simplificado das Alternativas 3A e 3B para Alocação de Pontos em Polígonos Fonte: elaboração própria. 166 Densidade de Probabilidade  valor médio em R$   residencial da conta   de luz por quadrícula    Malha quadrada de 100m de lado Distritos Alocação de Pontos Baseada na Densidade de Valor da Conta de Luz (10 pontos, neste exemplo) Pontos Alternativa 3A Esquema 4.5: Alternativa 3A de Alocação de Pontos em Polígonos Fonte: elaboração própria, com utilização da ferramenta ArcGIS® ArcScene 9.3. 167 Entrevista i Conta de Luz = R$ 10,00 Alocação de Pontos Baseada na Distribuição de Valor da Conta de Luz (agregado em malha quadrada de 100m de lado), com pré-seleção das quadrículas com valor mais próximo do valor da Conta de Luz de cada entrevista a ser alocada espacialmente Malha quadrada de 100m de lado Ponto Alternativa 3B Seleção das 5 quadrículas com valor médio da Conta de Luz mais próximo a R$ 10,00 Alocação Aleatória da entrevista i baseada na Densidade de Probabilidade das quadrículas pré-selecionadas Entrevista j Conta de Luz = R$ 130,00 Densidade de Probabilidade  valor médio em R$   residencial da conta   de luz por quadrícula    Malha quadrada de 100m de lado Ponto Alternativa 3B Seleção das 5 quadrículas com valor médio da Conta de Luz mais próximo a R$ 130,00 Alocação Aleatória da entrevista j baseada na Densidade de Probabilidade das quadrículas pré-selecionadas Repetir procedimento para cada entrevista Esquema 4.6: Alternativa 3B de Alocação de Pontos em Polígonos Fonte: elaboração própria, com utilização da ferramenta ArcGIS® ArcScene 9.3. ... 168 4.2.2.4 Alternativas 4A e 4B: Seleção de Domicílios baseada na Superfície de Probabilidade de Fitness para Consumo de Energia Elétrica As alternativas 3 e 4 são muito similares em conceito. Ambas são baseadas na distribuição do consumo de energia elétrica no município de São Paulo, segundo dados da AES Eletropaulo. A alternativa 4, diferentemente da alternativa 3, não distribui pontos baseados em uma superfície de probabilidade. Ela SELECIONA domicílios de uma lista de consumidores residenciais da distribuidora de energia elétrica baseados na semelhança ou parecença com cada entrevista, com relação à conta de luz. Para cada distrito e cada entrevista, são elencados e espacializados todos os domicílios da região e associados a eles uma medida proporcional de fitness, ou aptidão, para o valor da conta de luz. Quanto mais próximo é o valor da conta de luz do domicílio elencado (com relação ao valor da conta de luz da entrevista), maior é a medida de aptidão associada. Note que é utilizada a lista de consumidores residenciais da distribuidora de energia, e não uma superfície de probabilidade, ou grid de valores médios. Finalmente, um número aleatório uniforme i, entre 0 e 1, é gerado e utilizado para associação da entrevista ao consumidor da posição i no intervalo de aptidão. Dessa forma, os consumidores com maior aptidão terão maior chance de serem sorteados. O pressuposto aqui é que uma vez que temos um grande conjunto de domicílios devidamente localizados no distrito (com cobertura supostamente total) e queremos encontrar uma posição geográfica probabilística para cada entrevista da nossa amostra, devemos considerar que um dos domicílios do conjunto foi efetivamente escolhido para ser entrevistado. É claro que a localização real permanecerá desconhecida. Mas a localização probabilística, enviesada em direção a um match provável, é a abordagem apropriada. Além disso, o fato de o valor da conta de luz ser informado pelo respondente, talvez em valores aproximados e baseados em médias históricas, dificulta ainda mais a verossimilhança dessa alternativa de alocação. Esse método é baseado em modelos proporcionais de aptidão, frequentemente utilizados em algoritmos evolucionários (BACK; FOGEL; MICHALEWICZ, 1997; YAO 1999). 169 A Alternativa 4B é uma variação da Alternativa 4A. Ela considera a pré-seleção de 5 ou mais consumidores residenciais cujo valor da conta de luz mais se aproxima do valor da conta de luz de cada entrevista. Caso existam consumidores com valores similares próximos ao da entrevista em questão, todos são pré-selecionados – no mínimo 5. O objetivo dessa variação é o mesmo que motivou a criação da Alternativa 3B – aumentar a probabilidade de alocação de domicílios com contas de luz similares ao de cada entrevista. Uma versão simplificada dos algoritmos para as alternativas 4A e 4B (em metalinguagem) está em seguida, no Esquema 4.7, e em detalhes no Apêndice A. Os Esquemas 4.8 e 4.9 mostram a estrutura, através de exemplos, dessas implementações. input : SurveyData ← List of Energy Consumptions of n households (collected in the interviews) PowerData ← Database of Households (location and energy bill value) output : Suggested location for each household in SurveyData 1 2 3 4 5 6 7 8 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 foreach District in List of Districts do P ← List of n residential customers in the district ( subset of PowerData ) foreach S in SurveyData do # q stores the absolute difference in consumption between S and each customer in P q ← abs( Value( P ) – Value( S ) ) # only for Alternative 4B if (Alternative 4B) # select 5 customers at minimum # (extends only if there is more than 5 customers with value = Value( S ) ) number_of_selected ← max( 5, number of customers with Value = Value( S ) ) # sort vectors P and q in ascending order of energy bill value # (likely customers of S [smallest values] get initial positions in the vectors) P ← sort_in_ascending_order_of_pixel_value_ordered( P ) q ← sort_in_ascending_order_of_pixel_value_ordered( q ) # give probability of sampling = zero for non selected customers q[(number_of_selected+1):number_of_customers] ← 0 endif (Alternative 4B) # convert q to a maximised value q ← (max( q ) + 1 ) - q # construct proportional measure of fitness for energy consumption q ← q / sum( q ) # sample a completely random number in [0,1] i ← random(0,1) # get the information about household in the i-position in P P(q[i]) ← id of customer in P located in the proportional position of q # associate S to this customer location( S ) ← location( P(q[i]) ) end end return location( SurveyData ) Esquema 4.7: Algoritmo Simplificado das Alternativas 4A e 4B para Alocação de Pontos em Polígonos Fonte: elaboração própria. 170 Domicílios de acordo com valor de Conta de Luz (em R$) Distritos Seleção dos Domicílios com Probabilidade (para alocação de cada entrevista) baseada na semelhança ou parecença do valor de Conta de Luz Domicílios Selecionados Pontos Alternativa 4A Esquema 4.8: Alternativa 4A de Alocação de Pontos em Polígonos Fonte: elaboração própria, com utilização da ferramenta ArcGIS® ArcScene 9.3. 171 Entrevista i Conta de Luz = R$ 10,00 Seleção dos Domicílios com Probabilidade (para alocação de cada entrevista) baseada na semelhança ou parecença do valor de Conta de Luz, com pré-seleção dos domicílios de valor igual ou mais parecido com cada entrevista Domicílios Selecionados Ponto Alternativa 4B Seleção dos (no mínimo 5) domicílios com Conta de Luz igual ou próxima a R$ 10,00 Sorteio dos domicílios pré-selecionados baseada na Densidade de Probabilidade da parecença do valor da Conta de Luz com o da da entrevista i Entrevista j Conta de Luz = R$ 130,00 Domicílios de acordo com valor de Conta de Luz (em R$) Domicílios Selecionados Ponto Alternativa 4B Seleção dos (no mínimo 5) domicílios com Conta de Luz igual ou próxima a R$ 130,00 Sorteio dos domicílios pré-selecionados baseada na Densidade de Probabilidade da parecença do valor da Conta de Luz com o da da entrevista j Repetir procedimento para cada entrevista Esquema 4.9: Alternativa 4B de Alocação de Pontos em Polígonos Fonte: elaboração própria, com utilização da ferramenta ArcGIS® ArcScene 9.3. ... 172 4.2.2.5 Alternativa 5: Geração Completamente Aleatória de Pontos em Áreas Censitárias Urbanas e Não Especiais As alternativas 5 e 6 consideram, parcialmente, o processo de Planejamento Amostral da Pesquisa ABRADEE para a alocação dos pontos no interior dos polígonos (distritos). A alternativa 5 é muito similar à alternativa 1 – é realizado um sorteio totalmente aleatório de pontos no interior do distrito. A diferença está na porção “sorteável” da área do distrito – são consideradas apenas as áreas pertencentes a setores censitários de situação urbana e tipo não especial (IBGE, 2002). O processo do Planejamento Amostral se inicia com o sorteio de municípios (estratificado por região e porte dos municípios da distribuidora de energia elétrica) (INNOVARE, 2008; ABRADEE, 2003). O total de entrevistas é distribuído para cada região proporcionalmente ao total de consumidores residenciais; o total de municípios sorteados é definido a partir da fórmula de alocação ótima de Neyman (NEYMAN, 1934), e o total de entrevistas por município é também proporcional à participação de consumidores residenciais do município na região, posteriormente ajustado para um mínimo de dez entrevistas por município, por razões operacionais (INNOVARE, 2008). A seleção dos domicílios que serão entrevistados se dá apenas em áreas urbanas e setores censitários não-especiais dentro dos distritos. Essa é a consideração central da alternativa 5, que consiste na seleção das áreas urbanas de cada distrito e na geração aleatória de pontos no interior dessas áreas, utilizando princípio semelhante ao da alternativa 1. A informação da tipologia e situação das áreas censitárias é normalmente uma informação publicada pelo Census Bureau ou Agência Governamental específica (conforme ocorre no Brasil através do IBGE), e deve ser usada neste contexto. Mesmo que o planejamento amostral da pesquisa não esteja disponível, é razoável que áreas não povoadas (áreas de preservação, florestas, lagos, represas etc) e regiões não residenciais sejam retiradas para a finalidade da aplicação da técnica de alocação espacial das entrevistas dentro dos distritos ou municípios. 173 A função runifpoint (contração de run uniform points) da extensão SPATSTAT foi utilizada para a geração aleatória de pontos no interior dos polígonos. Essa função permite que a seleção aleatória se dê com polígonos com múltiplas partes disjuntas (BADDELEY; TURNER, 2005), o que se torna freqüente na alternativa 5 com a remoção das áreas não urbanas do distrito – principalmente em regiões periféricas do município de São Paulo. A Figura 4.4 apresenta exemplos de polígonos single-part e multi-part. Note que as múltiplas partes de um polígono multi-part podem ser internas (“buracos”, que não fazem parte da área) ou externas a outras partes já existentes – toda a área rosa do distrito de Jardim Ângela é considerada um único polígono, conforme exemplo da figura. Single-part Polygon Multi-part Polygon Distrito Área de Setores Censitários Urbanos e Não Especiais Figura 4.4: Distrito de Jardim Ângela, no município de São Paulo, destacando os limites do distrito (à esquerda e ao centro) e sua área urbana e com setores censitários não especiais (à direita) Fonte: elaboração própria, ferramenta ArcView® GIS 3.2. O Esquema 4.10 descreve essa alternativa. 174 Distritos Densidade de Probabilidade (constante, apenas nas áreas urbanas do distrito) Alocação de Pontos Totalmente Aleatória apenas nas áreas urbanas dos distritos, de acordo com restrição do Plano Amostral da Pesquisa ABRADEE (10 pontos, neste exemplo) Pontos Alternativa 5 Esquema 4.10: Alternativa 5 de Alocação de Pontos em Polígonos Fonte: elaboração própria, com utilização da ferramenta ArcGIS® ArcScene 9.3. 175 4.2.2.6 Alternativa 6: Sorteio de Setores Censitários Urbanos e Não Especiais A alternativa 6 considera o Planejamento Amostral da Pesquisa ABRADEE até a etapa de sorteio de setores censitários (INNOVARE, 2008). Após o cômputo do número de entrevistas por distrito33, são sorteados os setores censitários - as unidades territoriais de coleta e de controle cadastral percorrida por cada recenseador do Censo Demográfico brasileiro (IBGE, 2002). Em pequenos municípios pode haver apenas um setor censitário, enquanto que em áreas densamente povoadas, um único edifício residencial pode abrigar mais de um setor censitário. Em cada setor censitário são realizadas até cinco entrevistas (INNOVARE, 2008). Apenas os setores censitários em situação urbana e tipo não especial são sorteáveis, conforme já exposto na descrição da alternativa 5. O sorteio de setores censitários é totalmente aleatório, não ponderado pela área, população ou qualquer outra variável. Dessa forma, a alternativa 6 considera o sorteio de setores censitários e aloca um número de entrevistas para cada um deles, respeitando o limite superior de 5 entrevistas por setor. Vale notar que a distribuição das entrevistas por setor é feita considerando a amostra TOTAL planejada para o distrito. As entrevistas eventualmente não consideradas para este estudo, invalidadas por conterem missing values nas variáveis Renda ou Valor da Conta de Luz, devem ser contadas na distribuição original e, posteriormente, removidas da amostra final. Assim, se um distrito tiver 15 entrevistas realizadas, então elas foram feitas em 3 setores censitários com 5 entrevistas em cada um. Se dessas 15 apenas 7 forem válidas para este estudo, é possível que mesmo assim ainda estejamos com 3 setores censitários alocados, mesmo que dois sejam suficientes para abarcar as 7. Como a informação do setor censitário em que a entrevista foi realizada não é usualmente disponibilizada pela ABRADEE em sua pesquisa anual de satisfação de clientes, não sabemos a priori quais setores censitários originalmente alocados na distribuição com a 33 Note que não são sorteados os distritos. Os setores censitários são sorteados diretamente a partir do município, e depois contabilizados de acordo com o distrito que os contém. 176 amostra completa terão entrevistas removidas. Assim, a alternativa 6 realiza a exclusão aleatória das entrevistas não válidas para cada distrito. Após a definição final do total de entrevistas por setor censitário, a localização de cada entrevista dentro do setor censitário é realizada através de geração de pontos completamente aleatórios, seguindo os mesmos princípios de alocação da alternativa 1. O processo original de determinação dos domicílios a serem sorteados é feito em função de arrolamento (um ponto inicial dentro do setor é definido, geralmente uma esquina, e o entrevistador caminha no sentido horário, abordando um domicílio a cada 10 ou 15 identificados) (INNOVARE, 2008). O Esquema 4.11 descreve a estrutura de implementação desta alternativa. O procedimento adotado no Planejamento Amostral da Pesquisa ABRADEE – a estratificação em estágios: municípios e setores censitários – é muito similar ao utilizado em diversas pesquisas de campo domiciliares no Brasil e em muitos países do mundo (KISH, 1965; KALTON, 1983; BUSSAB; BOLFARINE; BUSSAB, 2000; DINI; MANCINI, 2003). A Pesquisa da CIER, aplicada em 13 países da América Latina desde 2003, segue procedimento idêntico (VOX POPULI, 2009), bem como muitas pesquisas no campo das ciências sociais e demografia. Por esse motivo, a alternativa 6 pode ser facilmente adaptada e aplicada a outros contextos. Esta alternativa induz a alocação de pontos divididos em pequenos clusters no interior dos distritos, de acordo com a restrição imposta pelos limites dos pequenos polígonos de setores censitários. Essa característica aumenta a proximidade entre os domicílios de um mesmo setor censitário e diminui destes com os domicílios de outros setores (a menos dos setores muito próximos). Essa característica diferencia a alocação de pontos desta alternativa com relação às demais, o que potencializa um comportamento diferente da associação entre Renda e Consumo de Energia para as alocações de pontos a partir da alternativa 6. 177 Distritos Setores Censitários Setores Censitários Urbanos Não Especiais Utilização do PLANO AMOSTRAL da Pesquisa ABRADEE : Aplicação das Regras de Distribuição das Entrevistas Neste exemplo: Alocação Aleatória das Entrevistas em cada Setor Censitário previamente sorteado Definição do número de entrevistas por Setor Censitário (original) SC 3 SC 1 SC 2 Pontos Alternativa 6 Exclusão (aleatória) das entrevistas não válidas (missing values em Renda e/ou Valor de Conta de Luz) Setores Censitários Sorteados Aleatoriamente Esquema 4.11: Alternativa 6 de Alocação de Pontos em Polígonos Fonte: elaboração própria, com utilização da ferramenta ArcGIS® ArcScene 9.3. 178 4.2.3 APLICAÇÃO DE GWR SOBRE AS AMOSTRAS REALOCADAS Conforme detalhado no tópico 4.2.1, a Pesquisa ABRADEE é realizada com uma amostra base (625 entrevistas) e uma expansão por subregiões, conforme o interesse da distribuidora de energia elétrica. Nesses termos, as entrevistas adicionais realizadas desbalanceiam a amostra base para garantir a representatividade das subregiões, fazendo com que todas as entrevistas passem a ter pesos individuais diferentes quando analisadas conjuntamente. Esse peso é proporcional ao número de domicílios de cada subregião. Além disso, a invalidação de alguma entrevista realizada (pela existência de missing values em renda ou valor da conta de luz) aumenta o peso das entrevistas restantes de cada subregião. Assim, cada entrevista de cada rodada da Pesquisa ABRADEE no município de São Paulo utilizada neste estudo possui um peso diferente, o que culmina na incorporação desse conjunto de pesos aos modelos de regressão (inclusive espaciais) aplicados. A regressão linear tradicional, OLS, é, pois, adaptada para a incorporação da ponderação das observações para ser aplicada aos dados da Pesquisa ABRADEE, conforme descrito abaixo. Trata-se de um modelo linear ponderado, ou Weighted Linear Model (WLM). ′ y i = β 1 xi′1 + β 2 x i′2 + K + β p xip + ε i y = X ′β + ε , , ou (4.2) (4.3) onde y é a variável dependente, X ′ = [ qi xij ]n× p é a matriz de n observações por p variáveis ′ independentes ( xij ) em que cada célula da linha i da matriz original X = [ xij ]n× p é multiplicada pelo peso qi da entrevista i , e ε é o termo de erro, independente e da forma ε ~ N (0, σ 2 I ) , conforme Equações 3.2 e 3.3 anteriores, descrevendo o modelo linear. A diferença está na aplicação de pesos diferentes34 por entrevista (sample weight ou sample case weight), representada pela matriz diagonal q = [q i ]n×n , em que o peso qi é multiplicado à entrevista i. 34 Utilizou-se a notação q para o vetor de pesos, para não haver confundimento com o número p de variáveis independentes, ou com a ponderação w, que está sendo utilizada para ponderações baseadas em distância ou índices das matrizes de vizinhança nas regressões espaciais. 179 Convencionamos adotar ∑q i =1 n i = n . Portanto, X ′ = qX . Assim, no caso tradicional (sem ponderação por observação), temos qi = 1 , ∀i , e q é a matriz identidade. A mesma estratégia de incorporação de um vetor de pesos é feita para a GWR35, que passa a ter, além da matriz de proximidade W ( g i ) de cada amostra local de cada observação g i , a matriz de ponderação q ( g i ) com os pesos de cada entrevista vizinha, de acordo com o distrito em que está localizada: ′ ′ y ( g ) = β 0 ( g ) + β 1 ( g ) x1 + β 2 ( g ) x 2 + K + β p ( g ) x ′p + ε , (4.4) onde g indica um vetor dos n pontos, no espaço bidimensional, os parâmetros do vetor β ( g ) são específicos para cada observação i de localização g i = (u i , vi ) , o termo de erro ε é suposto independente e de comportamento ε ~ N (0, σ 2 I ) ′ independentes X ′ é tal que X ′( g ) = [ xij ] n× p = [qi xij ] n× p . e o vetor de variáveis Aplicaremos os modelos WLM e GWR (conforme Equação 4.4) sobre as amostras da Pesquisa ABRADEE de 2004, 2006, 2007, 2008 e 2009, utilizando as entrevistas localizadas: (i) no centróide dos distritos, (ii) na sede dos distritos, e (iii) conforme resultado da aplicação das 6 alternativas de alocação, descritas no tópico 4.2.2. O modelo SAR será aplicado para os casos (i) e (ii) acima também. Serão realizadas 1.000 iterações para cada alternativa para cada rodada da Pesquisa ABRADEE. Para cada iteração será realizada a minimização do AIC para determinação do tamanho mais adequado de cada amostra local. Adotamos o kernel adaptável (número fixo de vizinhos), devido à grande variação de densidade de domicílios encontrada no município de São Paulo. 35 Para cálculo dos ganhos dos diversos modelos (OLS e GWR) considerando diferentes pesos para as entrevistas, calculamos o Weighted Sum of Squares: WSS = Residuals Sum of Squares: RSS = ∑q (y i i =1 n i ˆ − y i ) 2 , que se reduz ao tradicional ∑(y i =1 n i ˆ − yi ) 2 quando qi = 1 , ∀i . 180 Os resultados, por alternativa e por rodada, serão analisados através de diagramas box plots, para avaliarmos comparativamente a variação (média, mediana e distribuição) dos coeficientes de explicação (R2) de cada conjunto de regressões por alternativa – por isso, a opção por muitas (1.000) iterações. O objetivo é verificarmos se e como a localização das entrevistas em pontos alternativos ao centróide ou à sede impacta na relação de associação entre a Renda e o Consumo de Energia Elétrica dos domicílios amostrados na Pesquisa ABRADEE ao longo dos anos, em comparação com os modelos de pontos espalhados. Análises exploratórias complementares serão realizadas, como a associação entre o indicador de auto-correlação espacial I de Moran e o R2 de cada iteração, a avaliação das propriedades da vizinhança nas amostras locais, via convex hull36, de cada iteração e o uso de estatísticas de homogeneidade e agrupamento espacial. Especificamente na rodada de 2009 da Pesquisa ABRADEE, foi realizada uma aplicação piloto no campo da AES Eletropaulo, coordenada pela ABRADEE, em que se obteve a localização geográfica de cada domicílio entrevistado. O objetivo dessa aplicação foi o de avaliar os ganhos da aplicação de técnicas de estatística espacial na predição e avaliação dos fatores que influenciam a satisfação dos clientes com os serviços prestados pela distribuidora de energia elétrica (FRANCISCO, 2009). Para tal, foi incluída uma pergunta específica no questionário da pesquisa para coletar o “número” (código) do cliente entrevistado (vide destaque no Anexo C). A partir desse código, e sem que a distribuidora de energia pudesse identificá-lo, por questões de sigilo e confidencialidade, a localização geográfica do ativo elétrico mais próximo ao domicílio (informação que consta da base de dados de clientes da AES Eletropaulo, conforme descrito no tópico 4.1.3) foi fornecida pelo instituto de pesquisa à AES Eletropaulo, e disponibilizada para este estudo. Na realidade, uma base de dados com a localização geográfica de cada código do cliente da AES Eletropaulo foi cedida ao instituto de pesquisa apenas para a finalidade deste experimento. 36 Convex hull, envoltória convexa, fecho convexo ou invólucro convexo, é o menor polígono convexo que contém um conjunto de pontos de um subconjunto S de um espaço vetorial V . No espaço bidimensional, a figura a seguir exemplifica: 181 Vale notar que a localização do ativo elétrico mais próximo (denominado ponto de entrega de energia) é normalmente insuficiente para se identificar o domicílio, uma vez que existem, em média, cerca de 40 clientes associados a cada ponto de entrega – o que garante a não infração dos termos de confidencialidade e sigilo acordados nessa aplicação piloto. No caso de problemas de digitação, coleta do código do cliente ou identificação na base de dados, o instituto de pesquisa forneceu à distribuidora um endereço aproximado (variação aleatória do número da casa, em até 500 metros), sem complemento, para que pudesse ser feito o georreferenciamento (busca por endereço, ou address matching) sem grande impacto na região de localização efetiva do domicílio. O Esquema 4.12 mostra a estrutura que viabilizou o piloto da Pesquisa ABRADEE 2009. Esquema 4.12: Diagrama da Aplicação Piloto da Pesquisa ABRADEE 2009 na AES Eletropaulo Fonte: adaptado de FRANCISCO, 2009. Os resultados da aplicação da GWR na Pesquisa ABRADEE 2009 com a localização “real” das entrevistas será comparado às demais GWRs realizadas neste estudo. O Esquema 4.13 resume a metodologia da Investigação Domiciliar descrita neste tópico. 182 Amostra Pesquisa ABRADEE 2004, 2006, 2007, 2008, 2009 Aplicação Iterativa das Alternativas de Alocação Espacial das Entrevistas nos Distritos, para cada Amostra da Pesquisa ABRADEE Alternativa 1 Aplicação de WLM, SAR e GWR Alternativa 2 Alternativas 3A e 3B Alternativas 4A e 4B Alternativa 5 Pontos = • Centróides • Sedes dos Distritos 1.000 “Amostras” (diferentemente alocadas no espaço) para cada Alternativa para cada Ano da Pesquisa ABRADEE Alternativa 6 1.000 Iterações por Alternativa por Pesquisa Pontos alocados pelas Alternativas Aplicação de GWR Para cada Amostra i , diferentes aplicações com kernel adaptável (fixo em número de vizinhos) considerando : Análises dos Resultados (Box plots R2 , Associação entre k e R2, homogeneidade e clusterização espacial das amostras locais GWR, entre outras) Comparação com regressões com a Localização Real das Entrevistas ki = sugerido pela minimização do AIC da Amostra i para Pesquisa ABRADEE 2009 Localização Real das Entrevistas Esquema 4.13: Diagrama da Estrutura Aplicada na Investigação Domiciliar Fonte: elaboração própria, com utilização das ferramentas ArcGIS® ArcScene 9.3, ArcView® GIS 3.2 e R 2.9.1. 183 Na etapa 1, destacada no Esquema 4.13, serão aplicados os modelos de regressão WLM, SAR e GWR nas amostras das cinco rodadas da Pesquisa ABRADEE, considerando a localização das entrevistas no centróide ou na sede de cada distrito. Em seguida (etapa 2), serão aplicados os algoritmos descritos em 4.2.2 de alocação, ou espalhamento, das entrevistas no interior dos polígonos dos distritos para a geração de 1.000 amostras para cada ano e cada algoritmo (alternativa). Na etapa 3 teremos a aplicação da GWR nas amostras resultantes da etapa 2, considerando que o tamanho da amostra k+1 será obtido a partir da minimização do AIC específica de cada amostra. Para a Pesquisa ABRADEE 2009 teremos ainda a comparação com os resultados das regressões aplicadas com a localização real das entrevistas (etapa 4). Por fim, diversas análises exploratórias (etapa 5) servirão de contexto para a discussão sobre a utilidade desses algoritmos frente ao uso mais tradicional da técnica GWR. 184 4.3 MODELO ADOTADO E METODOLOGIA EMPREGADA O Esquema 4.14 retoma o modelo de pesquisa adotado e sintetiza de forma esquemática as relações postuladas neste estudo. H3 Consumo de Energia Elétrica H1 + Renda Domiciliar + H2 + Posse de Bens Grau de Instrução do Chefe da Família Classe Econômica Brasil Formação do Indicador H1: H2: H3: Quanto maior o Consumo de Energia Elétrica residencial, maior a Renda Domiciliar (ou Familiar). Existe padrão de dependência espacial da variável Renda Domiciliar entre regiões da Grande São Paulo, com renda decrescente no sentido Centro-Periferia. Existe padrão de dependência espacial da variável Consumo de Energia Elétrica entre regiões da Grande São Paulo, com consumo de energia decrescente no sentido CentroPeriferia. Esquema 4.14: Modelo Adotado e Hipóteses consideradas neste estudo Fonte: elaboração própria. A verificação das hipóteses se dará através de técnicas estatísticas distintas, de acordo com a natureza (espacial e não espacial) das variáveis de cada um dos conjuntos de dados. Adotaremos técnicas de auto-correlação espacial e regressão linear, considerando o modelo espacial auto-regressivo (SAR) e a GWR, para a investigação territorial (em que as unidades geográficas de análise são poligonais) e também para a investigação domiciliar (em que as unidades geográficas de análise são pontuais), considerando, neste último caso, apenas um critério de proximidade para a definição de vizinhança. A não normalidade e heterocedasticidade dos resíduos em modelos de regressão tradicionais, conforme detectados em estudos anteriores (FRANCISCO, 2006), e principalmente a não estacionariedade espacial 185 do fenômeno estudado sugerem a adoção de técnicas mais sofisticadas que a regressão linear simples para o entendimento da relação entre os construtos estudados. A criação da matriz de vizinhança, baseada em contigüidade ou distância, será especialmente estudada para os casos de pontos e polígonos, e espera-se que um modelo adequado que expresse a influência do entorno no fenômeno de Renda e Consumo de Energia Elétrica para cada observação seja encontrado. Em especial, para a Investigação Territorial será aplicado um modelo “híbrido” de SAR e GWR, desenvolvido neste estudo, combinando o termo espacial auto-regressivo da SAR com as amostras locais da GWR, avaliando sua real contribuição metodológica. Em especial, para a Investigação Domiciliar será avaliada a influência da localização dos domicílios entrevistados dentro do distrito na relação entre os construtos e na verificação das hipóteses. Pretende-se averiguar a contribuição metodológica dos algoritmos de alocação de pontos em polígonos na aplicação da GWR e de outras técnicas de estatística espacial a partir de dados de pesquisas de campo. O Quadro 4.5 apresenta um resumo das hipóteses de estudo, considerando as variáveis envolvidas disponibilizadas e suas naturezas para cada conjunto de dados deste trabalho. 186 Hipótese Construto 1 Construto 2 Nível Conjunto de Dados Variável 1 (operacionalização) Nome Consumo de Energia Elétrica em Agosto/2000, Consumo de Energia Elétrica de Setembro/1999 a Agosto/2000 (sem e com a contabilização de consumidores com consumo igual a zero no cômputo das médias) Natureza dos Dados Nome Variável 2 (operacionalização) Natureza dos Dados Técnicas de Análise TERRITORIAL (polígonos) Censo Demográfico + Dados da AES Eletropaulo Contínua (em kWh) Natureza espacial: Polígonos (áreas de ponderação) Renda Total Média domiciliar, Renda Total Média Família Contínua (em reais) Natureza espacial: Polígonos (áreas de ponderação) Predição da Renda através de: Regressão Linear (OLS) Predição por Modelo Espacial Auto-regressivo (SAR), Geographically Weighted Regression (GWR), GWR+SAR e variações H1: Quanto maior o Consumo de Energia Elétrica Residencial, maior a Renda Domiciliar (ou Familiar) Consumo de Energia Elétrica Residencial Renda Domiciliar Contínua (em reais) Pesquisa ABRADEE 2004, 2006, 2007, 2008, 2009 Valor Médio da Conta de Energia Natureza espacial: Pontos (localização do domicílio, dentro do distrito informado) Renda do Domicílio Contínua (em reais) Natureza espacial: Pontos (localização do domicílio, dentro do distrito informado) DOMICILIAR (pontos) Variação da localização dos domicílios (centróide e sede do distrito, alocação através de 6 algoritmos diferentes) Predição da Renda através de: Regressão Linear (WLM), SAR, Geographically Weighted Regression (GWR) e variações Quadro 4.5: Resumo das Hipóteses de Estudo, da Natureza das Variáveis Envolvidas e das Técnicas de Análise (continua) 187 Hipótese Construto Nível Conjunto de Dados Variável (operacionalização) Nome Natureza dos Dados Contínua (em reais) Renda Total Média Domiciliar, Renda Total Média Família Natureza espacial: Polígonos (áreas de ponderação) Técnicas de Análise TERRITORIAL (polígonos) Censo Demográfico + Dados da AES Eletropaulo Auto-correlação espacial (I de Moran) a partir de diversas matrizes de vizinhança LISA maps (observação do padrão Centro-Periferia) DOMICILIAR (pontos) H2: Existe padrão de dependência espacial da variável Renda Domiciliar entre regiões da Grande São Paulo, com renda decrescente no sentido Centro-Periferia Renda Domiciliar Pesquisa ABRADEE 2004, 2006, 2007, 2008, 2009 Contínua (em reais) Renda do Domicílio Natureza espacial: Pontos (localização do domicílio, dentro do distrito informado) Variação da localização dos domicílios (centróide e sede do distrito, alocação através de 6 algoritmos diferentes) Auto-correlação espacial (I de Moran) a partir de matrizes de proximidade, variações na localização dos domicílios e no tamanho das amostras locais Quadro 4.5: Resumo das Hipóteses de Estudo, da Natureza das Variáveis Envolvidas e das Técnicas de Análise (continuação) 188 Hipótese Construto Nível Conjunto de Dados Variável (operacionalização) Nome Consumo de Energia Elétrica em Agosto/2000, Consumo de Energia Elétrica de Setembro/1999 a Agosto/2000 (sem e com a contabilização de consumidores com consumo igual a zero no cômputo das médias) Natureza dos Dados Técnicas de Análise TERRITORIAL (polígonos) H3: Existe padrão de dependência espacial da variável Consumo de Energia Elétrica entre regiões da Grande São Paulo, com consumo de energia decrescente no sentido Centro-Periferia Censo Demográfico + Dados da AES Eletropaulo Contínua (em kWh) Natureza espacial: Polígonos (áreas de ponderação) Auto-correlação espacial (I de Moran) a partir de diversas matrizes de vizinhança LISA maps (observação do padrão Centro-Periferia) Consumo de Energia Elétrica Residencial DOMICILIAR (pontos) Pesquisa ABRADEE 2004, 2006, 2007, 2008, 2009 Contínua (em reais) Valor Médio da Conta de Energia Natureza espacial: Pontos (localização do domicílio, dentro do distrito informado) Variação da localização dos domicílios (centróide e sede do distrito, alocação através de 6 algoritmos diferentes) Auto-correlação espacial (I de Moran) a partir de matrizes de proximidade, variações na localização dos domicílios e no tamanho das amostras locais Quadro 4.5: Resumo das Hipóteses de Estudo, da Natureza das Variáveis Envolvidas e das Técnicas de Análise (conclusão) Fonte: elaboração própria. 189 5 RESULTADOS Este capítulo é composto de três partes. Primeiramente, apresentam-se os resultados das análises realizadas em nível territorial, a partir dos microdados do Censo Demográfico 2000 e dos dados de consumo de energia elétrica residencial agregados por áreas de ponderação. Na segunda parte, apresentam-se os resultados das análises realizadas para os domicílios entrevistados nas diversas rodadas da Pesquisa ABRADEE. Na última parte, à luz dos resultados obtidos, discutem-se as hipóteses de investigação e as diferenças observadas nos dois níveis de investigação do modelo. 5.1 INVESTIGAÇÃO TERRITORIAL 5.1.1 RESULTADOS GERAIS Os consumidores residenciais da AES Eletropaulo em Agosto de 2000 totalizavam 3.037.992, e o total de domicílios levantados pelo Censo Demográfico 2000 era 3.039.104. Essa pequena diferença denota a apropriação da associação, é inerente a levantamentos complexos como os processos de coleta do censo, e está sujeita a eventuais falhas na base cadastral e no faturamento da distribuidora. Na pesquisa da Amostra, foram pesquisados 303.669 domicílios, representando o universo de 3.032.905 (quando consideramos a ponderação pelo peso do domicílio entrevistado em cada área de ponderação). Apenas para os domicílios particulares permanentes é realizado o levantamento do acesso à eletricidade. Do total de domicílios particulares permanentes (2.978.264), 2.975.602 (99,91%) possuíam luz elétrica. A associação do consumidor à sua área de ponderação foi feita através de análise de sobreposição espacial com base na localização geográfica do medidor de energia. A correlação entre o número de domicílios e o número de clientes residenciais da AES Eletropaulo, quando comparados por área de ponderação, que deveria, por hipótese, aproximar-se de 100%, está em 80,5%. Isso se explica, em parte, pelo efeito da localização 190 geográfica do consumidor residencial da AES Eletropaulo ser a do ponto de entrega (ativo elétrico que alimenta o medidor do domicílio, tipicamente o poste) e não do próprio domicílio, o que pode contabilizar domicílios de uma área de ponderação em uma área vizinha. Uma melhor precisão da localização geográfica dos domicílios pode aumentar essa correlação. Domicílios com múltiplos medidores de energia também afetam essa diferença. Adotaram-se nas análises posteriores os seguintes representantes para cada um dos construtos: (i) Renda Média Mensal Domiciliar; (ii) Consumo Médio Mensal de Agosto de 2000 (kWh>0); e (iii) Média da pontuação do Critério Brasil Adaptado. Aplicações das mesmas análises para os demais representantes dos construtos do modelo mostraram resultados muito semelhantes. Em especial para o Consumo de Energia Elétrica, optou-se pelo valor médio residencial do mês de Agosto de 2000, exclusive os domicílios que contabilizaram consumo igual a zero, em detrimento de outras possíveis médias e do valor médio de Setembro de 1999 a Agosto de 2000. Os histogramas do Gráfico 5.1 trazem a distribuição das variáveis supracitadas e suas principais estatísticas descritivas. Média = R$ 2.189,34 Desvio Padrão = R$ 1.713,34 Mínimo = R$ 531,73 Máximo = R$ 11.196,85 Média = 267,2 kWh Desvio Padrão = 81,6 kWh Mínimo = 76,1 kWh Máximo = 907,6 kWh Média = 13,347 Desvio Padrão = 2,519 Mínimo = 8,515 Máximo = 19,755 Gráfico 5.1: Histogramas de: 1) Renda Média Mensal Domiciliar, 2) Consumo Médio em Agosto de 2000, e 3) Média da Pontuação do CBA por Área de Ponderação para o município de São Paulo em 2000 Fonte: elaboração própria. Nota: n = 456 191 As distribuições da Renda e do Consumo de Energia Elétrica apresentam-se concentradas em seus limites inferiores (principalmente a da Renda), não simétricas, não normais, com uma cauda longa à direita. Primeiramente, ao examinar a relação entre os construtos Renda e Consumo de Energia Elétrica, por meio de diagrama de dispersão (Gráfico 5.2), procedimento inicial para a análise de dados (HAIR et al., 2005), observou-se que parece existir forte relação entre eles. A área de ponderação “Fazenda Morumbi – Jóquei Clube” (observação do extremo superior direito do gráfico) é um outlier de Renda e de Consumo de Energia para esses dados. Área de Ponderação Fazenda Morumbi Jóquei Clube Gráfico 5.2: Diagrama de Dispersão: Consumo de Energia Elétrica Domiciliar médio e Renda Domiciliar média por Área de Ponderação para o município de São Paulo em 2000 Fonte: elaboração própria. Nota: n = 456 Estudos anteriores (FRANCISCO, 2006) que trabalharam a relação entre os construtos com o uso de técnicas tradicionais ajustaram como melhor modelo uma regressão logística da Renda a partir do Consumo de Energia Elétrica – 91,0% de coeficiente de explicação (R2). O Quadro 5.1 descreve esse modelo. Note que a observação “Fazenda Morumbi – Jóquei Clube” foi retirada da amostra, por ser notadamente um outlier, o que é um procedimento usual para a análise da relação entre os construtos. Vale observar que tal procedimento não é razoável para o uso de técnicas de estatística espacial – principalmente quando consideramos dados de natureza poligonal que cobrem toda a área geográfica em estudo. Tal remoção geraria um “buraco”, ou uma descontinuidade espacial no modelo, impactando a matriz de vizinhança adotada. 192 Regressão da Renda a partir do Consumo de Energia y : Renda Média Domiciliar (R$) x : Consumo de Energia Elétrica (kWh) −1 (n = 455 áreas) Obs: 8.600 é o limite superior (assíntota) da curva −1 1 1 x x ˆ y = + β 0 β1  =  + 0,01412 (0,98665 )   8600   8600  Análise de Variância (ANOVA) Graus de Liberdade 1 453 454 Soma de Quadrados 1141826742 112533828 1254360570 Quadrado Médio 1141826742 248419 2762909 F 4596,374 valor-P 0,000 Regressão Resíduo Total R 2 = 0,910 R 2 Ajustado = 0,853 10000 Renda Média Domiciliar (R$) 5000 0 0 100 200 300 400 500 600 700 800 Consumo de Energia Elétrica (kWh) Quadro 5.1: Resultados Anteriores da Regressão da Renda Média Domiciliar a partir do Consumo de Energia Elétrica – Modelo Logístico Fonte: FRANCISCO, 2006. 193 Os mapas da Figura 5.1 apresentam o município de São Paulo dividido em áreas de ponderação e simbolizado de acordo com a Renda Média Domiciliar, a Classe Econômica Brasil e o Consumo de Energia Elétrica, respectivamente. Além de ressaltarem a forte correlação entre os três construtos (pela distribuição cloroplética muito parecida dos três mapas), destaca-se a tendência do fenômeno de concentração de Renda (e, pois, de Consumo de Energia Elétrica) ser de natureza geográfica, e ter comportamento de decrescimento da concentração no sentido Centro-Periferia. Os domicílios situados nas áreas de ponderação dos distritos Morumbi, Moema, Pinheiros, Alto de Pinheiros, Jardim Paulista, Consolação e imediações (próximos ao centro) apresentam, na média de suas áreas de ponderação, maiores rendas, consumos de energia elétrica e pontuação no Critério Brasil Adaptado. À medida que as áreas de ponderação afastam-se da região central, em direção à periferia, os valores dessas três medidas caem. Renda Média Domiciliar (R$) 531,73 a 809,97 809,98 a 996,44 996,45 a 1.208,70 1.208,71 a 1.445,13 1.445,14 a 1.742,35 1.742,36 a 2.014,33 2.014,34 a 2.338,91 2.338,92 a 2.847,07 2.847,08 a 3.547,91 3.547,92 a 4.735,28 4.735,29 a 6.503,63 6.503,64 a 8.596,90 8.596,89 a 11.196,85 Pontuação CBA 8,52 a 9,98 9,99 a 10,64 10,65 a 11,15 11,16 a 11,68 11,69 a 12,14 12,15 a 12,59 12,60 a 13,07 13,08 a 13,61 13,62 a 14,28 14,29 a 15,17 15,18 a 16,50 16,51 a 18,10 18,11 a 19,75 Consumo Energia Elétrica (kWh) 76,1 a 153,8 153,9 a 194,7 194,8 a 215,2 215,3 a 230,7 230,8 a 248,0 248,1 a 266,4 266,5 a 285,2 285,3 a 310,4 310,5 a 350,0 350,1 a 409,4 409,5 a 512,2 512,3 a 679,8 679,9 a 907,6 Figura 5.1: Mapas (croquis) das 456 áreas de ponderação do município de São Paulo, representando; (esq.) Renda Mensal Domiciliar Média, (centro) Média da Pontuação do Critério Brasil Adaptado, e (dir.) Consumo Médio Mensal Residencial de Energia Elétrica Fonte: elaboração própria. 194 O modelo logístico do Quadro 5.1 apresenta coeficiente de explicação R2 acima de 90%, representando o percentual de variância explicada da Renda Domiciliar. A regressão é estatisticamente significante, o que pode ser averiguado pela estatística F e pelo valor-P respectivo. O gráfico de resíduos não apresenta uma distribuição estritamente normal, e também demonstra um padrão de heterocedasticidade, pelo fato da magnitude do erro tender a crescer com o aumento da renda; a estrutura da relação é mais complexa do que o modelo pode prever. No entanto, considerando-se a forte relação encontrada, a hipótese H1 não pode ser rejeitada. Para correção dos problemas de heterocedasticidade e não-aleatoriedade encontrados nos resíduos, é necessária a elaboração de um modelo capaz de corrigir o termo de erro. Assim, é necessário identificar um padrão de aumento da amplitude de variação dos resíduos conforme a renda aumenta. Este padrão pode ser um padrão de dependência espacial da Renda Domiciliar, caso existam agrupamentos de áreas de ponderação com o mesmo perfil de renda no mapa do município estudado. Se a distribuição destes agrupamentos seguir algum padrão claro, a inclusão deste padrão de dependência espacial em um modelo auto-regressivo multivariado, em conjunto com a variável independente Consumo de Energia Elétrica, pode corrigir os problemas do termo de erro. Isso dado que o parâmetro ρ é estimado em uma função de máxima verossimilhança que otimiza a distribuição dos erros sob a premissa de normalidade e homocedasticidade de sua distribuição. Um estudo exploratório de distribuição espacial demonstrou um padrão visual de dependência da variável de Renda Domiciliar média, com tendência menor nas áreas de ponderação da periferia do que nas áreas centrais. Este padrão foi identificado diante da utilização da matriz de vizinhança de contigüidade (adjacência) de primeira ordem do tipo Queen37, do cálculo do indicador I de Moran e da geração de mapas do indicador de autocorrelação espacial local (LISA maps), conforme se observa no Quadro 5.2 a seguir. 37 A matriz de vizinhança de contigüidade de primeira ordem do tipo Queen considera vizinhos dois polígonos que tenham pelo menos um ponto (vértice) em comum. 195 Renda Domiciliar Grafo de Vizinhança: 5,759 links por área Consumo de Energia Elétrica Legendas: Não Significante Alto – Alto Baixo – Baixo Baixo – Alto Alto – Baixo N ão Significante p = 0,05 p = 0,01 p = 0,001 p = 0,0001 I = 0,7722 W_Consumo Energia I = 0,6661 W_Renda Renda Consumo Energia Quadro 5.2: Concentrações de áreas de ponderação com correlações locais significantes e diagramas de dispersão de Moran38 para as variáveis Renda Domiciliar e Consumo de Energia Elétrica para o Município de São Paulo, utilizando contigüidade de primeira ordem do tipo Queen Fonte: elaboração própria, com o uso do software GeoDA 0.9.5-i Beta. A simbologia tipicamente apresentada nos LISA maps é resultado da categorização dos indicadores locais em quatro classes: Alto-Alto (azul escuro, em que a área apresenta alto valor e suas áreas vizinhas também), Baixo-Baixo (vermelho escuro), BaixoAlto (azul claro) e Alto-Baixo (vermelho claro). O mapa em tons de verde apresenta a significância estatística de cada indicador local calculado e mapeado. Outras matrizes de vizinhança foram aplicadas, a título exploratório, conforme apresentado nos Quadros 5.3 e 5.4. 38 Além do discutido no tópico 3.4.1, o índice I de Moran de auto-correlação espacial pode ser entendido como o coeficiente angular da reta que melhor aproxima os dados de um diagrama de dispersão de y por Wy, ou seja, da renda pela média de renda dos vizinhos, para cada área de ponderação. 196 Vizinhança 2ª Ordem 3ª Ordem Relative Neighbor Gabriel’s Graph Sphere of Influence k = 9 vizinhos mais próximos k = 25 vizinhos mais próximos Grafo de Vizinhança (número médio de links por área) ( 18,386 ) I = 0,6748 ( 38,364 ) I = 0,5720 ( 2,697 ) I = 0,8388 ( 4,399 ) I = 0,8084 ( 4,443 ) I = 0,8246 ( 10,636 ) I = 0,7567 ( 29,246 ) I = 0,6506 Renda LISA Map N. S. A–A B–B B–A A–B LISA Significance Map N. S. p = 0,05 p = 0,01 p = 0,001 p = 0,0001 Quadro 5.3: I de Moran e LISA Maps de Renda Domiciliar para diversas Matrizes de Vizinhança das Áreas de Ponderação do município de São Paulo em 2000 Fonte: elaboração própria, com utilização dos softwares GeoDA 0.9.5-i Beta e R 2.9.1. 197 Vizinhança 2ª Ordem 3ª Ordem Relative Neighbor Gabriel’s Graph Sphere of Influence k = 9 vizinhos mais próximos k = 25 vizinhos mais próximos Grafo de Vizinhança (número médio de links por área) ( 18,386 ) I = 0,5174 ( 38,364 ) I = 0,4239 ( 2,697 ) I = 0,7010 ( 4,399 ) I = 0,6661 ( 4,443 ) I = 0,7055 ( 10,636 ) I = 0,5834 ( 29,246 ) I = 0,4744 Energia Elétrica LISA Map N. S. A–A B–B B–A A–B LISA Significance Map N. S. p = 0,05 p = 0,01 p = 0,001 p = 0,0001 Quadro 5.4: I de Moran e LISA Maps de Consumo de Energia Elétrica para diversas Matrizes de Vizinhança das Áreas de Ponderação do município de São Paulo em 2000 Fonte: elaboração própria, com utilização dos softwares GeoDA 0.9.5-i Beta e R 2.9.1. 198 A escolha de 9 e de 25 vizinhos nas últimas duas matrizes de vizinhança apresentadas nos Quadros 5.3 e 5.4 não é arbitrária, conforme será esclarecido mais adiante. Para as diversas matrizes de vizinhança analisadas, o indicador I de Moran apresentou valores altos, superiores a 0,80 em alguns casos. Isso sugere alta influência da vizinhança no comportamento da Renda Domiciliar, bem como, conforme destacado nos diagramas de dispersão, um aumento da concentração de renda no sentido Periferia-Centro. No caso da dependência espacial do Consumo de Energia Elétrica Residencial, o indicador de auto-correlação espacial apresentou-se também forte, mas de magnitude notadamente menor do que no caso da Renda. Na análise comparativa dos indicadores de dependência espacial nos diversos grafos de vizinhança adotados, quanto maior o número médio (ou constante) de vizinhos por área de ponderação, menor a magnitude do indicador I de Moran. Um acúmulo excessivo de vizinhos por área tende a diminuir a variabilidade da média (de Renda ou de Consumo de Energia) dos vizinhos, diminuindo, pois, sua associação com o valor da variável nas áreas. Independente da matriz de vizinhança adotada, percebe-se em todos os LISA maps uma configuração típica de centro Alto-Alto, de periferias Baixo-Baixo e de uma zona que circunda e delimita o centro com não significância estatística para o indicador local: basicamente uma zona de transição de regimes. Apenas para as matrizes de vizinhança com baixo número médio de vizinhos por área de ponderação não se nota uma periferia BaixoBaixo tão significativa (principalmente na região Sul no município para o comportamento do consumo de energia). Além disso, são muito pouco freqüentes as áreas do tipo Baixo-Alto e Alto-Baixo. Tal modelo Centro-Periferia já foi observado por outros autores (CÂMARA et al., 2004; ZAMBALDI; GOLDSZMIDT, 2006) no estudo de outras variáveis socioeconômicas e demográficas no município de São Paulo. Porém, o destaque importante nesta investigação é a heterogeneidade de comportamento das áreas periféricas, conforme diferença de concentração e localização das áreas Baixo-Baixo no município. Tal heterogeneidade corrobora estudos de Torres et al. (2003) sobre padrões de segregação da pobreza em São Paulo. 199 Em complementaridade ao estudo exploratório, construiu-se um variograma da Renda Domiciliar, embora tal procedimento seja próprio para análises em que a estacionariedade espacial é assumida. O variograma do Gráfico 5.3 evidencia uma relação não monotônica entre as semi-variâncias e as classes de distância; esta relação é inicialmente crescente conforme as classes de distância aumentam, mas para classes de distância com valores aproximadamente maiores do que 20 quilômetros, a semi-variância passa a decrescer. Esta relação pode ser interpretada, em conjunto com os mapas da Figura 5.1, como uma relação de dependência espacial do tipo Centro-Periferia, pois a tendência inicial da semivariância é crescente, mas decrescente nas classes mais distantes, indicando que as áreas da periferia são parecidas entre si, mesmo quando se tratam de periferias distantes umas das outras. 3e+06 Semi-variância 2e+06 1e+06 0e+00 0 1000 20000 30000 40000 Distância (m) Gráfico 5.3: Variograma da Renda Domiciliar por Área de Ponderação Fonte: elaboração própria, com uso da extensão geoR do software R 2.9.1. 5.1.2 RELAÇÃO ENTRE OS CONSTRUTOS A partir da análise espacial exploratória, procedeu-se a um diagnóstico de dependência espacial do modelo de regressão linear preditivo da Renda Domiciliar pelo Consumo de Energia, utilizando as técnicas SAR, GWR e GWR+SAR aqui introduzida. Iniciamos com o modelo de regressão linear entre as duas variáveis. Mesmo com uma relação aparentemente não linear identificada anteriormente entre as duas variáveis, que levou ao desenvolvimento da regressão logística previamente apresentada, adotamos a manutenção das variáveis como originais, e não procedemos com transformações das variáveis através de logaritmos. O princípio adotado foi o de comparação com um modelo- 200 base (OLS), para que pudéssemos melhor avaliar o efeito da incorporação da dependência espacial. O Quadro 5.5 resume os resultados deste modelo. Regressão Linear Simples (OLS) da Renda a partir do Consumo de Energia Variável Intercepto Energia Coeficiente Erro Padrão 99,94424 0,3578105 Estatística t -30,36404 54,65032 (n = 456 áreas) Probabilidade 0,0000000 0,0000000 β 0 = -3.034,711 β 1 = 19,55446 Análise de Variância (ANOVA) Graus de Liberdade 1 454 455 Soma de Quadrados 1.159.429.951 176.244.237 1.335.674.188 Quadrado Médio 1.159.429.951 388.203 F 2986,67 valor-P 0,000 Regressão Resíduo Total Real Previsto R 2 = 0,8680 R 2 Ajustado = 0,8678 Teste de Normalidade do Erro Teste 0 – 37,0 37,0 – 79,1 79,1 – 133,9 133,9 – 171,0 171,0 – 217,5 217,5 – 266,7 266,7 – 307,0 307,0 – 366,4 366,4 – 418,7 418,7 – 476,9 476,9 – 550,5 550,5 – 625,7 625,7 – 821,0 821,0 – 1.131,7 1.131,7 – 3.516,6 Jarque-Bera Graus de Liberdade 2 Valor 346,5952 Probabilidade 0,0000000 Testes de Homocedasticidade Teste Breusch-Pagan Koenker-Bassett Graus de Liberdade 2 2 Valor 486,0007 159,408 Probabilidade 0,0000000 0,0000000 Mapa de Resíduos Absolutos Quadro 5.5: Resultados da Regressão Linear da Renda a partir do Consumo de Energia Elétrica Fonte: elaboração própria, com uso da ferramenta R 2.9.1. 201 O modelo apresenta coeficiente de determinação de 86,80% e ajuste global adequado, de acordo com a estatística F, cujo valor-P é praticamente zero. A relação positiva entre o Consumo de Energia e a Renda também é evidenciada por meio da significância do coeficiente β. No entanto, conforme o Quadro 5.2, os testes com os resíduos apontam ausência de normalidade e de homocedasticidade em sua distribuição, e o diagrama de dispersão de valores previstos e resíduos também sugere heterocedasticidade. O mapa de resíduos absolutos apresentado utiliza uma escala de cores semelhante à que será adotada nos mapas de resíduos dos demais modelos, permitindo a comparação entre eles. Os diagnósticos de dependência espacial do modelo apontam que a incorporação de um termo auto-regressivo tanto da variável dependente como do erro pode aprimorar o modelo, e talvez corrigir o termo de erro. O Quadro 5.6 resume os diagnósticos de dependência espacial do modelo anterior (regressão linear por mínimos quadrados). Avaliação da dependência espacial dos resíduos – Modelo OLS Teste I de Moran Multiplicador Lagrange (lag) Robust LM (lag) Multiplicador Langrange (error) Robust LM (error) Multiplicador Lagrange (SARMA) MI/DF 0,440579 1 1 1 1 2 Valor 15,8076572 314,8620032 145,3886025 241,2265032 71,7531025 386,6151057 (n = 456 áreas) Probabilidade 0,0000000 0,0000000 0,0000000 0,0000000 0,0000000 0,0000000 I = 0,4406 Não Significante Alto – Alto Baixo – Baixo Baixo – Alto Alto – Baixo N ão Significante p = 0,05 p = 0,01 p = 0,001 p = 0,0001 W_Resíduos Resíduos Quadro 5.6: Resultados da Avaliação da Dependência Espacial dos Resíduos do Modelo OLS da Renda a partir do Consumo de Energia Elétrica no município de São Paulo Fonte: elaboração própria, com uso da ferramenta GeoDA 0.9.5-i Beta. Nota: Adotou-se a matriz de adjacência Queen de 1ª ordem como critério de vizinhança nesta avaliação. 202 De acordo com o Quadro 5.6, todos os indicadores apontam existência de dependência espacial, tanto da variável dependente espacialmente defasada quanto do termo de erro. No entanto, em uma regressão estimada por mínimos quadrados, o termo autoregressivo da variável dependente espacialmente defasada (e não a dependência espacial do termo de erro) tende a representar o principal efeito espacial omitido (ANSELIN, 1988). Neste trabalho, esta tendência se confirma, pois a magnitude das estatísticas de diagnóstico de dependência espacial (Multiplicadores de Lagrange e máxima verossimilhança robusta) é superior para a defasagem espacial do que para o termo de erro. Procedemos, pois, com a adoção de modelos espaciais globais (SAR) e locais (GWR e GWR+SAR). Foram aplicados cinco modelos SAR ao fenômeno, com variação na matriz W de vizinhança (conforme descrito em 4.1.5). O Quadro 5.7 traz os resultados do modelo com adjacência Queen de 1ª ordem. A magnitude da relação entre os construtos, bastante alta conforme modelo OLS, foi aumentada ainda de forma significativa – coeficiente de determinação de 94,44%. O modelo apresenta-se normal, conforme teste de Kolmogorov-Smirnov, e com ajuste global adequado. O modelo ainda apresenta traços de heterocedasticidade, conforme diagrama de resíduo por valor esperado e teste de Breusch-Pagan. Os outros modelos SAR adotados apresentam comportamento bastante similar. De qualquer forma, os coeficientes estimados corroboram a hipótese H1 proposta neste trabalho, ou seja, de que a elasticidade da Renda domiciliar pelo Consumo de Energia Elétrica é positiva, e de que esta relação apresenta um padrão de dependência espacial no Município de São Paulo. O Quadro 5.8 descreve a significativa diminuição da dependência espacial do termo de erro. 203 SAR Matriz Adjacência 1ª ordem da Renda a partir do Consumo de Energia Variável Intercepto Energia W_Renda Coeficiente Erro Padrão 74,69827 0,3887655 0,02076246 z value -30,24053 32,40733 23,8258 (n = 456 áreas) Probabilidade 0,0000000 0,0000000 0,0000000 β 0 = -2.258,915 β 1 = 12,59885 ρ = 0,4946822 Real Previsto R 2 = 0,9444 Teste de Dependência Espacial Teste Graus de Liberdade Likelihood Ratio Test 1 Valor 371,4199 Probabilidade 0,0000000 Teste de Normalidade do Erro 0 – 37,0 37,0 – 79,1 79,1 – 133,9 133,9 – 171,0 171,0 – 217,5 217,5 – 266,7 266,7 – 307,0 307,0 – 366,4 366,4 – 418,7 418,7 – 476,9 476,9 – 550,5 550,5 – 625,7 625,7 – 821,0 821,0 – 1.131,7 1.131,7 – 3.516,6 Teste Graus de Liberdade Jarque-Bera 2 Kolmogorov-Smirnov Z Valor 209,3283 1,052 Probabilidade 0,0000000 0,0000000 Testes de Homocedasticidade Teste Graus de Liberdade Breusch-Pagan 2 Valor 175,328 Probabilidade 0,0000000 Mapa de Resíduos Absolutos Quadro 5.7: Resultados do Modelo SAR com matriz de adjacência Queen de 1ª ordem da Renda a partir do Consumo de Energia Elétrica no município de São Paulo Fonte: elaboração própria, com R 2.9.1 e ArcView® GIS 3.2. 204 Avaliação da dependência espacial dos resíduos – Modelo SAR (n = 456 áreas) I = 0,1223 Não Significante Alto – Alto Baixo – Baixo Baixo – Alto Alto – Baixo N ão Significante p = 0,05 p = 0,01 p = 0,001 p = 0,0001 W_Resíduos Resíduos Quadro 5.8: Resultados da Avaliação da Dependência Espacial dos Resíduos do Modelo SAR da Renda a partir do Consumo de Energia Elétrica no município de São Paulo Fonte: elaboração própria, com uso da ferramenta GeoDA 0.9.5-i Beta. Nota: Adotou-se a matriz de adjacência Queen de 1ª ordem como critério de vizinhança nesta avaliação. Uma transformação adicional, aplicada a todos os modelos empregados neste estudo, de forma comparativa, foi a extração dos logaritmos (neperianos) da Renda e do Consumo de Energia Elétrica. Essa adoção corrige definitivamente os problemas de heterocedasticidade dos modelos SAR, e resulta em um diagrama de dispersão mais linear do que o da dispersão das duas variáveis antes da transformação. Ao final deste tópico 5.1.2 (Quadro 5.12) serão apresentados resultados comparativos destacando essa transformação. Foram aplicados dois modelos locais GWR às variáveis originais. Adotaram-se kernels adaptáveis do tipo gaussiano e bi-square, com o número (fixo) de vizinhos sugerido pela minimização do AIC. Para o modelo gaussiano, foram k =9 vizinhos ( AIC c = 6.697,299 , conforme Equação 3.16) e para o modelo bi-quadrado k = 25 ( AIC c = 6.680,287 ). Nota-se a melhoria significativa no comportamento dos resíduos e na explicação da Renda Domiciliar. O coeficiente de determinação R2 do modelo GWR foi 96,80%, o histograma de resíduos aparenta normalidade e a auto-correlação espacial (I de Moran) do termo de erro é praticamente zero (-0,0154), o que indica que a dependência espacial da relação foi convenientemente capturada pelo modelo de regressão. O Quadro 5.9 mostra os resultados do modelo gaussiano. 205 GWR com kernel gaussiano (k = 9) da Renda a partir do Consumo de Energia Variável Intercepto ( β 0 ) Energia ( β 1 ) Real Previsto Mínimo -4.868,0 4,443 1º Quartil -2.784,0 10,840 Mediana -1.768,0 15,380 3º Quartil -976,6 18,780 (n = 456) Máximo 1748,0 25,700 R 2 = 0,9680 Teste de Normalidade do Erro Teste Jarque-Bera 0 – 37,0 37,0 – 79,1 79,1 – 133,9 133,9 – 171,0 171,0 – 217,5 217,5 – 266,7 266,7 – 307,0 307,0 – 366,4 366,4 – 418,7 418,7 – 476,9 476,9 – 550,5 550,5 – 625,7 625,7 – 821,0 821,0 – 1.131,7 1.131,7 – 3.516,6 Graus de Liberdade 2 Valor 18,1973 Probabilidade 0,0000000 Testes de Homocedasticidade Teste Graus de Liberdade Valor Breusch-Pagan 2 0,0830395 Probabilidade 0,7732202 Dependência Espacial dos Resíduos I = -0,0154 Mapa de Resíduos Absolutos W_Resíduos Resíduos Quadro 5.9: Resultados da Regressão GWR com kernel gaussiano (k = 9) da Renda a partir do Consumo de Energia Elétrica Fonte: elaboração própria, com uso das ferramentas GeoDA 0.9.5-i Beta, ArcView® GIS 3.2 e R 2.9.1. Uma característica do GWR muito importante para análise em modelos locais é a variação dos parâmetros do modelo no espaço. Os coeficientes Intercepto ( β 0 ) e Energia ( β1 ) passam a capturar diferentemente (em cada amostra local) suas influências na explicação da 206 Renda. Regiões mais ricas podem ter influência do Consumo de Energia Elétrica distinta de regiões mais pobres. A distribuição espacial dos parâmetros está nos mapas da Figura 5.2. Distribuição Espacial dos Parâmetros – Modelo GWR (k = 9) (n = 456) Intercepto ( β 0 ) Figura 5.2: Consumo de Energia Elétrica ( β1 ) Distribuição Espacial dos Parâmetros Intercepto e Energia do Modelo GWR com kernel adaptável (k = 9) da Renda a partir do Consumo de Energia Elétrica no município de São Paulo Fonte: elaboração própria, com uso da ferramenta ArcView® GIS 3.2. Os mapas mostram que as áreas de alta renda (centrais) têm baixa contribuição do Consumo de Energia Elétrica (baixos valores de β1 ) no modelo, e, pois, partem de um patamar alto (altos valores de β 0 , relativos à sua distribuição) de renda. Para algumas áreas de baixa renda (em especial, na periferia Norte e Sul do município), o fenômeno é exatamente o inverso. Assim, as diferenças locais do modelo se destacam, melhorando as estimativas. No modelo com kernel adaptável bi-square (k = 25 vizinhos) o comportamento da relação entre as distribuições espaciais dos parâmetros é similar. Analisou-se ainda a influência do tamanho das amostras locais na magnitude e variabilidade dos parâmetros locais. O Gráfico 5.4 mostra os valores do parâmetro Intercepto ( β 0 ) em modelos GWR com kernel adaptável quando variamos de 3 até 455 vizinhos. O Gráfico 5.5 é semelhante para o parâmetro Consumo de Energia Elétrica ( β1 ). Os mapas de ambos os gráficos, utilizando uma mesma escala de cores, destacados para determinados 207 valores de k, mostram como as diferenças dos parâmetros locais diminuem à medida que aumentamos o tamanho das amostras locais – e também destacam o comportamento praticamente inverso dos parâmetros β 0 e β1 em todos os tamanhos k+1 das amostras locais analisadas. Gráfico 5.4: Variação da Distribuição do Parâmetro Intercepto (box-plots, pontos e mapas) dos Modelos GWR e SAR da Renda pelo Consumo de Energia Elétrica de acordo com a variação do tamanho da amostra local (k+1) no município de São Paulo Fonte: elaboração própria, com uso da ferramenta R 2.9.1. 208 Gráfico 5.5: Variação da Distribuição do Parâmetro Consumo de Energia Elétrica (box-plots, pontos e mapas) dos Modelos GWR e SAR da Renda pelo Consumo de Energia Elétrica de acordo com a variação do tamanho da amostra local (k+1) no município de São Paulo Fonte: elaboração própria, com uso da ferramenta R 2.9.1. À medida que as amostras locais aumentam, a variabilidade dos parâmetros diminui, conforme notamos nos box-plots e nos mapas dos gráficos, de forma que o valor mediano tende para os parâmetros da regressão linear por mínimos quadrados. O parâmetro Energia do modelo SAR tende para o parâmetro do OLS também, porém o intercepto do modelo SAR tem comportamento diferente – estabilizado em torno de R$ -3.500,00 no intervalo de 120 a 230 vizinhos, β 0 sobe conforme aumenta o número de vizinhos até estabilizar-se em torno do valor R$ -133,00. Esse comportamento pode ser explicado pela configuração Centro-Periferia da Renda nas áreas de ponderação do município de São Paulo. A partir de um certo número de 209 vizinhos (230), a média de renda dos vizinhos de cada área fica muito diferente da renda da área, o que diminui a influência (magnitude) do parâmetro W_Renda. Isso ocorre porque a partir de uma certa distância de cobertura, a renda da vizinhança da área passa a estar em um regime diferente da renda, para cada área. Tal fenômeno é corroborado pelo variograma do Gráfico 5.3, em que a semi-variância passou a decrescer para distâncias maiores do que 20 quilômetros, aproximadamente. O Gráfico 5.6 ilustra o comportamento do parâmetro W_Renda. Gráfico 5.6: Variação da Distribuição do Parâmetro do Termo Espacial Auto-Regressivo do Modelo SAR da Renda pelo Consumo de Energia Elétrica de acordo com a variação do tamanho da amostra local (k+1) no município de São Paulo Fonte: elaboração própria, com uso da ferramenta R 2.9.1. Assim como os parâmetros são mapeáveis, o coeficiente de explicação do modelo (R ) também tem variações locais. E, conforme discutido nos diagramas das matrizes de vizinhança, quanto maior o tamanho das amostras locais (ou do número de vizinhos de cada área), menor a dependência espacial do modelo, ou seja, menor a magnitude do indicador de de auto-correlação espacial I de Moran. Os Gráficos 5.7 e 5.8 mostram a variação do R2 nos diversos modelos adotados conforme aumentamos o tamanho da amostra local, e também a influência do tamanho da amostra no indicador I de Moran para a Renda e o Consumo de Energia Elétrica. 2 210 Gráfico 5.7: Variação da Distribuição do Coeficiente de Explicação R2 (global e locais) dos Modelos GWR e SAR da Renda pelo Consumo de Energia Elétrica de acordo com a variação do tamanho da amostra local (k+1) no município de São Paulo Fonte: elaboração própria, com uso da ferramenta R 2.9.1. Adicionalmente, foram aplicados cinco modelos da técnica de regressão GWR+SAR, desenvolvida nesta tese, que incorpora o termo auto-regressivo espacial nas amostras locais da técnica GWR. Os resultados do modelo que utiliza matriz de proximidade (k = 9) estão no Quadro 5.10. Os modelos GWR+SAR apresentaram-se tão estáveis e robustos quanto os modelos GWR. A magnitude da associação entre Renda e Consumo de Energia Elétrica foi, inclusive, aumentada ligeiramente, com relação aos modelos GWR correspondentes quanto à matriz de vizinhança adotada – um dos modelos (GWR+SAR com adjacência Queen de 1ª ordem) apresentou explicação de 98,01%, o maior valor dentre os 16 modelos analisados. O modelo do Quadro 5.10 apresenta R2 de 97,42%, normalidade, homocedasticidade e não dependência espacial significativa dos resíduos (I de Moran dos resíduos muito próximo de zero: -0,0853). 211 GWR+SAR com k = 9 vizinhos da Renda a partir do Consumo de Energia Variável Intercepto ( β 0 ) Energia ( β 1 ) W_Renda ( ρ ) Real Previsto Mínimo -7.512,86 -5,034 -1,088 1º Quartil -2.769,29 9,007 -0,124 Mediana -1.728,27 13,032 0,112 3º Quartil -588,87 17,554 0,342 (n = 456) Máximo 3.934,03 36,665 0,900 R 2 = 0,9742 Teste de Normalidade do Erro Teste Jarque-Bera 0 – 37,0 37,0 – 79,1 79,1 – 133,9 133,9 – 171,0 171,0 – 217,5 217,5 – 266,7 266,7 – 307,0 307,0 – 366,4 366,4 – 418,7 418,7 – 476,9 476,9 – 550,5 550,5 – 625,7 625,7 – 821,0 821,0 – 1.131,7 1.131,7 – 3.516,6 Graus de Liberdade 2 Valor 14,7680 Probabilidade 0,0000000 Testes de Homocedasticidade Teste Graus de Liberdade Valor Breusch-Pagan 2 0,0604391 Probabilidade 0,780054 Dependência Espacial dos Resíduos I = -0,0853 W_Resíduos Mapa de Resíduos Absolutos Resíduos Quadro 5.10: Resultados da Regressão GWR+SAR com k = 9 vizinhos da Renda a partir do Consumo de Energia Elétrica Fonte: elaboração própria, com uso das ferramentas GeoDA 0.9.5-i Beta, ArcView® GIS 3.2 e R 2.9.1. A diferença entre os modelos GWR+SAR e GWR está na incorporação do parâmetro ρ nas amostras locais, o que o torna “mapeável”, assim como os parâmetros β 0 e 212 β1 o são para os modelos GWR. O parâmetro ρ é assumidamente constante e diferente de zero nos modelos SAR e, por hipótese, ρ = 0 para os modelos OLS e GWR. A Figura 5.3 apresenta a distribuição espacial dos parâmetros desse modelo. Para efeito comparativo entre os modelos, a escala cloroplética dos parâmetros β 0 e β1 apresenta cores e intervalos similares aos do modelo GWR apresentado na Figura 5.2. Distribuição Espacial dos Parâmetros – Modelo GWR+SAR (k = 9) (n = 456) Intercepto ( β 0 ) Figura 5.3: Consumo de Energia Elétrica ( β1 ) W_Renda ( ρ ) Distribuição Espacial dos Parâmetros Intercepto e Energia do Modelo GWR+SAR com kernel adaptável (k = 9) da Renda a partir do Consumo de Energia Elétrica no município de São Paulo Fonte: elaboração própria, com uso da ferramenta ArcView® GIS 3.2. A incorporação do termo espacial auto-regressivo local diminuiu o efeito compensatório significativo entre os parâmetros Intercepto e Energia notado no modelo GWR. Neste caso, nem sempre temos β 0 alto e β1 baixo, e sim uma composição destes com ρ altos e baixos. Parte da influência de uma “renda inicial” (intercepto) em modelos lineares foi capturada pelo termo espacial auto-regressivo da Renda nos modelos SAR locais. De forma resumida, o Quadro 5.11 apresenta os resultados dos 16 modelos desenvolvidos para a explicação da Renda a partir do Consumo de Energia Elétrica. 213 Modelo Fórmula R2 OLS SAR – Adjacência de 1ª ordem SAR – Adjacência de 2ª ordem SAR – Adjacência de 3ª ordem y = β 0 + β1 x + ε y = −3034,71 + 19,55 x + ε y = β 0 + β 1 x + ρWy + ε y = −2258,91 + 12,60 x + 0,49Wy + ε y = β 0 + β 1 x + ρWy + ε y = −2545,34 + 13,59 x + 0,50Wy + ε y = β 0 + β 1 x + ρWy + ε y = −2824 ,13 + 14,59 x + 0,49Wy + ε 86,80% 94,44% 93,95% 92,98% Gráfico Real Previsto Gráfico Resíduos Mapa de Resíduos Absolutos 0 – 37,0 37,0 – 79,1 79,1 – 133,9 133,9 – 171,0 171,0 – 217,5 217,5 – 266,7 266,7 – 307,0 307,0 – 366,4 366,4 – 418,7 418,7 – 476,9 476,9 – 550,5 550,5 – 625,7 625,7 – 821,0 821,0 – 1.131,7 1.131,7 – 3.516,6 Quadro 5.11: Resultados dos Modelos de Regressão da Renda (y) a partir do Consumo de Energia Elétrica (x) no município de São Paulo (continua) 214 Modelo Fórmula R2 SAR – Relative Neighbor SAR – Gabriel’s Graph SAR – Sphere of Influence SAR – k=9 vizinhos mais próximos y = β 0 + β 1 x + ρWy + ε y = −2124,92 + 12,42 x + 0,45Wy + ε y = β 0 + β 1 x + ρWy + ε y = −2113,10 + 11,97 x + 0,51Wy + ε y = β 0 + β 1 x + ρWy + ε y = −2056 ,11 + 11,77 x + 0,50Wy + ε y = β 0 + β 1 x + ρWy + ε y = −2303,64 + 12,73 x + 0,50Wy + ε 93,77% 94,44% 94,18% 94,48% Gráfico Real Previsto Gráfico Resíduos Mapa de Resíduos Absolutos 0 – 37,0 37,0 – 79,1 79,1 – 133,9 133,9 – 171,0 171,0 – 217,5 217,5 – 266,7 266,7 – 307,0 307,0 – 366,4 366,4 – 418,7 418,7 – 476,9 476,9 – 550,5 550,5 – 625,7 625,7 – 821,0 821,0 – 1.131,7 1.131,7 – 3.516,6 Quadro 5.11: Resultados dos Modelos de Regressão da Renda (y) a partir do Consumo de Energia Elétrica (x) no município de São Paulo (continuação) 215 Modelo Parâmetros R2 (global) SAR – k=25 vizinhos GWR – Kernel adaptável Gaussiano (k=9) GWR – Kernel adaptável Bi-square (k=25) y = β 0 + β 1 x + ρWy + ε y = −2624,34 + 13,80 x + 0,51Wy + ε y ( g ) = β 0 ( g ) + β1 ( g ) x + ε Mín 1Q Med 3Q Máx y ( g ) = β 0 ( g ) + β1 ( g ) x + ε Mín 1Q Med 3Q Máx GWR+SAR – Adjacência de 1ª ordem y ( g ) = β 0 ( g ) + β 1 ( g ) x + ρ ( g )W ( g ) y ( g ) + ε Mín 1Q Med 3Q Máx β 0 : − 4868 − 2784 − 1768 − 976 1748 β1 : 4,44 10,84 15,38 18,78 25,70 β 0 : − 5113 − 2631 − 1682 − 844 2117 β1 : 2,90 10,11 14,45 18,30 27,63 β 0 : − 13875 − 2764 − 1260 316 15355 β1 : − 10,30 7,64 12,85 18,12 64,57 ρ: − 1,20 − 0,45 − 0,04 0,27 0,85 94,03% 96,80% 96,92% 98,01% Gráfico Real Previsto Gráfico Resíduos Resíduos Absolutos e R2 local 0,37 – 0,60 0,60 – 0,71 0,71 – 0,80 0,80 – 0,85 0,85 – 0,89 0,89 – 0,92 0,92 – 0,95 0,95 – 0,97 0,97 – 0,98 0,98 – 0,990 0,990 – 0,995 0,995 – 1 Quadro 5.11: Resultados dos Modelos de Regressão da Renda (y) a partir do Consumo de Energia Elétrica (x) no município de São Paulo (continuação) 216 Modelo Parâmetros R2 (global) GWR+SAR – Adjacência de 2ª ordem GWR+SAR – Adjacência de 3ª ordem y ( g ) = β 0 ( g ) + β 1 ( g ) x + ρ ( g )W ( g ) y ( g ) + ε Mín 1Q Med 3Q Máx GWR+SAR – k=9 vizinhos y ( g ) = β 0 ( g ) + β 1 ( g ) x + ρ ( g )W ( g ) y ( g ) + ε Mín 1Q Med 3Q Máx GWR+SAR – k=25 vizinhos y ( g ) = β 0 ( g ) + β 1 ( g ) x + ρ ( g )W ( g ) y ( g ) + ε Mín 1Q Med 3Q Máx y ( g ) = β 0 ( g ) + β 1 ( g ) x + ρ ( g )W ( g ) y ( g ) + ε Mín 1Q Med 3Q Máx 156 β 0 : − 4066 − 2782 − 2173 − 1600 5,09 10,51 13,47 15,15 21,37 β1 : ρ : − 0,53 0,27 0,37 0,46 0,75 β 0 : − 6314 − 2870 − 2016 − 1242 2861 9,71 13,07 16,26 30,95 β1 : − 0,31 ρ : − 1,06 0,14 0,30 0,45 0,79 β 0 : − 7513 − 2769 − 1728 − 589 3934 9,01 13,03 17,55 36,66 β1 : − 5,03 ρ : − 1,09 − 0,12 0,11 0,34 0,90 β 0 : − 4677 − 2852 − 2081 − 1391 2441 5,13 9,58 13,37 15,76 24,84 β1 : ρ : − 0,40 0,24 0,36 0,45 0,75 96,54% 95,16% 97,42% 95,95% Gráfico Real Previsto Gráfico Resíduos Resíduos Absolutos e R2 local 0,37 – 0,60 0,60 – 0,71 0,71 – 0,80 0,80 – 0,85 0,85 – 0,89 0,89 – 0,92 0,92 – 0,95 0,95 – 0,97 0,97 – 0,98 0,98 – 0,990 0,990 – 0,995 0,995 – 1 Quadro 5.11: Resultados dos Modelos de Regressão da Renda (y) a partir do Consumo de Energia Elétrica (x) no município de São Paulo (conclusão) Fonte: elaboração própria, com utilização dos softwares ArcView® GIS 3.2 e R 2.9.1. 217 O Quadro 5.11 traz ainda os mapas da distribuição espacial do R2 das amostras locais para os modelos GWR e GWR+SAR. A transformação aplicada nos modelos, com a extração dos logaritmos (neperianos) da Renda e do Consumo de Energia Elétrica, corrigiu a heterocedasticidade ainda existente em alguns modelos espaciais (notadamente, os SAR) e manteve a robustez e estabilidade dos modelos, diminuindo, no entanto, o poder de explicação. O Quadro 5.12 compara os coeficientes de explicação dos modelos originais e dos transformados. R2 Modelos OLS – Regressão Linear Simples SAR com adjacência de 1ª ordem SAR com adjacência de 2ª ordem SAR com adjacência de 3ª ordem SAR com adjacência Relative Neighbor SAR com adjacência Gabriel’s Graph SAR com adjacência Sphere of Influence SAR com proximidade de k Gauss = 9 SAR com proximidade de k Bi − square = 25 GWR com kernel adaptável gaussiano a partir de minimização do AIC – k Gauss = 9 GWR com kernel adaptável bi-square a partir de minimização do AIC – k Bi − square = 25 GWR+SAR com adjacência local de 1ª ordem GWR+SAR com adjacência local de 2ª ordem GWR+SAR com adjacência local de 3ª ordem GWR+SAR com proximidade de k Gauss = 9 GWR+SAR com proximidade de k Bi − square = 25 x→y 86,80% 94,44% 93,95% 92,98% 93,77% 94,44% 94,18% 94,48% 94,03% 96,80% 96,92% 98,01% 96,54% 95,16% 97,42% 95,95% ln( x) → ln( y ) 81,51% 93,67% 93,02% 91,91% 93,20% 93,47% 93,43% 93,55% 92,33% 95,92% 96,19% 97,45% 95,78% 94,61% 96,83% 95,23% x→ y ln( x ) → ln( y ) Quadro 5.12: Comparação entre os Modelos de Regressão com as Variáveis Originais e Transformadas (logaritmos neperianos) da explicação da Renda a partir do Consumo de Energia Elétrica Fonte: elaboração própria, com uso da ferramenta R 2.9.1. 218 5.1.3 VERIFICAÇÃO DAS HIPÓTESES A partir das análises desenvolvidas no tópico 5.1.2, que descrevem o comportamento das variáveis, suas distribuições espaciais, e os modelos de dependência espacial, pudemos verificar as hipóteses na investigação territorial neste trabalho. O Quadro 5.13 apresenta os resultados das hipóteses testadas. Proposição H1: Quanto maior o Consumo de Energia Elétrica Residencial, maior a Renda Domiciliar (ou Familiar) Resultado Conforme esperado. Observações Os modelos de dependência espacial local (GWR e GWR+SAR) mostraramse mais robustos, estáveis e com comportamento normal e homocedástico dos resíduos. Valores de R2 superiores a 93% em todos os modelos espaciais. Altos valores do I de Moran da Renda (superiores a 0,75 na maioria das matrizes de vizinhança adotadas) mostram alta dependência espacial. LISA maps destacam concentração de alta renda no centro, áreas de transição no entorno e heterogeneidade das baixas rendas nas regiões periféricas. Análise da variação do número de vizinhos e variograma constatam padrão CentroPeriferia. Altos valores do I de Moran do Consumo de Energia Elétrica (superiores a 0,58 na maioria das matrizes de vizinhança adotadas) mostram alta dependência espacial. LISA maps destacam concentração de alto consumo no centro, áreas de transição no entorno e heterogeneidade (maior do que da renda) dos baixos consumos médios nas regiões periféricas. Análise da variação do número de vizinhos constata padrão Centro-Periferia. H2: Existe padrão de dependência espacial da variável Renda Domiciliar entre regiões da Grande São Paulo, com renda decrescente no sentido Centro-Periferia Conforme esperado; adicionalmente, o padrão Centro-Periferia é uma simplificação da distribuição espacial da Renda no município de São Paulo. H3: Existe padrão de dependência espacial da variável Consumo de Energia Elétrica entre regiões da Grande São Paulo, com consumo de energia decrescente no sentido Centro-Periferia Conforme esperado; adicionalmente, o padrão Centro-Periferia é uma simplificação da distribuição espacial do Consumo de Energia Elétrica no município de São Paulo. Quadro 5.13: Resultados das Hipóteses na Investigação Territorial Fonte: elaboração própria. 219 5.2 INVESTIGAÇÃO DOMICILIAR As análises desenvolvidas em nível domiciliar e territorial mostraram resultados semelhantes em associação, mas distintos em magnitude. Os resultados da investigação domiciliar, a partir da Pesquisa ABRADEE, serão apresentados neste tópico, que está dividido em três partes. Os resultados gerais de cada rodada da pesquisa são apresentados na primeira parte. A relação entre os construtos compõe a segunda parte, em que os modelos de regressão aplicados são comparados, à luz da incorporação da dependência espacial. A terceira parte apresenta os resultados da aplicação iterada das técnicas de alocação de pontos nos polígonos dos distritos, e explora características dessas distribuições espaciais distintas. 5.2.1 RESULTADOS GERAIS Conforme descrito no tópico 4.2.1, a amostra válida para este trabalho compreende as entrevistas da Pesquisa ABRADEE realizadas nos anos de 2004, 2006, 2007, 2008 e 2009, no município de São Paulo, em que o respondente informou a renda familiar em reais e o valor médio da conta de luz (utilizada como proxy do Consumo de Energia Elétrica Residencial) em reais. A Figura 5.4 a seguir traz os mapas com os distritos amostrados para as entrevistas realizadas no município de São Paulo e os totais de entrevistas a serem consideradas. Excepcionalmente, a Pesquisa ABRADEE realizada em 2005 não coletou a renda domiciliar em reais do entrevistado, tornando-a não aplicável a este estudo de acordo com as técnicas utilizadas. 220 2004 2006 2007 entrevistas válidas distritos 750 662 entrevistas válidas distritos 750 717 74 entrevistas válidas distritos 700 670 73 75 2008 2009 entrevistas válidas distritos 700 654 78 entrevistas válidas distritos 700 677 73 Figura 5.4: Distritos amostrados do município de São Paulo para a Pesquisa ABRADEE em 5 rodadas, com entrevistas válidas para este estudo Fonte: elaboração própria, com utilização da ferramenta ArcView® GIS 3.2. A cobertura espacial dos distritos amostrados ao longo das rodadas anuais da Pesquisa ABRADEE é adequada, englobando distritos localizados em regiões centrais e periféricas da cidade. O Gráfico 5.8 traz as médias anuais das variáveis Renda Domiciliar e Valor da Conta de Luz na Pesquisa ABRADEE. Essas variáveis apresentam um comportamento condizente com as tendências de evolução dessas informações, conforme já discutido no Capítulo 2 e apresentado nos Gráficos 2.11 e 2.12. Vale notar a queda da renda domiciliar média e do valor de conta de luz médio em 2009, efeito provável da Crise Mundial de crédito deflagrada no quarto trimestre de 2008. Esse efeito (notado no Gráfico 2.11, para a renda domiciliar mensal da RMSP segundo dados acumulados durante 2008) não foi capturado em 2008 na Pesquisa ABRADEE devido ao campo ter ocorrido em Março, antes da crise. 221 150,00 140,00 130,00 120,00 2.179,90 110,00 R$ 100,00 90,00 80,00 70,00 60,00 50,00 2004 2005 2006 2007 2008 2009 84,93 Participação da Conta de Luz na Renda Domiciliar 3000,00 2800,00 Renda Domiciliar Mensal Média 2.431,85 2600,00 2400,00 2.437,70 2.117,33 2200,00 2000,00 98,23 101,45 99,23 91,12 1600,00 1400,00 1200,00 1000,00 Valor Médio da Conta de Luz 1800,00 R$ 1.922,16 Gráfico 5.8: Evolução da Renda Domiciliar Média, do Valor de Conta de Luz Médio e da Participação Percentual da Conta de Luz na Renda Domiciliar de 5 rodadas da Pesquisa ABRADEE para o município de São Paulo Fonte: elaboração própria. Nota: Valores médios ponderados de acordo com o peso de cada entrevista. A participação percentual média da conta de luz na renda domiciliar apresenta-se entre 6,1% e 7,2% (média de 6,65%) no período estudado, em gradativa diminuição desde 2006. Tal participação é aparentemente maior do que a apontada pela Pesquisa de Orçamentos Familiares (POF) do IBGE de 2002-2003, que mede a participação de diversos gastos (monetárias e não monetárias) nas despesas domiciliares (e não na renda domiciliar). A defasagem temporal e diferenças de operacionalização entre o levantamento do IBGE e o da Pesquisa ABRADEE e, talvez mais fortemente, uma sobrevalorização acrescida de arredondamentos da declaração dos respondentes na Pesquisa ABRADEE leva a essa diferença. De qualquer forma, a ligeira queda de participação da conta de luz na renda domiciliar de 2004 a 2008 pode ser derivada do Gráfico 2.11. A Tabela 5.1 traz os valores de Renda per capita, Valor da Conta de Luz per capita, e número médio de moradores por domicílio para as rodadas da Pesquisa ABRADEE. Os dados são comparados com os levantamentos da Pesquisa Nacional por Amostra de Domicílios (PNAD) do IBGE, disponíveis até 2008, e mostram bastante aderência. Os dados 222 da PNAD são da RMSP, enquanto que os da Pesquisa ABRADEE referem-se apenas ao município de São Paulo. Tabela 5.1: Estatísticas Descritivas de Valor da Conta de Luz, Renda Domiciliar, Moradores por Domicílio, Valor da Conta de Luz per capita e Renda Domiciliar per capita de 5 rodadas da Pesquisa ABRADEE para o município de São Paulo n Rodada Pesquisa ABRADEE 2004 2006 2007 2008 2009 662 717 670 654 677 Valor da Conta de Luz Mín. Máx. Média Desvio (R$) (R$) (R$) Padrão (R$) 11,00 12,00 10,00 10,00 10,00 372,00 450,00 500,00 523,00 400,00 84,93 98,23 101,45 99,23 91,12 49,36 54,62 59,03 60,02 50,47 Renda Domiciliar Máx. Média Desvio (R$) (R$) Padrão (R$) 10.000 15.000 10.000 20.000 11.000 1.922,16 2.179,90 2.431,85 2.437,70 2.117,33 1.713,58 1.961,95 2.051,94 2.333,27 1.790,04 Mín. (R$) 100,00 250,00 200,00 140,00 200,00 Média PNAD (R$) 2.299,02 2.650,88 2.698,70 2.631,15 Rodada n Pesquisa ABRADEE 2004 2006 2007 2008 2009 662 717 670 654 677 Moradores por Domicílio Mín. Máx. Média Desvio Média Padrão PNAD 1 1 1 1 1 10 10 15 14 15 3,75 3,60 3,83 3,51 3,53 1,52 1,48 1,61 1,64 1,63 3,40 3,27 3,22 3,13 Valor da Conta de Luz per capita Mín. Máx. Média Desvio (R$) (R$) (R$) Padrão (R$) 3,67 3,25 3,67 3,75 2,00 130,00 216,00 150,00 200,00 169,00 24,84 30,41 28,98 31,96 28,35 15,19 18,92 17,05 22,07 17,34 n Rodada Pesquisa ABRADEE 2004 2006 2007 2008 2009 662 717 670 654 677 Mín. (R$) 25,00 31,11 50,71 35,71 66,43 Renda per capita Máx. Média Desvio (R$) (R$) Padrão (R$) 4.820 6.500 4.000 6.500 7.000 592,75 697,90 721,06 819,55 700,16 579,11 706,29 672,03 834,82 726,60 Média PNAD (R$) 547,42 709,67 764,47 824,49 Fonte: elaboração própria. Notas: Média e Desvio Padrão da Pesquisa ABRADEE ponderados de acordo com o peso de cada entrevista. A média PNAD da Renda per capita é resultado da razão entre renda domiciliar média e número médio de moradores por domicílio – não é publicada a média de Renda per capita de cada domicílio nas PNADs anuais. Dados PNAD referem-se à Região Metropolitana de São Paulo. O Gráfico 5.9 traz os histogramas de distribuição da Renda Domiciliar e do Valor de Conta de Luz e os diagramas de dispersão de Renda e Valor de Conta de Luz para as rodadas da Pesquisa ABRADEE. 223 Gráfico 5.9: Histogramas e Diagramas de Dispersão de Valor de Conta de Luz e de Renda Domiciliar de 5 rodadas da Pesquisa ABRADEE para o município de São Paulo Fonte: elaboração própria. 2009 2008 2007 2006 2004 224 A variabilidade das variáveis Renda e Valor da Conta de Luz é aparentemente similar em todas as rodadas – concentradas em seus limites inferiores (principalmente a da Renda), não simétricas, não normais, com uma cauda longa à direita. A diferença está nos valores máximos observados em algumas rodadas (em 2008 uma renda domiciliar de R$ 20 mil foi declarada, e em 2007 e 2008 contas de luz de R$ 500 ou mais também). Há uma alta concentração de valores de conta de luz entre 40 e 100 reais, e de renda domiciliar entre 500 e 2.000 reais para todas as rodadas em geral (apenas em 2004 a concentração de renda maior é de 0 a 1.500 reais). Há uma queda substancial de freqüência para valores acima desses intervalos. Os diagramas de dispersão sugerem baixa associação linear entre as variáveis, em todas as rodadas. A alta dispersão das variáveis corrobora os desvios padrão de alta magnitude apresentados na Tabela 5.1. A substituição do Consumo de Energia Elétrica (informação não coletada) pelo Valor da Conta de Luz em reais incorpora o efeito da tributação e do custo diferenciado do quilowatt-hora conforme a categoria de tarifação. Os domicílios classificados como Tarifa Baixa Renda têm uma carga de impostos bastante reduzida em relação aos domicílios sem esse benefício. Além disso, os domicílios que são faturados a partir do valor avençado de seu consumo não terão necessariamente no Valor da Conta de Luz em reais uma representação fiel do consumo efetivo do domicílio. Essas ressalvas devem ser feitas na análise da relação entre a Renda e o Valor da Conta de Luz. A rodada de 2004 da Pesquisa ABRADEE coletou a informação de Classe Econômica Brasil, apenas em suas categorias (7 classes), e não nas pontuações do Critério Brasil (que variava de 0 a 34 em 2004). A classe C é a mais freqüente, com 249 domicílios dos 656 do total da amostra. O Gráfico 5.10 mostra essa distribuição, e a dispersão da Renda Domiciliar por Classe Econômica. A distribuição de freqüência das classes econômicas é aderente à distribuição esperada das classes econômicas do Critério Brasil39 para São Paulo, conforme ABEP (2004). Além disso, a Renda têm médias mais altas conforme são mais elevadas as classes econômicas; e suas variâncias também crescem. As classes econômicas D e E têm 39 2 Teste qui-quadrado χ obs = 8,170 e para α = 0,05 , e 6 graus de liberdade o valor crítico é 12,592. Assim, não rejeitamos a hipótese de que a distribuição dos valores observados da classe econômica Brasil da Pesquisa ABRADEE segue a distribuição esperada do Critério Brasil, para São Paulo, conforme ABEP (2004) – A1: 1%; A2: 6%; B1: 10%; B2: 16%; C: 38%; D: 26%; e E: 2%. 225 comportamentos parecidos para a Renda domiciliar, ressalvada a quase inexistência de representantes da classe E na amostra de 2004 (apenas 2 domicílios). Vemos que a mediana da distribuição da Renda por classe econômica aumenta para as classes mais altas, o que também é acompanhado pelo aumento em sua dispersão. A classe A1 apresenta poucos representantes na amostra (apenas 9), o que dificulta a manutenção das tendências destacadas, em comparação à classe A2, com mais representantes (55). O box-plot do Gráfico 5.10 detalha essa relação. Gráfico 5.10: Histograma da Classe Econômica Brasil e Box-Plots da Renda Domiciliar por Classe Econômica Brasil da Pesquisa ABRADEE para o município de São Paulo em 2004 Fonte: elaboração própria. Nota: n = 656 Os domicílios amostrados nos distritos selecionadas das cinco rodadas da Pesquisa ABRADEE foram associados a pontos no interior dos polígonos dos distritos. Inicialmente, adotamos duas posições para a localização dos domicílios: o centróide40 do distrito e a sede41 do distrito. A Figura 5.5 mostra as diferenças de posição geográfica dos pontos adotados para cada distrito. De forma exploratória, analisamos a existência de auto-correlação espacial nas variáveis Renda e Valor da Conta de Luz nas amostras de domicílios utilizadas. Uma vez que a concentração espacial dessas variáveis é muito significativa no contexto territorial, como pudemos analisar no tópico 5.1, é de se esperar que parte desta influência esteja refletida nas amostras estudadas, e possa ser captada de acordo com a localização dos domicílios. 40 Tipicamente, o centróide é o centro de massa do polígono. Em casos desse centro de massa estar localizado fora do polígono, o que pode ocorrer para polígonos não convexos, foi adotado um ponto central no interior do distrito. A sede administrativa do distrito é uma informação publicada pelo IBGE. 41 226 Utilizamos vizinhança mínima de 4 vizinhos para cada observação (considerando vizinhos todas as observações em um mesmo distrito [mesmo ponto], e vizinhos dos distritos mais próximos em caso de menos de 5 entrevistas válidas por distrito). Observamos valores significantes de I de Moran para as duas variáveis: em torno de 0,30 para a Renda e de 0,22 para o Valor da Conta de Luz, conforme apresenta a Tabela 5.2. Figura 5.5: Posição Geográfica dos Centróides e das Sedes dos Distritos do município de São Paulo Fonte: elaboração própria, com utilização da ferramenta ArcView® GIS 3.2. Tabela 5.2: Auto-Correlação Espacial da Renda e do Valor da Conta de Luz para as observações de cinco rodadas da Pesquisa ABRADEE para o município de São Paulo n Rodada Pesquisa ABRADEE I de Moran Localização = Centróides Renda Valor da Domiciliar Conta de Luz 0,3112 0,3080 0,3066 0,2985 0,2976 0,2224 0,2276 0,2204 0,2298 0,2117 Localização = Sede Renda Valor da Domiciliar Conta de Luz 0,3112 0,3080 0,3066 0,2968 0,2731 0,2232 0,2276 0,2204 0,2271 0,2104 2004 2006 2007 2008 2009 662 717 670 654 677 Fonte: elaboração própria. Nota: Vizinhança mínima de 4 vizinhos para cada entrevista. 227 Esses valores não são desprezíveis e sugerem a adoção de técnicas de estatística espacial para a avaliação da associação entre as variáveis em estudo. O tópico 5.2.2, a seguir, apresenta os resultados dessa avaliação. 5.2.2 RELAÇÃO ENTRE OS CONSTRUTOS Aplicamos a técnica de regressão linear simples (com pesos diferentes para as observações) da Renda pelo Valor da Conta de Luz para as amostras das cinco rodadas da Pesquisa ABRADEE. Os resultados detalhados para a Pesquisa ABRADEE 2004 estão no Quadro 5.14 a seguir, e os das outras rodadas, de forma resumida, no Quadro 5.15. Pesquisa ABRADEE 2004 Regressão Linear (WLM) da Renda a partir do Valor da Conta de Luz Variável Coeficiente Erro Padrão Estatística t (n = 662 entrevistas) Probabilidade Intercepto Valor Conta de Luz β 0 = 618,192 β 1 = 16,054 119,659 1,276 5,166 12,585 0,0000000 0,0000000 Análise de Variância (ANOVA) Graus de Liberdade 1 660 661 Soma de Quadrados 567.538 2.364.904 2.932.442 Quadrado Médio 567.538 3.583 4.436 F valor-P Regressão Resíduo Total 158,397 0,00000 R 2 = 0,1935 Real Previsto R 2 Ajustado = 0,1923 Erro Padrão Residual (RSE) = 59,86 Quadro 5.14: Resultados da Regressão Linear da Renda a partir do Consumo de Energia Elétrica para a Pesquisa ABRADEE 2004 – Investigação Domiciliar Fonte: elaboração própria, com uso da ferramenta R 2.9.1. 228 Pesquisa ABRADEE 2006 n = 717 ˆ y = 675,35 + 15,48 x R2 = 0,1805 R2 Ajustado = 0,1793 F = 157,4 (valor-P = 0,00000) RSE = 66,38 Pesquisa ABRADEE 2007 n = 670 ˆ y = 844,04 + 16,21x R2 = 0,1742 R2 Ajustado = 0,1730 F = 140,9 (valor-P = 0,00000) RSE = 72,09 Pesquisa ABRADEE 2008 ˆ n = 654 y = 622,91 + 14,87 x R2 = 0,1802 R2 Ajustado = 0,1789 F = 143,3 (valor-P = 0,00000) RSE = 74,54 Pesquisa ABRADEE 2009 ˆ n = 677 y = 779,16 + 15,13 x R2 = 0,1783 R2 Ajustado = 0,1766 F = 134,6 (valor-P = 0,00000) RSE = 73,85 Quadro 5.15: Resultados da Regressão Linear da Renda (y) a partir do Consumo de Energia Elétrica (x) para a Pesquisa ABRADEE de 2006 a 2009 no município de São Paulo – Investigação Domiciliar Fonte: elaboração própria, com uso da ferramenta R 2.9.1. Os resultados da regressão linear ponderada (WLM) são muito similares entre as rodadas – todos apresentam coeficiente de explicação (R2) relativamente baixo (média de 0,18) e os parâmetros (principalmente o β1 ) são de magnitude também similar. Além disso, os resíduos são claramente heterocedásticos, e não parece haver problemas de normalidade. Isso é corroborado pela aparência dos diagramas de dispersão da Renda e do Valor da Conta de Luz apresentados no Gráfico 5.9, anterior. Os modelos lineares apresentam poder de explicação similar mesmo quando removemos as observações com valores extremos de renda ou de valor de conta de luz. Aplicamos a técnica de regressão espacial Geographically Weighted Regression (GWR) às amostras da Pesquisa ABRADEE. Adotamos o kernel adaptável (fixação do número k de vizinhos), com k sugerido pela minimização do AIC, para cada amostra, 229 utilizando o centróide ou a sede dos distritos como localização dos domicílios entrevistados. Os resultados estão nos Quadros 5.16 (rodada de 2004) e 5.17 (demais rodadas). A minimização do AIC sugeriu os seguintes tamanhos (k+1) das amostras locais para a rodada de 2004: 58 (8,7% da amostra global, AIC c = 11476,0 ) para centróides dos distritos e 48 (7,3%, AIC c = 11480,6 ) para sedes dos distritos. Pesquisa ABRADEE 2004 GWR com kernel adaptável gaussiano da Renda a partir do Valor da Conta de Luz Domicílios nos Centróides dos Distritos Variável Mínimo 1º Quartil Mediana 3º Quartil (n = 662) Máximo Intercepto ( β 0 ) Valor Conta de Luz ( β 1 ) Análise de Variância (ANOVA) Graus de Liberdade 59,17 601,83 661 -631 -9,18 573 6,55 868 10,8 1.391 17,4 2.943 31,1 Regressão Resíduo Total Soma de Quadrados 1.278.251 1.654.191 2.932.442 Quadrado Médio 567.538 3.583 4.436 F valor-P 7,860 0,00000 R 2 = 0,4359 Real Previsto AIC c = 11476,0 Amostra Local: k = 57 (0,08763 da Amostra Global) Quadro 5.16: Resultados da GWR (com kernel adaptável gaussiano) da Renda a partir do Consumo de Energia Elétrica para a Pesquisa ABRADEE 2004 – Investigação Domiciliar (continua) Fonte: elaboração própria, com uso da ferramenta R 2.9.1. 230 Domicílios nas Sedes dos Distritos Variável Mínimo 1º Quartil Mediana 3º Quartil Máximo Intercepto ( β 0 ) Valor Conta de Luz ( β 1 ) Análise de Variância (ANOVA) Graus de Liberdade 72,55 588,45 661 -781 -9,18 486 6,55 876 10,8 1.334 17,7 3.150 32,6 Regressão Resíduo Total Soma de Quadrados 1.338.073 1.594.369 2.932.442 Quadrado Médio 18.443 2.709 4.436 F valor-P 6,807 0,00000 R 2 = 0,4563 Real Previsto AIC c = 11480,6 Amostra Local: k = 47 (0,07251 da Amostra Global) Quadro 5.16: Resultados da GWR (com kernel adaptável gaussiano) da Renda a partir do Consumo de Energia Elétrica para a Pesquisa ABRADEE 2004 – Investigação Domiciliar (conclusão) Fonte: elaboração própria, com uso da ferramenta R 2.9.1. Para as demais rodadas o número de elementos nas amostras locais sugerido pela minimização do AIC foi muito próximo do encontrado para a rodada de 2004. As amostras locais têm seus tamanhos variando de 5,71% (sedes – 2006) a 9,10% (centróides – 2007) da amostra global, conforme a rodada. Os tamanhos absolutos variaram de 38 elementos (2008) a 61 (centróides – 2006). Na comparação entre centróides e sedes, as variações foram pequenas; a maior diferença de tamanho de amostras foi encontrada na rodada de 2004. Considerando que temos, em média, 9 entrevistas por distrito (de 8,4 a 9,7, conforme a rodada; vide Figura 5.3), esse tamanho de amostra local representa uma cobertura geográfica local que deve compreender entrevistas de 4 a 7 distritos, aproximadamente, o que sugere uma variabilidade interessante à amostra local. 231 Pesquisa ABRADEE 2006 (n = 717) Centróides k = 43 – AICc = 12.717 R2 = 0,4217 GL = 82,52 F = 10,44 (valor-P = 0,00000) Mín Pesquisa ABRADEE 2007 (n = 670) Centróides k = 61 – AICc = 11.904 R2 = 0,4569 GL = 115,2 F = 5,71 (valor-P = 0,00000) 1Q 381 4,13 Med 1063 13,5 3Q 1574 20,3 Sedes k = 41 – AICc = 12.716 R2 = 0,4262 GL = 84,46 F = 10,08 (valor-P = 0,00000) Mín − 716 − 3,38 1Q 365 7,81 Med 819 12,0 Sedes k = 57 – AICc = 11.899 R2 = 0,4605 GL = 116,8 F = 5,54 (valor-P = 0,00000) 1Q 398 3.42 Med 1014 13,0 3Q 1511 210 , Máx 5966 50,8 β 0 : − 874 394 β1 : − 3,12 7,07 1Q Med 3Q Máx 843 1343 3659 12,6 17,0 46,8 3Q Máx Mín 1385 4322 − 2351 17,0 47,3 −14,4 Máx Mín 6009 −1922 57,4 −14,4 Pesquisa ABRADEE 2008 (n = 654) Centróides k = 38 – AICc = 11.570 R2 = 0,4987 GL = 83,78 F = 6,83 (valor-P = 0,00000) Mín Pesquisa ABRADEE 2009 (n = 677) Centróides k = 44 – AICc = 11.478 R2 = 0,4411 GL = 65,00 F = 11,91 (valor-P = 0,00000) 1Q 309 7,52 Med 584 145 , 3Q 884 22,1 Sedes k = 38 – AICc = 11.558 R2 = 0,5116 GL = 84,84 F = 6,39 (valor-P = 0,00000) Mín − 4060 − 20,9 1Q 352 4,41 Med 745 109 , 3Q 1330 17,2 Sedes k = 43 – AICc = 11.477 R2 = 0,4418 GL = 66,6 F = 11,59 (valor-P = 0,00000) 1Q 248 7,86 Med 577 14,7 3Q 821 22,1 Máx 3313 412 , β 0 : − 2992 409 β1 : − 18,9 4,19 1Q Med 3Q Máx 847 1385 6166 9,21 15,2 52,5 Máx Mín 6561 −1003 601 − 0,668 , Máx Mín 4682 −1560 50,5 1,62 Quadro 5.17: Resultados da GWR (com kernel adaptável gaussiano) da Renda a partir do Consumo de Energia Elétrica para a Pesquisa ABRADEE de 2006 a 2009 – Investigação Domiciliar Fonte: elaboração própria, com uso da ferramenta R 2.9.1. 232 A adoção da GWR aumentou substancialmente o poder de explicação do modelo. O coeficiente de determinação R2 saiu de um patamar de 0,181 para atingir 0,455 em média (0,451 para centróides e 0,459 para sedes). Esse ganho ocorreu para todas as rodadas, sem exceções. A diferença entre os modelos baseados nos centróides e nas sedes foi mínima para todos os anos, e praticamente desprezível nas rodadas de 2006, 2007 e 2009, o que parece indicar que a escolha de um ponto no interior do polígono pode ser arbitrária para alocar todas as entrevistas ocorridas naquele polígono. Além disso, os modelos GWR aparentemente mantiveram a normalidade dos resíduos e melhoraram significativamente seu comportamento heterocedástico, com relação aos modelos lineares globais, conforme sugerem os diagramas de resíduo versus variável independente. Vale destacar também a variabilidade local dos parâmetros β . A mediana de cada parâmetro β i em cada rodada tem ordem de grandeza parecida com o valor do parâmetro no modelo global WLM. De forma complementar, aplicamos modelos globais Spatial Auto-Regressive models (SAR) às amostras utilizando uma vizinhança mínima de 4 vizinhos a cada entrevista (considerando todas as entrevistas ocorridas em um mesmo distrito como vizinhas entre si) – o mesmo critério de vizinhança adotado para a exploração da auto-correlação espacial nesta investigação domiciliar, conforme Tabela 5.2, anterior. Vale destacar que a vizinhança média por entrevista é de 8,4 a 9,7 vizinhos, conforme Figura 5.3. Os resultados estão resumidos a seguir, no Quadro 5.18. Modelo SAR – Pesquisa ABRADEE 2004 (n = 662) Centróides Variável Intercepto Conta Luz Sedes z value -1,092 11,606 11,544 Coef. Std Error 123,70 1,1745 0,04210 Prob. 0,2749 0,0000 0,0000 Variável Intercepto Conta Luz Coef. Std Error 126,12 1,1809 0,04244 z value -1,156 11,503 11,658 Prob. 0,2479 0,0000 0,0000 W_Renda β0 = -135,06 β1 = 13,631 ρ = 0,48596 W_Renda β0 = -145,74 β1 = 13,584 ρ = 0,49473 R = 0,3306 2 Número Médio de Vizinhos: 9,5740 R = 0,3339 2 Número Médio de Vizinhos: 9,6103 233 Pesquisa ABRADEE 2006 (n = 717) Centróides ˆ y = −89,84 + 13,90 x + 0,420Wy Pesquisa ABRADEE 2007 (n = 670) Centróides ˆ y = 80,35 + 14,63 x + 0,371Wy Sedes ˆ y = −70,29 + 14,01x + 0,401Wy Sedes ˆ y = 75,75 + 14,90 x + 0,358Wy R = 0,3230 2 R = 0,3284 2 R = 0,3264 2 R2 = 0,3200 Nº Médio Viz. = 11,627 Nº Médio Viz. = 11,297 Nº Médio Viz. = 11,314 Nº Médio Viz. = 11,528 Pesquisa ABRADEE 2008 (n = 654) Centróides ˆ y = 176,80 + 14,05 x + 0,265Wy Pesquisa ABRADEE 2009 (n = 677) Centróides R = 0,3393 2 Sedes R = 0,3500 2 Sedes ˆ y = −24,78 + 14,63 x + 0,390Wy ˆ ˆ y = 146,11 + 13,94 x + 0,2841Wy y = −29,49 + 14,70 x + 0,388Wy R = 0,3430 2 R2 = 0,3397 Nº Médio Viz. = 11,785 Nº Médio Viz. = 11,462 Nº Médio Viz. = 11,520 Nº Médio Viz. = 11,859 Quadro 5.18: Resultados da SAR da Renda (y) a partir do Consumo de Energia Elétrica (x) para a Pesquisa ABRADEE de 2004 a 2009 – Investigação Domiciliar Fonte: elaboração própria, com uso da ferramenta R 2.9.1. Nota: Vizinhança mínima de 4 vizinhos por entrevista – todas em um mesmo distrito são vizinhas entre si. 234 Os modelos SAR da Renda a partir do Valor da Conta de Luz mostraram muita similaridade entre as rodadas e principalmente entre as localizações baseadas nos centróides e das sedes. O coeficiente de explicação R2 atingiu valor médio de 0,333, um pouco melhor na rodada de 2008 (atingiu 0,350 para as sedes). No entanto, transparecem problemas de heterocedasticidade, conforme diagrama de dispersão dos resíduos. Com relação aos parâmetros, nota-se que β1 mantém valor médio de 14,2, com pouca variação entre as regressões: de 13,5 a 14,9 . O mesmo praticamente ocorre com ρ , que varia apenas entre 0,26 e 0,49, obtendo valor médio de 0,386. O parâmetro β 0 , por sua vez, apresenta tendência similar à da evolução da renda média ao longo das rodadas da Pesquisa ABRADEE (vide Gráfico 5.8 e Tabela 5.1). Tal movimento para o intercepto, ou contribuição inicial da renda ao modelo, é bastante razoável. Considerando um valor médio entre os modelos de centróides e de sedes, β 0 tem valor de -140,40 reais em 2004, -80,06 em 2006, fica positivo em 2007 (78,05), sobe até 161,45 em 2008 e cai para -27,13 em 2009. O mesmo comportamento, porém em direção inversa, ocorre com o parâmetro ρ , que representa a contribuição da renda da vizinhança ao modelo: o movimento é decrescente até 2008 (0,49 em 2004, 0,41 em 2006, 0,36 em 2007, 0,27 em 2008) e sobe para 0,39 em 2009. Os modelos espaciais adotados conseguiram incorporar a dependência espacial da relação entre Renda e Valor de Conta de Luz. Analisando a auto-correlação espacial (I de Moran) dos resíduos dos três tipos de modelos de regressão adotados, o modelo WLM (não espacial por definição) tem valor médio de I Res WLM = 22,83% , bastante significativo, enquanto que os modelos SAR e GWR têm apenas I Res SAR = −1,22% e I Res GWR = −1,64% , praticamente zero, o que sinaliza não auto-correlação espacial. A Tabela 5.3 detalha esses valores. 235 Tabela 5.3: Auto-Correlação Espacial dos Resíduos dos Modelos de Regressão WLM, GWR e SAR adotados na explicação da Renda pelo Valor da Conta de Luz para 5 rodadas da Pesquisa ABRADEE para o município de São Paulo n Rodada Pesquisa ABRADEE I de Moran dos Resíduos SAR (Spatial AutoRegressive model) Centróides Sedes WLM (Weighted Linear Model) Centróides Sedes 0,2281 0,2405 0,2024 0,2530 0,2230 0,2287 0,2427 0,1919 0,2541 0,2187 GWR (Geographically Weighted Regression) Centróides Sedes -0,0157 -0,0178 -0,0144 -0,0104 -0,0202 -0,0227 -0,0173 -0,0128 -0,0166 -0,0164 2004 2006 2007 2008 2009 662 717 670 654 677 -0,0120 -0,0065 -0,0228 -0,0206 -0,0069 -0,0069 -0,0038 -0,0232 -0,0147 -0,0044 Fonte: elaboração própria. Notas: A localização das entrevistas não diferencia os resultados do modelo WLM, apenas o critério de vizinhança adotado para o cálculo do I de Moran dos resíduos. Utilizamos as mesmas matrizes de vizinhança do modelo global SAR para o cálculo do WLM. No caso dos modelos GWR foi utilizada vizinhança dos k vizinhos mais próximos conforme minimização do AIC. Comparando os três modelos aplicados às amostras de cinco rodadas da Pesquisa ABRADEE, percebemos um melhor poder de explicação na adoção da abordagem local, através da GWR. Problemas com heterocedasticidade dos resíduos foram mais bem tratados com esse modelo, além de o coeficiente de determinação R2 ter atingido um valor médio de 0,455, em detrimento do modelo SAR (com R2 médio de 0,333) e do modelo original tradicional WLM, com R2 de 0,181. Finalmente, para a rodada de 2004, pudemos avaliar a contribuição conjunta do Valor da Conta de Luz e do Critério Brasil na explicação da Renda Domiciliar. Aplicamos os modelos de regressão WLM e GWR e os resultados mostraram ganhos significativos na incorporação das informações de energia elétrica e na adoção de modelos espaciais. Apenas entrevistas com Valor de Conta de Luz e Classe do Critério Brasil informadas foram consideradas, o que diminuiu nossa amostra de 662 para 656 domicílios nesta análise. Inicialmente analisamos a relação entre a Renda Domiciliar e as classes do Critério Brasil. A análise de variância mostra que o ganho relativo na previsão da Renda, obtido pela introdução da variável qualitativa Classe Econômica, foi de 57,14% (estatística R 2 = 0,5714 , conforme Bussab e Morettin, 2003), valor muito similar ao encontrado com os dados do LSE do IBOPE em 2000 (ABEP, 2008b). A Tabela 5.4 traz as estatísticas descritivas da Renda por Classe Econômica e os resultados da medida de associação. 236 Tabela 5.4: Estatísticas Descritivas e Análise de Variância (ANOVA) da Renda por Classe Econômica Brasil na Pesquisa ABRADEE para o município de São Paulo em 2004 Classe Econômica Brasil Renda n Mínimo (R$) Máximo (R$) Média Desvio Padrão (R$) (R$) Variância (R$ × R$) A1 A2 B1 B2 C D E Todos 9 55 96 129 249 116 2 656 3.500,00 1.000,00 300,00 450,00 100,00 100,00 380,00 100,00 10.000,00 10.000,00 8.000,00 6.000,00 4.820,00 2.500,00 600,00 10.000,00 5.800,00 4.903,00 3.137,00 1.953,50 1.219,20 616,70 490,00 1.907,23 1.842,00 2.047,00 1.609,00 1.049,40 759,30 371,00 156,00 1.698,52 3.392.964,00 4.190.209,00 2.588.881,00 1.101.240,00 576.536,00 137.641,00 24.336,00 2.884.979,10 Variância Total da Renda = 2.884.979,10 Média Ponderada da Variância da Renda por Classe Econômica Brasil = 1.236.529,50 Ganho relativo na variância: R 2 = 0,5714 Fonte: elaboração própria O Quadro 5.19 apresenta os resultados da regressão linear multivariada (WLM) da Renda Domiciliar a partir da Classe Econômica Brasil (transformada em 6 variáveis dummies) e do Valor Médio da Conta de Luz. O método stepwise excluiu da análise a variável referente à classe D (com valor-P de 0,957), o que indica que a diferenciação entre domicílios de classe D e E (considerando apenas 2 domicílios classe E da amostra) não adiciona poder de explicação ao modelo. 237 Regressão WLM: Renda Domiciliar a partir da Classe Econômica e Conta de Luz (n = 656) y : Renda Total Domiciliar (R$) x A1 , x A2 , x B1 , x B 2 , xC : Dummies da Classe Econômica Brasil (1: Pertence, 0: Não Pertence) x L : Valor Médio da Conta de Luz (R$) ˆ y = β 0 + β L x L + β A1 x A1 + β A 2 x A 2 + β B1 x B1 + β B 2 x B 2 + β C xC ˆ y = 482,9 + 2,626 x L + 4.833,3 x A1 + 4.039,7 x A 2 + 2.432,7 x B1 + 1.265,0 x B 2 + 545,2 x C Análise de Variância (ANOVA) Regressão Resíduo Total Graus de Liberdade 6 649 655 Soma de Quadrados 1.805.396 1.123.539 2.928.935 Quadrado Médio 300.899,3 1.731,2 4.471,7 F 173,81 valor-P 0,000 R 2 = 0,6164 Variáveis Intercepto R 2 Ajustado = 0,6025 Coeficientes 482,947 2,626 4.833,265 4.039,679 2.432,741 1.264,963 545,180 Erro Padrão Coeficiente 119,712 1,096 408,476 202,651 162,616 148,363 127,109 t 4,034 2,395 11,832 19,934 14,960 8,526 4,289 valor-P 0,000 0,005 0,000 0,000 0,000 0,000 0,000 Variance Inflation Factor 1,4 1,2 1,7 1,7 1,8 2,0 xL x A1 x A2 x B1 xB2 xC Auto-Correlação Espacial dos Resíduos: I Res WLM = 18,47% Quadro 5.19: Resultados da Regressão WLM da Renda Domiciliar pelo Valor da Conta de Luz e Critério Brasil na Pesquisa ABRADEE 2004 no município de São Paulo Fonte: elaboração própria, com uso da ferramenta R 2.9.1. O modelo apresenta bom poder de explicação, com R2 de 0,6164 (ANOVA: F = 173,81 e valor-P = 0,000), com significância de 0,005 do coeficiente β L do Valor Médio 238 da Conta de Luz. Análises com a remoção de prováveis pontos influentes e outliers da Renda e do Valor da Conta mostraram não mudar a natureza da relação, nem a magnitude da explicação, e mantiveram a contribuição do Valor da Conta de Luz diretamente ao modelo. Os valores do Variance Inflation Factor (VIF) dos coeficientes β das variáveis preditoras ficaram bem abaixo de 5, o que indica não haver multicolinearidade no modelo (SICSÚ, 2004). Pela complexidade da relação, antecipada pelo diagrama de dispersão, essa regressão não pôde capturar uma parcela considerável da explicação da variabilidade do fenômeno. A forma das “manchas” dos diagramas de dispersão para cada categoria de classe econômica do Gráfico scatter-plot do Quadro 5.19, anterior, indica, sem dúvida, a natureza não linear da relação e a existência de heterocedasticidade nos resíduos em modelos lineares aplicados (mesmo transformados). A aplicação da GWR aumentou o poder de explicação do modelo. Utilizando a sede dos distritos para alocar as entrevistas, o coeficiente de determinação R2 atingiu 0,7686, com a diminuição significativa do comportamento heterocedástico e a manutenção da normalidade dos resíduos, e a incorporação da dependência espacial ao modelo, conforme gráficos do Quadro 5.20, a seguir, que traz os resultados desta regressão. Resultados muito similares foram encontrados com a alocação dos pontos pelos centróides dos distritos (R2 = 0,7543, k = 55 e AIC c = 11050,0 ). Como o poder de explicação da Renda pelo Critério Brasil era de 0,5714 (vide Tabela 5.4), a incorporação do Consumo de Energia Elétrica (através da proxy Valor da Conta de Luz) e a adoção de técnicas de estatística espacial aumentaram essa explicação para um patamar de 0,75, melhorando o comportamento dos resíduos e fortalecendo a perspectiva local. 239 GWR: Renda Domiciliar a partir da Classe Econômica e Conta de Luz (Kernel adaptável Gaussiano, entrevistas alocadas na Sede dos distritos) (n = 656) y , x A1 , x A2 , x B1 , x B 2 , xC , x L : Conforme Quadro 5.19 Análise de Variância (ANOVA) Regressão Resíduo Total Graus de Liberdade 154,39 500,61 655 Soma de Quadrados 1.299.643 1.629.292 2.928.935 Quadrado Médio 8.417,9 3.254,6 4.471,7 F 2,5865 valor-P 0,000 R 2 = 0,7686 Variável Intercepto AIC c = 11034 Mínimo -1.388,947 -7,853244 0 0 836,118 161,774 -350,893 Amostra Local: k = 58 (0,08841 da Amostra Global) 1º Quartil 371,778 -1,236850 0 2.063,174 1.544,755 958,712 385,086 Mediana 514,662 2,036116 0 3.515,478 2.316,375 1.307,872 540,771 3º Quartil 688,171 4,630181 4.187,783 4.745,272 3.270,674 1.716,002 795,217 Auto-Correlação Espacial dos Resíduos: Máximo 1.630,784 15,469420 6.115,614 6.801,285 7.611,121 3.355,207 2.515,203 xL x A1 x A2 x B1 xB2 xC I Res GWR = −2,56% Quadro 5.20: Resultados da GWR da Renda Domiciliar pelo Valor da Conta de Luz e Critério Brasil na Pesquisa ABRADEE 2004 no município de São Paulo Fonte: elaboração própria, com uso da ferramenta R 2.9.1. Analisando conjuntamente as cinco rodadas da Pesquisa ABRADEE utilizadas na investigação domiciliar, a adoção das técnicas de estatística espacial mostrou-se extremamente contributiva à explicação da Renda pelo Valor da Conta de Luz. Em especial, o uso do modelo local GWR trouxe ganhos ao poder de explicação dos modelos e ao tratamento dos resíduos. No entanto, partiu-se de uma visão simplificada da representação geográfica dos domicílios entrevistados, através de sua alocação a um ponto arbitrário (centróide ou sede) no interior dos distritos. Dessa forma, a influência (traduzida como peso nas matrizes de 240 vizinhança) mútua de todas as entrevistas situadas em um mesmo distrito (entenda-se, mesmo ponto, nesses termos) passou a ser máxima (peso w=1), e as observações situadas em um determinado distrito vizinho passaram a ter uma mesma influência (não máxima) para elas. Isso não é uma influência factível, uma vez que na prática não temos todos os domicílios situados em um mesmo ponto. Por isso, buscamos avaliar, adicionalmente, nesta investigação domiciliar, o quanto um esquema de ponderação diferenciado afeta a explicação da Renda pelo Valor da Conta de Luz. O tópico 5.2.3 traz o resultado da aplicação da técnica GWR às amostras da Pesquisa ABRADEE realocadas no espaço conforme as seis alternativas descritas no tópico 4.2.2. 5.2.3 APLICAÇÃO DE GWR SOBRE AS AMOSTRAS REALOCADAS Adotamos 6 alternativas de espalhamento dos pontos no interior dos polígonos que descrevem espacialmente os distritos de São Paulo. A alternativa 1 considera um espalhamento completamente aleatório no polígono, a alternativa 2 baseia-se na densidade de domicílios no interior dos polígonos e as alternativas 3A e 3B baseiam-se na densidade de Consumo de Energia Elétrica, ou Valor da Conta de Luz (com diferenças na pré-seleção das áreas mais “aptas” na alternativa 3B). Já as alternativas 4A e 4B selecionam domicílios existentes de acordo com o Valor da Conta de Luz (com diferenças na pré-seleção dos domicílios mais “aptos” na alternativa 4B) e a alternativa 5 considera um espalhamento completamente aleatório nas áreas “sorteáveis” (urbanas) dos polígonos. A alternativa 6 simula o procedimento amostral da Pesquisa ABRADEE e sorteia setores censitários e entrevistas em seus interiores. O tópico 4.2.2 descreve as alternativas implementadas e o Apêndice B traz os códigos desenvolvidos para elas, na linguagem R. Foram aplicadas 1.000 iterações de cada alternativa, ou seja, foram geradas 1.000 amostras (diferentes apenas na localização espacial dos domicílios) para cada rodada da Pesquisa ABRADEE. Para cada uma dessas amostras foi aplicada a GWR da Renda a partir do Valor da Conta de Luz, com amostra local baseada na minimização do AIC específica para essa amostra – o que é um processo oneroso computacionalmente. Foram gastas, no total, 241 cerca de 1.050 horas de processamento, em máquina Intel® Core® Centrino® Duo T5250 de 1,50 GHz com Windows Vista™ Home Premium e 2 GBytes de RAM. O Gráfico 5.11 e a Tabela 5.5 trazem os resultados centrais da proposta de implementação das alternativas de alocação de pontos em polígonos, com os box-plots da dispersão do R2 das 1.000 iterações computadas e as respectivas estatísticas descritivas. Pesquisa ABRADEE 2004 Pesquisa ABRADEE 2006 WLM GWR sede WLM GWR sede SAR s ede SAR centr GWR centr Alternativas de Alocação GWR centr SAR centr SAR s ede Alternativas de Alocação Pesquisa ABRADEE 2007 Pesquisa ABRADEE 2008 WLM GWR sede WLM GWR sede SAR sede GWR centr GWR centr SAR centr Alternativas de Alocação SAR centr SAR sede Alternativas de Alocação Gráfico 5.11: Dispersão do R2 da GWR das 1.000 iterações das 6 alternativas de alocação de pontos em polígonos da Pesquisa ABRADEE de 2004 a 2008 para o município de São Paulo Fonte: elaboração própria. 242 Tabela 5.5: Estatísticas Descritivas da GWR para as Alternativas de Alocação de Pontos em Polígonos da Pesquisa ABRADEE de 2004 a 2008 para o município de São Paulo 2004 (n=662) WLM GWR GWR centr sede SAR centr SAR sede Alternativas 1 2 3A 3B 4A 4B 5 6 Coeficiente de Determinação R2 (considerando a minimização do AIC para cada amostra) Média 0,3864 0,3993 0,3988 0,3939 0,3999 0,3917 0,3896 0,4083 0,1935 0,4359 0,4563 0,3306 0,3339 Mediana 0,3833 0,3936 0,3944 0,3935 0,3945 0,3904 0,3857 0,4059 Desv Pad 0,0319 0,0331 0,0321 0,0308 0,0334 0,0289 0,0315 0,0406 2006 (n=717) WLM GWR GWR centr sede SAR centr SAR sede Alternativas 1 2 3A 3B 4A 4B 5 6 Coeficiente de Determinação R2 (considerando a minimização do AIC para cada amostra) Média 0,3683 0,3800 0,3784 0,3799 0,3769 0,3723 0,3792 0,3901 0,1805 0,4217 0,4262 0,3230 0,3284 Mediana 0,3706 0,3826 0,3732 0,3777 0,3760 0,3718 0,3750 0,3918 Desv Pad 0,0324 0,0340 0,0393 0,0254 0,0379 0,0283 0,0422 0,0359 2007 (n=670) WLM GWR GWR centr sede SAR centr SAR sede Alternativas 1 2 3A 3B 4A 4B 5 6 Coeficiente de Determinação R2 (considerando a minimização do AIC para cada amostra) Média 0,3937 0,4145 0,4069 0,4037 0,4134 0,4123 0,4018 0,4221 0,1742 0,4569 0,4605 0,3264 0,3200 Mediana 0,3909 0,4115 0,4025 0,4019 0,4098 0,4101 0,3990 0,4196 Desv Pad 0,0369 0,0300 0,0321 0,0302 0,0294 0,0296 0,0366 0,0294 2008 (n=654) WLM GWR GWR centr sede SAR centr SAR sede Alternativas 1 2 3A 3B 4A 4B 5 6 Coeficiente de Determinação R2 (considerando a minimização do AIC para cada amostra) Média 0,4102 0,4335 0,4299 0,4281 0,4408 0,4348 0,4201 0,4541 0,1802 0,4987 0,5116 0,3430 0,3500 Mediana 0,4089 0,4327 0,4283 0,4250 0,4393 0,4360 0,4175 0,4550 Desv Pad 0,0486 0,0371 0,0435 0,0362 0,0436 0,0435 0,0430 0,0415 Fonte: elaboração própria. Nota: Os modelos GWR das alternativas apresentam kernel gaussiano adaptável. Podemos perceber uma similaridade grande entre as dispersões do R2 entre as iterações das alternativas para cada rodada. O valor mínimo (a menos de outliers) está situado entre 0,30 e 0,36 e o valor máximo entre 0,42 e 0,54. Os valores médio e mediano do R2 das alternativas estão sempre situados entre os valores para GWR e SAR, o que parece apontar 243 que o espalhamento de pontos parece diminuir a associação entre Renda e Valor de Conta de Luz apontada nos modelos locais GWR, melhor sucedidos, baseados em centróides ou sedes. A diferença do comportamento das alternativas entre as rodadas é da mesma medida da diferença entre os valores de R2 para GWR e SAR nos modelos originais entre as rodadas, com as coordenadas nos pontos arbitrários centróide e sede. Assim, pois, os valores medianos e o intervalo de dispersão das alternativas para a rodada de 2008 estão situados a cerca de 0,2 a 0,7 pontos acima das demais rodadas, uma vez que o GWR e o SAR dos modelos originais de 2008 estão a aproximadamente 0,50 e 0,35, respectivamente, e os das demais rodadas estão a 0,45 e 0,33, em média. Entre as alternativas, notamos claramente, em todas as rodadas, um valor mais alto, significativo, da média e da mediana para a alternativa 6. Conforme discutimos no Capítulo 4, a alternativa 6 aproxima mais as entrevistas situadas em mesmo setor censitário, o que tende a produzir pesos mais próximos de 1 nas matrizes de vizinhança locais, tornando os modelos da alternativa 6 mais parecidos com os modelos dos centróides ou sedes, aumentando, pois, o R2 médio e mediano. Nas alternativas 1 e 5, em que o posicionamento das entrevistas é completamente aleatório, com a diferença apenas no espaço alocável, o R2 médio e mediano foi ligeiramente menor do que para as demais alternativas. O aumento da variabilidade dos pesos das matrizes de vizinhança parece afetar negativamente o coeficiente de determinação. Dentre as demais alternativas os resultados do R2 foram bem parecidos, à exceção da 6, conforme apontado anteriormente. A variação no posicionamento das entrevistas afeta também o tamanho das amostras locais (calculadas com kernel adaptável gaussiano), que está fortemente associado à medida de explicação da Renda pelo Valor da Conta de Luz. Os scatter plots do Gráfico 5.12 e a correlação (r de Pearson) entre R2 e k de cada amostra iterada da rodada de 2004 mostram essa forte associação: -95% a -94% para todas as alternativas – quanto maior a amostra local (k+1), menor a associação entre Renda e Valor da Conta de Luz. Para as demais rodadas os resultados obtidos foram similares. 244 r = -0,9480 r = -0,9423 r = -0,9461 r = -0,9465 r = -0,9452 r = -0,9469 r = -0,9401 r = -0,9438 Gráfico 5.12: Scatter Plot e Correlação (r de Pearson) entre o número k de vizinhos das amostras locais e o R2 para cada alternativa de alocação de pontos em polígonos da Pesquisa ABRADEE de 2004 no município de São Paulo Fonte: elaboração própria. Apuramos também o I de Moran da Renda e do Valor de Conta de Luz para cada amostra iterada de cada alternativa – sua associação com o tamanho da amostra local k+1 é significativa, porém de magnitude bem menor que na relação entre k e R2. A Tabela 5.6 destaca esses valores para a rodada de 2004. Os resultados são similares para as demais rodadas da Pesquisa ABRADEE. 245 Tabela 5.6: Largura de Banda, I de Moran da Renda Domiciliar e do Valor de Conta de Luz e correlação entre essas variáveis para as Alternativas de Alocação de Pontos em Polígonos da Pesquisa ABRADEE de 2004 para o município de São Paulo 2004 (n=662) Centr Sede 1 2 3A Alternativas 3B 4A 4B 5 6 Largura de Banda em percentual do total da amostra (baseada em k vizinhos mais próximos) Média Mediana Desv Pad 0,0861 0,0710 0,1217 0,1166 0,0304 0,1060 0,1057 0,0277 0,1081 0,1087 0,0275 0,1090 0,1042 0,0289 0,1085 0,1082 0,0284 0,1114 0,1122 0,0269 0,1132 0,1148 0,0280 0,1001 0,0952 0,0330 I de Moran da Renda Domiciliar (com vizinhança baseada em modelo GWR de cada amostra iterada) Média Mediana Desv Pad 31,12% 31,12% 27,81% 29,00% 1,40% 28,11% 28,14% 1,17% 28,02% 28,16% 1,24% 27,87% 27,93% 1,40% 28,02% 28,19% 1,31% 27,49% 27,61% 1,33% 28,05% 28,22% 1,36% 29,81% 29,17% 1,61% I de Moran do Valor da Conta de Luz (com vizinhança baseada em modelo GWR de cada amostra iterada) Média Mediana Desv Pad 22,24% 22,32% 19,35% 19,36% 0,82% 19,72% 19,73% 0,77% 19,61% 19,49% 0,80% 20,24% 20,27% 1,02% 19,78% 19,78% 0,87% 19,98% 19,99% 0,71% 19,46% 19,28% 0,81% 20,77% 20,78% 0,79% Correlação (r de Pearson) entre a Largura de Banda e I de Moran I da Renda Domiciliar I do Valor da Conta de Luz -0,5311 -0,3504 -0,4663 -0,2780 -0,4676 -0,2748 -0,6334 -0,2835 -0,6077 -0,2904 -0,6631 -0,3569 -0,5876 -0,3573 -0,6911 -0,3855 Fonte: elaboração própria. Os valores do I de Moran da Renda e do Valor da Conta de Luz são significativamente maiores para os centróides e sedes em comparação com os valores médios para as alternativas. De forma inversa, a amostra local é menor para os centróides e sedes do que para as alternativas. A correlação entre o tamanho das amostras locais e a auto-correlação espacial da Renda explica a forte associação entre k e R2 dos modelos espaciais de explicação da Renda pelo Valor da Conta de Luz, anteriormente discutidos. Quanto maior a vizinhança de cada entrevista, maior sua influência local (o indicador de auto-correlação local, LISA) e, por conseguinte, maior o I da Renda para essa amostra alocada segundo uma das alternativas. Os valores médios e medianos do I da Renda para as alternativas não apresentaram, no entanto, diferenças significativas entre elas – os valores ficaram em torno de 27,90% . A influência da 246 configuração espacial dos domicílios segundo as alternativas se dá mais no estabelecimento de diferentes tamanhos das amostras locais do que nos indicadores globais de auto-correlação espacial. Já os indicadores para Valor de Conta de Luz mostraram magnitudes menores e também pouca variação entre as alternativas. O I do Valor da Conta de Luz teve média de 19,74% e sua correlação com o tamanho k da amostra variou de -0,27 nas alternativas 1 e 5 a -0,38 na alternativa 6. A variação do R2 dentre as diversas iterações de cada alternativa implementada é explicada também pelo grau de clusterização, ou agrupamento, que os pontos alocados apresentam em cada amostra. Por construção, a alternativa 6 apresenta os pontos agrupados dentro dos setores censitários (tipicamente, de pequena área) sorteados – por isso seu valor de R2 médio e mediano é significativamente mais alto que o das demais alternativas. Da mesma forma, o R2 médio e mediano das alternativas 1 e 5 é um pouco menor que o das demais. Apuramos, como medida sumário, adicionalmente, a distância média ao vizinho mais próximo de cada amostra iterada para cada alternativa (ou ANN – Average Nearest Neighbor), e computamos a média destes valores para cada alternativa. A razão rANN entre a distância apurada e a distância esperada permite que verifiquemos se há um padrão de agrupamento entre os pontos ( rANN < 1 ), se a distribuição é aleatória ( rANN próximo de zero) ou se há um padrão de dispersão elevado ( rANN > 1 ) (EBDON, 1985; MITCHELL, 2005). O cômputo da distância apurada d O e da distância esperada d E estão a seguir: ∑d dO = i 1 i n , dE = 0,5 nA e rANN = dO dE , (5.1) em que n é o total de observações, A é a área total “alocável” da amostra (no caso da Pesquisa ABRADEE 2004, é a soma das áreas dos 75 distritos sorteados), e d i1 é a distância entre cada domicílio i e seu vizinho mais próximo (diz-se distância de 1ª ordem). 247 O Quadro 5.21 traz os valores médios de d O , rANN e k para as alternativas de alocação de pontos em polígonos para a rodada de 2004. Resultados muito similares foram encontrados para as demais rodadas. rANN (Average Nearest Neighbor ratio) d E (m) d O (m) Centróide Sede Alt. 1 Alt. 2 Alt. 3A Alt. 3B Alt. 4A Alt. 4B Alt. 5 Alt. 6 3,8887 4,6154 638,40 542,14 579,54 534,04 540,58 520,69 612,29 86,41 rANN 0,0059 0,0070 0,9643 0,8189 0,8754 0,8067 0,8166 0,7865 0,9249 0,1305 k 57 47 80,565 70,172 71,562 72,158 71,827 73,474 74,938 66,266 649,90 • n = 662 ; 1.000 iterações para cada alternativa • d O , rANN e k são valores médios para as iterações das alternativas Quadro 5.21: Estatísticas de Agrupamento Médio para as Amostras Locais das Alternativas de Alocação de Pontos em Polígonos para a Pesquisa ABRADEE 2004 no município de São Paulo Fonte: elaboração própria, com uso da ferramenta R 2.9.1. Os valores de rANN para as alternativas 1 e 5 são muito próximos de 1, o que indica um padrão de distribuição de pontos quase completamente aleatório. Em contrapartida, o rANN da alternativa 6 (0,1305) indica um padrão bastante agrupado. O impacto dessas diferenças é sentido no tamanho k das amostras locais, que decai conforme rANN se aproxima de 1. Na distribuição das entrevistas baseada nos centróides ou nas sedes dos distritos, d O é praticamente zero porque a grande maioria dos distritos possui duas ou mais entrevistas, todas alocadas em um mesmo ponto – a distância média apurada só não é igual a zero porque existe pelo menos um distrito com apenas uma entrevista válida, ou seja, seu vizinho mais próximo não está na mesma coordenada geográfica. A variabilidade das distâncias entre as localizações geográficas das entrevistas aumenta significativamente com a adoção das alternativas de espalhamento de pontos nos distritos. Nos modelos com todas as entrevistas em um mesmo ponto por distrito, as distâncias entre todas as entrevistas de um distrito e todas de outro são a mesma, definida 248 arbitrariamente a partir da escolha do ponto em seu interior (centróide, sede, ou outro). A Figura 5.6 destaca a diferença na variabilidade das distâncias entre os dois modelos GWR, destacando o convex hull da influência de cada entrevista, de acordo com o número k de vizinhos de cada amostra local. Entrevistas nos Centróides Entrevistas Espalhadas nos Distritos dij = A d ij = 0 d ij = B d ij = D d ij = C d ij iguais para cada par de distritos d ij diferentes para cada par de entrevistas Entrevistas nos Centróides Convex Hulls das entrevistas do distrito vermelho Convex Hulls das entrevistas dos quatro distritos Entrevistas Espalhadas Figura 5.6: Diferenças entre os Modelos Centróide (ou Sede) e resultante das Alternativas de Alocação de Pontos em Polígonos – Exemplo Ilustrativo com 4 distritos Fonte: elaboração própria, com utilização da ferramenta ArcView® GIS 3.2. 249 O Gráfico 5.13 detalha o efeito destacado no exemplo da Figura 5.6 para as diversas alternativas de espalhamento na Pesquisa ABRADEE 2004. Os gráficos apresentam a distância da primeira entrevista alocada da pesquisa (escolhida arbitrariamente) ao k-ésimo vizinho mais próximo, considerando os modelos centróide, sede e uma das 1.000 amostras geradas, para cada alternativa. Gráfico 5.13: Distância do k-ésimo vizinho mais próximo da entrevista 1 dos modelos de alocação Centróides e Sedes e de uma amostra-exemplo para cada alternativa de alocação de pontos em polígonos para a Pesquisa ABRADEE 2004 no município de São Paulo Fonte: elaboração própria. 250 A diferença no comportamento dos gráficos é notável entre todas as alternativas e os modelos centróide e sede. Entre as alternativas, vale destacar o comportamento “quase” em degraus da alternativa 6, que destaca quando uma entrevista de um novo setor censitário (tipicamente mais distante) é incorporada à amostra local de cada entrevista. Esse efeito é notado também em algumas outras alternativas, quando há mudança de distrito. Para a rodada de 2009, obtivemos as localizações reais (ou muito próximas) dos domicílios entrevistados, a partir de aplicação piloto da Pesquisa ABRADEE realizada especialmente na área de concessão da AES Eletropaulo, conforme detalhado no tópico 4.2.3. A Figura 5.7 mostra a localização das 677 entrevistas da rodada de 2009 no município de São Paulo e destaca os grupos de até 5 entrevistas agrupados e contidos em determinados setores censitários sorteados durante o planejamento amostral da pesquisa, conforme comentado em 4.2 e descrito por Innovare (2009). Figura 5.7: Posição Geográfica dos Domicílios entrevistados na Pesquisa ABRADEE 2009 no município de São Paulo, com destaque para Setores Censitários com entrevistas Fonte: elaboração própria, com utilização da ferramenta ArcView® GIS 3.2. Aplicamos os modelos de regressão SAR e GWR para essa localização, real, dos domicílios, e também os modelos GWR para as 1.000 iterações de cada alternativa de alocação de pontos em polígonos. Os resultados das regressões e os resultados comparativos das alternativas (box-plots e tabela descritiva) estão apresentados no Quadro 5.22. 251 Pesquisa ABRADEE 2009 (n = 677) – Localização REAL dos Domicílios Entrevistados SAR Variável Intercepto Conta Luz GWR z value 0,7008 10,814 4,2708 Coef. Std Error 187,65 1,3556 0,072418 Prob. 0,4834 0,0000 0,0000 Variável Intercepto Conta Luz Mín -614 -0,101 1Q 94 7,34 Med 707 14,6 3Q 1023 21,7 Máx 2784 43,8 β0 = -27,51 β1 = 14,6603 ρ = 0,30929 W_Renda R2 = 0,4029 k = 49 – AICc = 8.476,8 GL = 48,49 – F = 10,58 (valor-P = 0,00000) R = 0,3101 2 Número Médio de Vizinhos: 11,285 WLM GWR sede GWR centr SAR centr SAR sede Alternativas de Alocação 2009 (n=677) WLM GWR GWR SAR centr sede centr SAR sede 1 2 3A Alternativas 3B 4A 4B GWR real SAR real 5 6 GWR real SAR real Coeficiente de Determinação R2 (considerando a minimização do AIC para cada amostra) Média 0,382 0,397 0,396 0,393 0,394 0,391 0,394 0,407 0,195 0,439 0,453 0,336 0,339 0,403 Mediana 0,380 0,394 0,395 0,393 0,389 0,392 0,393 0,408 Desv Pad 0,031 0,033 0,032 0,030 0,033 0,029 0,033 0,35 0,310 Quadro 5.22: Resultados da SAR e GWR e Dispersão do R2 das Alternativas de Alocação de Pontos em Polígonos da Pesquisa ABRADEE 2009 para o município de São Paulo Fonte: elaboração própria, com uso da ferramenta R 2.9.1. 252 As regressões espaciais da Renda pelo Valor da Conta de Luz na Pesquisa ABRADEE 2009 para as coordenadas reais dos domicílios resultaram em R2 abaixo dos valores dos modelos para as coordenadas nos centróides ou nas sedes. Essa diferença apresentada foi de 0,34 para 0,31 no modelo auto-regressivo espacial (SAR) e foi de 0,44-0,45 para 0,40 no modelo GWR. O tamanho da amostra (k+1) no GWR foi ligeiramente maior nas coordenadas reais (50) do que o para os modelos centróide (45) e sede (44). Vale destacar que o modelo com coordenadas reais apresentou R2 muito próximo aos valores médios e medianos das alternativas implementadas e iteradas 1.000 vezes cada. Em especial, a alternativa 6 foi a que mais se aproximou do valor com as coordenadas reais. Mais ainda, os valores obtidos na associação entre Renda e Valor da Conta de Luz com as coordenadas reais dos domicílios são menores do que com as entrevistas alocadas nos centróides ou sedes – a diferença foi de 5 a 7 pontos percentuais no coeficiente de determinação, em média, para todas as rodadas. Tipicamente, para centróides e sedes obtivemos R2 = 0,42 a 0,45 (atingindo 0,50 apenas na rodada de 2008), e para os pontos espalhados segundo as alternativas obtivemos R2 = 0,37 a 0,42 (atingindo 0,45 apenas na rodada de 2008). Essa diferença pode ser explicada pelo aumento da variabilidade dos modelos através da inserção de novos pesos às matrizes de vizinhança. A similaridade entre os modelos das alternativas e o modelo com as coordenadas reais dos domicílios parece mostrar que o espalhamento de pontos no interior dos polígonos torna a avaliação da associação entre os construtos mais realista do que em modelos com as entrevistas em pontos sobrepostos. Isso fortalece a validade da aplicação de métodos de alocação de pontos em polígonos, como os desenvolvidos neste trabalho. Normalmente, em muitas pesquisas amostrais domiciliares, de planejamento amostral tradicional, como a Pesquisa ABRADEE, a localização dos domicílios entrevistados não é conhecida, e os resultados de modelos espaciais como SAR e GWR aplicados podem apresentar superestimação devida à alocação geográfica arbitrária das entrevistas. Finalmente, para avaliar a similaridade entre os modelos de alternativas e a alocação real das entrevistas, aplicamos um método de avaliação da homogeneidade espacial (ou de concentração), conhecido como função K de Ripley, que avalia o número de observações vizinhas para cada distância de vizinhança e compara-o com um número 253 esperado de vizinhos para uma distribuição aleatória típica, Poisson uniforme (RIPLEY, 1977; BADDELEY; GILL, 1997; MITCHELL, 2005). Para efeitos práticos, costuma-se trabalhar com a função L, transformada da K, em que o valor esperado para uma distância qualquer d é a própria distância d, ou seja, L ( d ) = d , o que facilita a interpretação dos resultados. Essas funções são calculadas da seguinte maneira: ˆ K (d ) = A ( n − 1)π ∑ ∑ I (d i j ij ≤ d ) d ij ,e (5.2) ˆ L(d ) = ˆ K (d ) π , (5.3) em que n é o total de observações, A é a área total, d ij é a distância entre os pontos i e j, e I (d ij ≤ d ) é um indicador que é igual a 1 se a distância é menor ou igual a d e igual a 0 caso contrário. Assume-se que o processo é estacionário, ou espacialmente homogêneo. ˆ Calculamos o valor de L(d ) para as amostras da Pesquisa ABRADEE 2009 com suas localizações baseadas em centróides, sedes e real, e calculamos uma média dos valores ˆ de Lk (d ) para cada distância d de cada iteração k das 1.000 aplicadas em cada alternativa, de ˆ ˆ forma que L( d ) Alternativa = Lk (d ) = ∑ Lk ( d ) . k =1 1000 O Gráfico 5.14 apresenta os resultados dessa análise. Nos gráficos da esquerda apresentamos os resultados completos, contemplando todas as alternativas de alocação de ˆ pontos em polígonos (valores médios de L( d ) das 1.000 iterações), e nos gráficos da direita temos apenas a alternativa 6, centróides, sedes e localização real. 254 Gráfico 5.14: Indicador L(d) de Homogeneidade Espacial das diversas distribuições espaciais utilizadas neste estudo na Pesquisa ABRADEE 2009 no município de São Paulo. Fonte: elaboração própria. Notas: Os gráficos da esquerda mostram valores de L(d) para os modelos Centróides, Sedes e Real, e valores médios de L(d) para todas as alternativas de alocação de pontos em polígonos. Os gráficos da direita destacam os modelos Centróides, Sede e Real e a alternativa 6. Os gráficos inferiores são semelhantes aos superiores, a menos da escala utilizada nos eixos, para destaque para os valores menores de d. Todos os modelos apresentam-se com tendência a agrupamento, pelo distanciamento que as curvas tomaram da linha pontilhada cinza nos dois gráficos, que representa os pares ordenados (d,d), ou seja, as distribuições de pontos completamente aleatórias. Como nossa distribuição de pontos foi previamente baseada em um sorteio de distritos (73 de 96, no caso da Pesquisa ABRADEE de 2009), não teríamos como alocar os pontos em qualquer porção do espaço, o que torna pouco significativa uma comparação direta com essa linha. 255 Na comparação com os resultados da alternativa 1, a mais “aleatória” das distribuições de pontos construída neste estudo, vemos muita semelhança nos padrões de homogeneidade espacial entre todas as alternativas (à exceção da 6), conforme o Gráfico 5.14. As curvas das alternativas são muito semelhantes para valores pequenos de d, se aproximam ainda mais até cerca de 1.200 metros e continuam próximas até distâncias grandes, com uma leve tendência de separação. Isso parece indicar que diferenças entre os padrões observados nas iterações dessas alternativas não são significativas. Isso é corroborado pelos valores próximos do R2 médio e mediano dos modelos GWR aplicados a partir desses casos. Já a trajetória da curva da alternativa 6 é a que mais se aproxima da curva do ˆ L( d ) para a localização real das entrevistas, conforme destacado nas linhas azul e rosa dos gráficos da direita do Gráfico 5.14, o que corrobora a proximidade entre o R2 da Renda e do Valor da Conta de Luz. Por construção, a alternativa 6 tende a ter um comportamento parecido com o modelo de coordenadas reais, uma vez que ela simula o planejamento amostral da Pesquisa ABRADEE. Os modelos baseados em centróides e sedes têm comportamento bem diverso. Até ˆ distâncias de cerca de dois quilômetros, os valores de L( d ) para esses modelos são invariáveis, de 3.637,68 m para centróides e de 3.783,76 m para sedes. Isso significa que qualquer modelo espacial que considerar amostras locais com vizinhança de até 3,6 ou 3,7 quilômetros terá praticamente a mesma influência espacial. Isso é reflexo do agrupamento de muitas entrevistas em um mesmo ponto no interior dos distritos e, por conseguinte, muito diferente do comportamento real, que se esperar modelar, do fenômeno em estudo. Para valores superiores a esses, os modelos passam a se aproximar do modelo com coordenadas reais, principalmente o baseado na localização das sedes dos distritos do município de São Paulo. A diversidade e profundidade das análises dos modelos espaciais apresentadas neste tópico permitem que avaliemos as hipóteses assinaladas, conforme apresentado no tópico 5.2.4. 256 5.2.4 VERIFICAÇÃO DAS HIPÓTESES As análises exploratórias que descrevem o comportamento das variáveis, suas distribuições espaciais e os modelos de dependência espacial foram detalhados na investigação domiciliar. O Quadro 5.23 apresenta os resultados das hipóteses testadas neste trabalho. Vale lembrar que a avaliação do padrão Centro-Periferia foi verificado exclusivamente na investigação territorial. Proposição H1: Quanto maior o Consumo de Energia Elétrica Residencial, maior a Renda Domiciliar (ou Familiar) Resultado Conforme esperado para os domicílios, mas de magnitude menor que para as áreas de ponderação; adicionalmente, as técnicas de espalhamento das entrevistas no interior dos polígonos dos distritos mostraram-se adequadas e pareceram destacar uma magnitude mais realista nessa relação. Observações Os modelos GWR mostraram-se mais robustos e de maior determinação que os modelos SAR. Valores de R2 de 42-45% para os modelos GWR com os pontos nos centróides ou sedes, e de 37%-42% para os modelos baseados nas alternativas para quase todas as rodadas da Pesquisa ABRADEE. A alternativa 6, que simulou o planejamento amostral da pesquisa, mostrou resultados muito semelhantes aos do modelo real aplicado em 2009, devido a seu grau de agrupamento e heterogeneidade espacial, corroborado pela análise da estatística L e pela avaliação do rANN . H2: Existe padrão de dependência espacial da variável Renda Domiciliar entre regiões da Grande São Paulo H3: Existe padrão de dependência espacial da variável Consumo de Energia Elétrica entre regiões da Grande São Paulo Conforme esperado, mas de magnitude menor do que para as áreas de ponderação. Valores de I de Moran da Renda superiores a 0,29 para as amostras baseadas em centróides ou sedes para todas as rodadas. Valores médios entre 0,22 e 0,27 para as amostras das alternativas. Valores de I de Moran da Renda de 0,12-0,13 para as amostras baseadas em centróides ou sedes para todas as rodadas. Valores médios de 0,10 para as amostras das alternativas. Conforme esperado, mas de magnitude menor do que para as áreas de ponderação. Quadro 5.23: Resultados das Hipóteses na Investigação Domiciliar Fonte: elaboração própria. 257 5.3 DISCUSSÃO As análises desenvolvidas em nível domiciliar e territorial mostraram resultados bastante importantes, porém distintos em magnitude. A explicação da Renda a partir do Consumo de Energia Elétrica, no modelo em estudo, foi altamente satisfatória para as áreas de ponderação, e mostrou-se menos eficiente para os domicílios. O Esquema 5.1 apresenta o modelo de pesquisa, sumariza as hipóteses comprovadas nas perspectivas investigadas e destaca os modelos que mais se adequaram. H3 Consumo de Energia Elétrica I ≥ 58% I ≅ 22% I ≅ 20% H1 R2 entre 93% a 98% (SAR e GWR) R2 ≅ 45% (GWR) R2 ≅ 40% (GWR) + + Renda Domiciliar I ≥ 75% I ≅ 30% I ≅ 28% H2 + + Investigação Territorial (áreas de ponderação) Investigação Domiciliar (entrevistas baseadas nos centróides ou sedes dos distritos) Investigação Domiciliar (espalhamento das entrevistas no interior dos distritos) Esquema 5.1: Modelo Adotado e Avaliação das Hipóteses consideradas neste estudo Fonte: elaboração própria. Notas: O I de Moran dos modelos territoriais refere-se a valores encontrados na maioria das matrizes de vizinhança utilizadas. Os modelos GWR da investigação domiciliar foram os de melhor desempenho para as entrevistas baseadas em centróides ou sedes dos distritos. Uma medida agregada da Renda por área de ponderação traz efeitos de diminuição da variabilidade para um mesmo nível de Consumo de Energia Elétrica. Tais efeitos não ocorrem em nível domiciliar, o que acarreta o aumento da associação entre os construtos em nível territorial e as diferenças comparativas entre os níveis de investigação deste estudo. Com isso, a relação entre Renda e Consumo de Energia Elétrica (R2) foi de mais de 0,93 na análise de unidades territoriais (atingindo 0,97 ou mais nos melhores modelos, 258 GWR e GWR+SAR) e de cerca de 0,40 a 0,45 na análise de unidades domiciliares42, utilizando GWR baseado nos centróides ou sedes dos distritos e em modelos com as entrevistas espalhadas no interior dos polígonos dos distritos. Em nível domiciliar, a substituição plena do Critério Brasil pelos indicadores de Consumo de Energia Elétrica não se mostrou satisfatória – a associação entre Classe Econômica Brasil e Renda é de magnitude mais alta do que entre Consumo de Energia Elétrica e Renda. Contudo, a diferença relativa entre as correlações é baixa, o que sinaliza que algumas situações de levantamentos em campo podem ser beneficiadas pela coleta, mais simples, de informações de indicadores de valor de conta de luz. Ademais, tal coleta pode se resumir a simplesmente inquirir o valor da conta de luz do domicílio do respondente – isso pode representar menor desconfiança e menor recusa em campo, uma vez que a investigação sobre posse de bens não é realizada, nesse caso. Porém, a incorporação do Valor da Conta de Luz aos indicadores do Critério Brasil e o uso de técnicas de estatística espacial trouxe muitos benefícios ao modelo de classificação econômica. Na análise da Pesquisa ABRADEE de 2004, o modelo de regressão linear da Renda pelo Critério Brasil43 e Valor da Conta de Luz obteve R2 de 0,62, e o aprimoramento para um modelo GWR aumentou sua determinação para 0,75, melhorando o comportamento dos resíduos e facilitando o destaque das diferenças regionais através da abordagem local. Isso permite que uma simples adaptação em campo (a inclusão da coleta do valor médio da conta de luz do domicílio entrevistado) nas pesquisas que habitualmente aplicam a pontuação do Critério Brasil traga reais benefícios aos institutos de pesquisa. Não podemos esquecer dos diversos efeitos das condições de pobreza no valor faturado da conta de luz, já destacados na literatura (AES..., 2005b; CAVARETTI, 2005; FONSECA, 2005). Alto desperdício, inadequação das instalações elétricas e propensão à prática de ligações abusivas são alguns deles. Vários autores destacam o fato de que a domicílios pertencentes a uma determinada classe de renda corresponde uma grande diversidade de estilos de consumo familiar. Estes, por sua vez, se traduzem numa repartição desigual da energia consumida (GUERREIRO et al., 1996; POMPERMAYER; CHARNET; 42 Utilizamos o Valor da Conta de Luz (em reais) como variável proxy do Consumo de Energia Elétrica Residencial na investigação domiciliar. Utilizamos a Classe Econômica como variável categórica com as 7 classes vigentes em 2004: A1, A2, B1, B2, C, D e E, conforme descrito no tópico 2.4. 43 259 1996; ELETROBRÁS, 2001; ACHÃO, 2003). Atreladas às condições da baixa renda, essas considerações parecem explicar a menor associação da Renda com o Consumo de Energia para essa população. Estudos futuros devem procurar trabalhar a estrutura familiar para melhor entender a diversidade de estilos de consumo. Os achados desta pesquisa mostram que não houve variação significativa na relação entre a Renda e o Valor da Conta de Luz ao longo dos últimos anos, mesmo com a trajetória de evolução positiva da renda apresentada de 2004 a 2007, estabilização em 2008 e queda significativa em 2009, conforme apresentado no Gráfico 5.8. Os valores do R2 da regressão linear ficaram em torno de 0,18, os modelos SAR atingiram patamar de 0,33 e os modelos GWR, os de melhor desempenho e robustez, alcançaram cerca de 0,44. As diferenças dos R2 dos modelos entre as rodadas da Pesquisa ABRADEE foram muito pequenas, a ponto de afirmarmos que houve estabilidade temporal nessa relação de 2004 a 2009. As diferenças entre os modelos espaciais baseados nos centróides e nas sedes dos distritos também foram mínimas. A cobertura de distritos sorteados e o total de entrevistas válidas foram muito parecidos entre as rodadas, o que fortalece essa afirmação. Essa estabilidade temporal, atrelada à necessidade de manutenção e revisão constantes dos itens do Critério Brasil, conforme Mattar (1996) e Silva (2002), potencializa o uso do Consumo de Energia Elétrica como indicador socioeconômico em pesquisas domiciliares. A evolução da magnitude da associação entre Renda e Valor de Conta de Luz conforme o modelo adotado mostrou, didaticamente, que a incorporação da influência espacial traz benefícios (aprimoramento do R2 de 0,17 para 0,33), mas que uma abordagem local nessa incorporação é ainda mais adequada (de 0,33 a 0,44, com melhoria na homocedasticidade dos resíduos). Isso posto, podemos pensar que os modelos locais são os mais adequados em estudos envolvendo Renda e Consumo de Energia Elétrica. A própria dicotomia conceitual entre Estatística Espacial e Geoestatística, que, na prática, acaba enfraquecida com o uso irrestrito de técnicas como o variograma, fortalece a adoção de abordagens locais no estudo de fenômenos envolvendo construtos sociais. Modelos globais, como a regressão (global) com termo auto-regressivo espacial (SAR), capturam menos as diferenças regionais do que os modelos locais – com a desvantagem de não terem 260 seus parâmetros “mapeáveis”, conforme discutido no tópico 3.4 e sumarizado no Quadro 3.1. Os resultados dos modelos GWR destacam a grande variabilidade do parâmetro β1 (contribuição do Consumo de Energia Elétrica) dentre as n regressões locais, e também apresentam valores medianos do β1 muito parecidos com o valor desse parâmetro nos modelos SAR da investigação domiciliar44, o que sinaliza a consistência. Além disso, o tamanho das amostras locais dos modelos GWR é uma informação importante na análise. A contribuição do GWR está na adoção da minimização do Akaike Information Criterion (AIC) para a obtenção do melhor tamanho das amostras locais. Devido à grande diferença de densidade domiciliar do município de São Paulo resolvemos adotar modelos com kernel adaptável (fixos em número de vizinhos, e não em área máxima de vizinhança). As amostras locais dos modelos GWR tiveram pequena variação relativa ao tamanho total da amostra – fixaram-se entre 38 e 61 vizinhos para cada domicílio em sua amostra local, com um valor médio de 7% do total da amostra. Isso corrobora a estabilidade temporal e espacial da relação entre Renda e Valor de Conta de Luz dos modelos adotados e confirma achados de outros estudos com dados pontuais amostrais ponderados, em que a amostra local tipicamente se posiciona com 5% a 10% em kernels adaptáveis gaussianos, conforme Fotheringham, Brunsdon e Charlton (2002). Além disso, em situações de campo, uma amostra local de até cerca de 60 vizinhos (em amostras globais com 650 a 750 domicílios) facilita sua implementação com um simples espalhamento das entrevistas nas imediações (envolvendo distritos vizinhos) – o que já é praticado na maioria dos planejamentos amostrais domiciliares estratificados das pesquisas censitárias sistematizadas no mercado e em estudos demográficos. Nesses termos, são muitos os benefícios da adoção de técnicas de estatística espacial, principalmente as locais, no estudo da relação entre Renda e Consumo de Energia Elétrica em nível domiciliar – mesmo sem conhecermos a localização real das entrevistas dentro de municípios, distritos ou subregiões discriminadas. A implementação das diferentes técnicas de alocação, ou espalhamento, de pontos (entrevistas válidas) nos polígonos dos distritos de São Paulo para as rodadas de 2004, 2006, 44 β 1 em torno de 13 a 15 para a grande maioria dos modelos SAR, e mediana dos β 1 locais em torno de 13 a 15 para a grande maioria dos modelos GWR, considerando todas as rodadas da Pesquisa ABRADEE analisadas. 261 2007, 2008 e 2009 da Pesquisa ABRADEE permitiu que simulássemos os resultados da influência real das diferentes localizações dos domicílios nas áreas pesquisadas. Técnicas de regressão espacial baseadas em matrizes de proximidade foram mais bem aproveitadas com essas alternativas de alocação de pontos, e trouxeram uma visão mais realista das condições de campo ao estudo da relação entre Renda e Consumo de Energia Elétrica na perspectiva domiciliar. À primeira vista, os resultados mostraram que o valor de R2 é cerca de 5 a 7 pontos percentuais menor nos modelos com os pontos espalhados nos distritos em comparação com os modelos baseados em centróides e sedes. A adoção das técnicas de espalhamento, que poderia parecer um aprimoramento na magnitude da relação em estudo, mostrou que se adicionou variabilidade aos pesos nas células das matrizes de vizinhança dos modelos e, assim, decaíram os valores médios e medianos do coeficiente de determinação nas iterações realizadas. Dentre as alternativas de alocação implementadas, as mais intuitivas, ou simplistas, que consideram distribuição completamente aleatória de pontos (1 e 5), foram as de menor desempenho do R2 – a alternativa 5 ainda teve um ligeiro melhor desempenho do que a alternativa 1 por incluir apenas áreas censitárias urbanas e não especiais nas regiões de alocação de pontos. As demais alternativas (à exceção da 6) consideraram informações de caráter externo para “melhorar” o espalhamento de pontos, mas tiveram seu desempenho muito parecido para todas as rodadas da Pesquisa ABRADEE, ligeiramente melhor do que o das alternativas 1 e 5, na maioria das rodadas. A alternativa 2, que se baseava na densidade de domicílios do distrito, obteve um R2 médio e mediano ligeiramente melhor, porém de diferença desprezível, que o das alternativas 3A, 3B, 4A e 4B, que consideravam os dados de valor de conta de luz da base da AES Eletropaulo. Pretende-se investigar alternativas de alocação de pontos que combinem mais de uma informação externa para se analisar o efeito da adição dessas novas fontes à relação entre Renda e Consumo de Energia Elétrica. O destaque mais importante, que compreende um dos principais achados metodológicos deste trabalho, está no desempenho da alternativa 6, que simula o sorteio de setores censitários e de domicílio, conforme o planejamento amostral da Pesquisa 262 ABRADEE. Essa técnica de espalhamento de pontos apresentou melhor desempenho45 e mostrou-se muito parecida com a distribuição “real” dos domicílios (coletada em aplicação piloto da Pesquisa ABRADEE em 2009), conforme análise da homogeneidade espacial através das estatísticas K e L de estudo de padrões de pontos apresentada no Gráfico 5.14 e da avaliação de agrupamento espacial (average nearest neighbor ratio) apresentada no Quadro 5.21. Essas técnicas trouxeram uma perspectiva mais realística ao estudo da Renda e Consumo de Energia Elétrica, principalmente a alternativa 6. Ao adotarmos o uso de técnicas de estatística espacial, estamos incorporando a influência geográfica ao estudo do fenômeno. Essa influência se dá através da vizinhança, em modelos locais, mais adequados em estudos socioeconômicos, e, por conseguinte, precisamos conhecer muito bem como se estabeleceu a coleta de informações em campo para melhorar a representação dessa vizinhança. Conhecer o planejamento amostral da pesquisa pode ser determinante na escolha das técnicas que vamos adotar para a introdução da influência espacial em estudos de fenômenos sociais na perspectiva domiciliar. Resta-nos saber se a queda na determinação dos modelos aplicados com os pontos espalhados é específica da relação entre Renda e Energia Elétrica ou é um caráter geral, devido ao aumento da variabilidade do peso entre as observações nos modelos espaciais. Na perspectiva territorial, por sua vez, o planejamento amostral tem menor importância, já que tipicamente adotamos dados resumidos em unidades poligonais que cobrem toda a área, ou são representativos dela toda. Além disso, se a pesquisa é censitária, dados agrupados em setores censitários não apresentam erros amostrais. Os dados da Pesquisa da Amostra do Censo Demográfico 2000 consideram um conjunto bastante grande de observações amostradas (303.669 registros de domicílios), que é representativo das 456 áreas de ponderação do município de São Paulo. O que caracteriza a incorporação da influência geográfica em modelos baseados em dados territoriais é a definição da vizinhança adotada. Aplicamos 8 diferentes matrizes de 45 O R2 médio e mediano das 1.000 iterações da alternativa 6 para as cinco rodadas da Pesquisa ABRADEE foi cerca de 1 a 3 pontos percentuais superior à média do R2 médio e mediano das demais alternativas implementadas. 263 vizinhança46 e pudemos apreender poucas diferenças nos resultados dos modelos de regressão espacial. Em outras palavras, a dependência espacial dos fenômenos Renda e Consumo de Energia Elétrica é amplamente capturada nos modelos de regressão espacial independentemente de como se dá a interação local ou a complexidade da hierarquia de influências locais da vizinhança. Diferenças puderam ser notadas, no entanto, nos indicadores de auto-correlação espacial global e nos LISA maps, conforme destacado nos Quadros 5.2, 5.3 e 5.4 – principalmente para o Consumo de Energia Elétrica. Grafos de vizinhança com muitas arestas por nó tendem a ter um I de Moran mais baixo, mas uma cobertura maior das áreas Alto-Alto e Baixo-Baixo dos LISA maps, restando áreas de transição menores. Grafos com poucos vizinhos por área de ponderação, por sua vez, aumentam significativamente as áreas de transição e podem até descaracterizar os clusters Baixo-Baixo nas regiões periféricas. A complexidade do fenômeno Centro-Periferia no município de São Paulo, conforme estudos de Torres et al. (2003), reforça a necessidade de aprofundamento dessas características, sob a ótica da estatística espacial. Os achados para as áreas de ponderação foram amplamente satisfatórios, conforme já destacado. Os modelos SAR e GWR da Renda a partir do Consumo de Energia Elétrica mostraram poucas diferenças de determinação, e podem ser empregados conforme a conveniência e o interesse. Por parcimônia, se buscamos modelos para a caracterização global da Renda, o SAR é certamente mais adequado. Por outro lado, se queremos destacar diferenças locais, o GWR é mais conveniente. De qualquer forma, a heterocedasticidade dos resíduos foi mais bem tratada nos modelos GWR. A vantagem dos modelos GWR está no mapeamento dos parâmetros. Podemos observar as diferenças espaciais na contribuição do Consumo de Energia Elétrica no modelo ( β1 ). Conforme a Figura 5.2, áreas de alta renda (centrais) têm baixa contribuição do Consumo de Energia Elétrica (baixos valores de β1 ) no modelo, e, pois, partem de um patamar alto (altos valores de β 0 , relativos à sua distribuição) de renda. Para algumas áreas 46 As 8 matrizes de vizinhança avaliadas foram: Queen 1ª Ordem, Queen 2ª Ordem, Queen 3ª Ordem, Relative Neighbor, Gabriel’s Graph, Sphere of Influence, 9 vizinhos mais próximos (conforme sugerido pela minimização do AIC para GWR com kernel gaussiano adaptável), e 25 vizinhos mais próximos (conforme sugerido pela minimização do AIC para GWR com kernel bi-quadrado adaptável). 264 de baixa renda, o fenômeno é exatamente o inverso. Assim, as diferenças locais do modelo se destacam, melhorando as estimativas. O R2 de cada amostra local é também mapeável, e os modelos têm melhor desempenho nas áreas Alto-Alto e Baixo-Baixo, significantes para a influência espacial, conforme gráficos 3D do R2 local dos modelos GWR no Quadro 5.11. O interessante é que as diferenças regionais dos modelos GWR diminuem à medida que a vizinhança local torna-se cada vez maior (vide Gráficos 5.4 e 5.5), ou seja, à medida que o modelo GWR se aproxima de um modelo OLS tradicional. A concepção de um modelo local com termos auto-regressivos, abusadamente denominado GWR+SAR, mostrou-se amplamente satisfatória e é uma das principais contribuições metodológicas deste estudo. Além de manter-se tão robusto quanto os modelos GWR, em termos de tratamento de resíduos e R2, com esse novo modelo puderam-se “mapear” o parâmetro ρ e verificar seu efeito local e sua influência nas distribuições de β 0 e β1 , conforme Figura 5.3. Podemos notar que parte da dicotomia entre os mapas dos parâmetros β é quebrada com a incorporação desse novo parâmetro aos modelos locais. Isso pode ser muito conveniente para alguns modelos multivariados específicos, em que se busque avaliar se a dependência espacial se manifesta principalmente através da variável dependente ou através do conjunto de independentes. A adaptação do Critério Brasil, CBA, aos dados do Censo Demográfico 2000, desenvolvido como medida de contingência diante da impossibilidade de cálculo do critério original, mostrou-se satisfatória, conforme estudos anteriores (FRANCISCO, 2006)47. Isso coloca os dados censitários do IBGE à disposição de futuros trabalhos no diálogo entre critérios baseados em posse de bens e a estimação da renda ou poder de compra das famílias. Em suma, na perspectiva territorial, os altíssimos valores dos coeficientes de explicação dos modelos de regressão da Renda pelo Consumo de Energia Elétrica encontrados permitem a substituição da Renda pelo Consumo para a obtenção de indicadores 47 Correlação de 0,984 entre o Critério Brasil original e o CBA, considerando amostra de 900 domicílios da Pesquisa de Posse de Eletrodomésticos e Hábitos de Consumo do Programa de Combate ao Desperdício de Energia Elétrica (PROCEL) da Eletrobrás, e de 0,960 considerando amostra de 441 domicílios de Baixa Renda da Pesquisa de Microcrédito para a Baixa Renda da FGV-EAESP. Todas as correlações com nível de significância bicaudal de 0,01. 265 de mercado agregados por área de ponderação ou unidades territoriais maiores (distritos, subprefeituras, municípios). Esses resultados suscitam o estabelecimento de uma sistemática de fornecimento de indicadores elétricos territoriais para empresas de pesquisa de mercado ou clientes finais (públicos ou privados), para subsídio a políticas públicas de expansão da infra-estrutura urbana e incentivo ao desenvolvimento, expansão da área de cobertura de uma rede de franquias, seleção de áreas para desenvolvimento de campanhas, e as mais diversas finalidades que indicadores espaciais de concentração de renda tradicionalmente possibilitam. Na perspectiva domiciliar, a estabilidade dos modelos (principalmente espaciais) nos cinco anos analisados, sua aderência ao comportamento histórico das variáveis analisadas para o município de São Paulo, e sua magnitude muito próxima do R2 da explicação da Renda pelo Critério Brasil, mostram que temos um representante interessante dentre o leque de alternativas para a coleta da renda em nível domiciliar. O caminho natural no aprofundamento deste trabalho está na junção das perspectivas de investigação. Modelos já consagrados de regressão multi-nível permitem que trabalhemos os níveis territorial e domiciliar em conjunto, discriminando as contribuições individuais dos níveis, e incorporando a dependência espacial. Muitos autores (como FERREIRA, 2007; ZAMBALDI, 2007; GOLDSZMIDT; BRITO; VASCONCELOS, 2007; BRITO; PIGNANELLI; CSILLAG, 2008; FERREIRA; GOLDSZMIDT; CSILLAG, 2009, entre outros) trabalham com essas técnicas no estudo de fenômenos socioeconômicos envolvendo empresas e famílias. Outra evolução natural deste estudo está na incorporação de técnicas bayesianas, muito adequadas para estimação de pequenas áreas (DAGNE, 2001; RAUDENBUSH; BRYK, 2002) e com mecanismos de avaliação que podem complementar a implementação das técnicas de espalhamento de pontos nos distritos, como o uso de Markov Chain Monte Carlo (MCMC) (GAMERMAN; LOPES, 2006). Alguns autores têm buscado trabalhar modelos espaciais e bayesianos em conjunto e destacam aspectos positivos dessa sinergia. Lesage (2004) discute a forte aderência teórica que existe entre os pressupostos dos modelos locais GWR e do tratamento bayesiano, e evolui para modelos Bayesian-GWR (B-GWR). Chambers (2008) discute o uso de modelos GWR na estimação de pequenas áreas, e 266 Breitenecker (2007) e Breitenecker e Harms (2010) versam sobre a adoção de testes de Monte Carlo para a avaliação da influência de determinadas observações nos modelos GWR e na avaliação da heterogeneidade espacial em estudos de empreendedorismo e de surgimento de firmas. De certa forma, é possível considerarmos a aplicação continuada dos algoritmos de espalhamento de pontos como sendo uma avaliação no estilo dos testes de estabilidade dos modelos bayesianos, considerando algumas distribuições de probabilidade a priori: densidade de domicílios ou de consumo de energia elétrica, ou mesmo a localização baseada no sorteio de setores censitários do planejamento amostral. Vale mencionar que os resultados da investigação territorial obtidos são referentes a Agosto de 2000, e devem ser testados em bases mais atuais, quando disponíveis. O levantamento mais atual, na granularidade utilizada neste estudo (área de ponderação) ou menor, é o de 2000, do próprio Censo Demográfico, realizado decenalmente pelo IBGE. Levantamentos de variáveis de rendimento por distrito também não são realizados em periodicidade menor48. As demais pesquisas domiciliares do IBGE (POF e PNAD) são representativas de áreas metropolitanas, não permitindo a agregação e a representatividade de suas informações por distrito, área de ponderação ou setor censitário. O Racionamento de energia elétrica, ocorrido entre 2001 e 2002, causou a mudança do perfil de consumo residencial de energia elétrica, com a tomada de algumas medidas de redução de consumo, como troca de lâmpadas incandescentes por fluorescentes compactas, diminuição do tempo de uso do chuveiro elétrico, desligamento dos freezers e redução da freqüência de abertura das geladeiras (ACHÃO, 2003). A própria intensificação das campanhas de uso racional de energia, dentro dos programas de Eficiência Energética, do Governo Federal, através do PROCEL e da Eletrobrás, e das concessionárias de distribuição de energia elétrica, tornou perenes alguns hábitos de economia de energia. Além disso, o Racionamento proporcionou o aumento da participação do GLP e do Gás Natural (SÃO PAULO, 2005) no Estado de São Paulo. No entanto, os últimos anos proporcionaram a retomada da tendência natural de crescimento da eletricidade como fonte de energia, e o consumo residencial já superou os patamares do período anterior ao Racionamento (AES..., 2009). 48 A Fundação SEADE disponibiliza alguns dados mais atuais dos municípios do Estado de São Paulo, como o IPRS, e dos distritos da capital paulista. Porém, no que se refere a rendimentos, os dados são apenas de 2000. 267 Assim sendo, faz-se necessária a validação destes resultados em bases de dados mais atuais. Caso possamos assumir que a associação entre Renda e Consumo de Energia Elétrica se mantém elevada nos dias de hoje, talvez dados de concentração de consumo de energia elétrica, resumidos por distrito e área de ponderação e fornecidos pelas empresas de distribuição de energia elétrica, referentes ao mês anterior, sejam a melhor aproximação para um mapeamento da distribuição corrente da renda e da classe econômica. A estabilidade dos modelos domiciliares de 2004 a 2009, segundo a Pesquisa ABRADEE, é um forte indício de que podemos fazer essa assunção e trilhar o caminho da geração sistemática desses indicadores. A própria Crise Mundial de Crédito que afetou a economia mundial em 2008 e 2009 não afetou a relação entre Consumo de Energia Elétrica e Renda na Pesquisa ABRADEE (pelo menos não até Março, período de campo da pesquisa). Outra forte consideração a favor dessa decisão é a alta similaridade entre os modelos para as diversas matrizes de vizinhança. O Censo Demográfico 2010 permitirá um teste de caráter mais definitivo. Não foi utilizada a unidade de referência setor censitário devido à não disponibilidade de informações de renda domiciliar e de classe econômica (posse de bens duráveis) a esse nível. A Pesquisa da Amostra do Censo Demográfico é representativa para as áreas de ponderação, identificadas e disponibilizadas na base de microdados. Contudo, a Renda do Chefe do Domicílio é uma informação disponível e representativa dos setores censitários. Análises posteriores e pesquisas em campo podem averiguar a associação entre renda do domicílio e renda do chefe do domicílio. Caso se mostre alta, a adoção de indicadores de Renda agregados por setor censitário permitirá um melhor detalhamento do território que se deseja estudar – o município de São Paulo apresentaria 13.278 polígonos com indicação de renda média, ao invés de 456 (áreas de ponderação). Dessa forma, pois, o Consumo de Energia Elétrica domiciliar médio por setor censitário se tornaria um indicador de Renda atualizado e disponível. No entanto, a coordenada geográfica dos domicílios localiza o ativo elétrico da AES Eletropaulo mais próximo do domicílio – tipicamente o poste ou o transformador. Assim sendo, a adoção de territórios menores do que áreas de ponderação (setores censitários ou outros) estende o perímetro das fronteiras entre os territórios, e, com isso, aumenta a possibilidade de alocação indevida de um domicílio em um território vizinho – se o poste 268 alimentador do domicílio estiver do lado oposto da via pública e essa via delimitar dois territórios, o domicílio será contabilizado como integrante da área vizinha à efetivamente sua. Esse efeito, aumentado com a diminuição das áreas, é igualmente compensatório (o efeito da contabilização errônea de alguns domicílios em um setor censitário pode estar sendo anulado por domicílios de setores vizinhos) e pode não representar uma diminuição significativa da relação. De qualquer forma, estudos subseqüentes podem verificar a taxa de ganho advindo do refinamento da precisão da localização geográfica dos domicílios, utilizando métodos de busca por endereço (address matching) a partir de ferramentas GIS e de bases geográficas de eixos de logradouros. Caso constate-se essa compensação, os indicadores de Consumo de Energia Elétrica por setor censitário podem ser amplamente adotados pelo mercado. Como este estudo confirmou, tais indicadores por área de ponderação já podem ser adotados. Alguns setores censitários situados em regiões de alta densidade populacional apresentam extensão muito pequena e, às vezes, acabam por se circunscrever simplesmente ao contorno de um único edifício. Em São Paulo, alguns edifícios residenciais contêm mais de um setor censitário, devido à sua altíssima densidade populacional. Assim, em muitos casos a coordenada de localização de todos os domicílios (apartamentos) desse setor situa-se fora do setor (coordenada dos postes), e o setor fica vazio de domicílios com energia elétrica, e, portanto, com indicadores de Consumo de Energia (proxies da Renda) iguais a zero – o que é certamente falso. Os três setores em destaque (amarelo) na Figura 5.8 estão nessa situação. Figura 5.8: Exemplo de Setores Censitários sem alocação de clientes residenciais da AES Eletropaulo Fonte: elaboração própria. 269 Estudos em áreas densamente povoadas precisam refinar a localização dos domicílios residenciais para evitar situações como a da Figura 5.8. Áreas de baixa renda, periféricas e de baixa densidade populacional, não apresentam, contudo, setores censitários com essas características, o que facilita a operacionalização da agregação dos indicadores elétricos por setores. Outras distribuidoras de energia que já possuam em seu cadastro georreferenciado a coordenada do domicílio, ou do medidor do domicílio, podem prescindir da etapa de refinamento dessa localização e evitar problemas de alocação indevida dos clientes a áreas agregadas. De qualquer forma, uma das grandes vantagens da geração de indicadores de Consumo de Energia Elétrica está na flexibilidade da agregação das áreas. Como os domicílios possuem sua informação de localização geográfica (ponto) nos sistemas das concessionárias de distribuição de energia, qualquer entidade poligonal pode ser utilizada para a obtenção de uma medida agregada de consumo de energia, por exemplo: quadrículas de um quilômetro de raio, por exemplo, ou a circunferência de 500 metros de raio de entorno de um endereço específico, ou a área de cobertura de um representante de vendas etc. Não há a necessidade de adaptação das unidades territoriais de gestão da empresa à disposição espacial dos setores censitários ou áreas de ponderação do IBGE; basta agregá-los nas unidades poligonais de interesse ad-hoc, e calcular o consumo de energia residencial médio das áreas, conforme exemplificado na Figura 5.9 a seguir. Diversos estudos podem se beneficiar de indicadores de Renda criados a partir do Consumo de Energia Elétrica. A vantagem está na periodicidade desse indicador. A informação do consumo de energia elétrica domiciliar é coletada mensalmente pelas distribuidoras (para o faturamento de seus clientes), possui uma base histórica bastante ampla em sistemas digitais e requer um mínimo esforço para que possa ser agregada nas unidades territoriais (FRANCISCO, 2002). A disponibilização desses indicadores pode, assim, ser sistemática. Dessa forma, o mercado pode prescindir de pesquisas em campo para grandes áreas de cobertura, artifício comumente utilizado para validar ou atualizar informações censitárias disponibilizadas pelo IBGE, quando essas se tornam antigas, dada a periodicidade de realização dos censos demográficos. 270 Setores Censitários Indicadores sistemáticos de Renda por Setor Censitário, granularidade convencional do Mercado Domicílios Círculos concêntricos (raios progressivos de 125 m) Estudos Ad-hoc (p.e., escolha do melhor ponto comercial para expansão ou reposicionamento no varejo) Quadrículas de 1 km2 Indicadores de Densidade de Renda Figura 5.9: Exemplos de Agregação Territorial dos Indicadores de Consumo de Energia Elétrica Fonte: elaboração própria, com utilização da ferramenta ArcView® GIS 3.1. 271 O próprio mercado das distribuidoras de energia elétrica pode fazer melhor uso de suas informações de concentração de consumo para o planejamento de carga. O uso de informações espaciais de concentração de renda e de outros indicadores demográficos vem se tornando uma prática de algumas distribuidoras de energia elétrica (NOONAN; JOHNSON, 2005). A adoção de técnicas de estatística espacial nesse contexto é ainda mais incipiente. Corajosas exceções são os trabalhos de Johannesson et al. (2006) e outros. A aquisição de informações de renda do mercado pode ser substituída pelos próprios indicadores internos de consumo de energia elétrica das concessionárias, caso a correlação entre essas informações seja alta, conforme apresentamos neste estudo para o município de São Paulo. Outro benefício potencial está no auxílio ao microcrédito. A dificuldade de se capturar informações de rendimentos dos indivíduos que solicitam o crédito, devido à informalidade e inexistência, muitas vezes, de históricos bancários, pode ser substituída por modelos (hierárquicos, em geral) que capturem informações de rendimentos médios da região em que está localizado o domicílio do indivíduo. Turner et al. (2006) discute fortemente essa possibilidade. Nesses termos, os indicadores de Consumo de Energia Elétrica se tornam os mais atuais e flexíveis para a obtenção do indicador específico para o entorno da região do domicílio (ou mesmo o setor censitário). Estudos futuros podem detalhar a viabilidade dessa prática, aplicá-la em campo e mensurar a existência efetiva de ganhos que essa substituição traria. Em nível domiciliar ou territorial, o uso de indicadores de energia elétrica para subsidiar a classificação ou predição da renda apresenta vantagens, em menor ou maior grau, em seu uso em substituição ou de forma integrada à classificação econômica do Critério Brasil. 272 6 CONCLUSÕES Este capítulo divide-se em três partes. Na primeira, apresentam-se as principais conclusões do trabalho. Em seguida, discutem-se as possíveis aplicações gerenciais e o uso dos achados como subsídio a práticas do mercado, no campo de marketing, de planejamento de mercado e outros. Na terceira parte, levantam-se suas limitações e sugerem-se temas para novas pesquisas nesta área. 6.1 PRINCIPAIS CONTRIBUIÇÕES Esta pesquisa teve como principal objetivo examinar a relação entre Consumo de Energia Elétrica e Renda Familiar nos domicílios do município de São Paulo. Investigou-se a utilidade do Consumo de Energia Elétrica como base para um indicador que possibilite a predição da Renda Domiciliar e a extensão e o refinamento do Critério de Classificação Econômica Brasil para estimar o poder de compra da população em geral. Para cumprir esses objetivos, a pesquisa dividiu-se em dois níveis de investigação. O primeiro nível, territorial, investigou indicadores agregados em 456 áreas de ponderação (conjunto de setores censitários). Utilizou-se a base de microdados do Censo Demográfico 2000 (Pesquisa da Amostra) do município de São Paulo (tópico 4.1.1), que representa o universo de 3.032.905 domicílios, com data de referência de 31 de Julho de 2000; e a base de dados sobre domicílios da AES Eletropaulo (3.037.992 registros) com mesma data de referência (tópico 4.1.3). O segundo, domiciliar, utilizou um conjunto de pesquisas pré-existentes, representativas do município de São Paulo: a Pesquisa Anual de Satisfação do Cliente Residencial Urbano da ABRADEE (tópico 4.2.1), de cinco rodadas: 2004 (662 casos), 2006 (717), 2007 (670), 2008 (654) e 2009 (677), para as quais se conhecia o distrito em que foi realizada cada entrevista. Os dados foram analisados sob a perspectiva da estatística espacial, e modelos de regressão da Renda Domiciliar a partir do Consumo de Energia Elétrica (ou de seu proxy 273 Valor da Conta de Luz) foram implementados: Spatial Auto-Regressive models (SAR) e Geographically Weighted Regression (GWR). Foi desenvolvido um modelo local com termo espacial auto-regressivo, denominado GWR+SAR, para complementar as análises no nível territorial. No nível domiciliar, foram implementadas 6 técnicas de alocação de pontos no interior dos polígonos dos distritos. Para cada alternativa de alocação, foram aplicadas 1.000 iterações e testados modelos GWR. Os resultados das iterações foram comparados aos resultados dos modelos com os dados originais, em que tradicionalmente se associa cada entrevista a um ponto arbitrário no interior dos polígonos: o centróide ou a sede do distrito, neste caso. As principais conclusões, obtidas a partir dos resultados encontrados (Capítulo 5), estão sintetizadas a seguir49. I. Em nível territorial, os construtos Renda Domiciliar e Consumo de Energia Elétrica apresentaram alta auto-correlação espacial (I de Moran superior a 75% para Renda e a 58% para Consumo de Energia, conforme tópico 5.1.1) e padrão de dependência espacial Centro-Periferia, conforme esperado, para o município de São Paulo. Tal padrão apresenta diferenças regionais e é notado mais fortemente se a matriz de vizinhança apresenta maior número de ligações (arestas) entre as áreas (nós). II. Em nível territorial, as relações entre Renda Média Domiciliar e Consumo Médio de Energia Elétrica mostraram-se muito fortes. A associação entre os construtos (todas as medidas agregadas em área de ponderação) foi de 0,93 a 0,98 (tópico 5.1.2), de forma a sugerir a possibilidade de plena substituição de um pelo outro. Os modelos espaciais utilizados (principalmente o GWR) capturaram adequadamente a dependência espacial do fenômeno, independente da definição de vizinhança que se tenha adotado, e apresentaram resíduos normais e homocedásticos. Em outras palavras, medidas de consumo médio de energia elétrica agregadas por áreas de ponderação são excelentes indicadores regionais de concentração de renda e classificação econômica dos domicílios para o município de São Paulo. 49 Todos os coeficientes de explicação dos modelos de regressão da renda apresentados são significantes ao nível de 0,01 (bicaudal). 274 III. Em nível territorial, o modelo híbrido GWR+SAR, com termo espacial auto-regressivo nas amostras locais, mostrou-se igualmente adequado na explicação da Renda Domiciliar pelo Consumo de Energia Elétrica, em nível territorial (coeficiente de determinação superior a 0,95, tópico 5.1.2), e apresenta a vantagem de espacializar o termo espacial auto-regressivo ( ρ ), ou seja, a contribuição da renda da vizinhança em modelos locais, condição não existente nos modelos GWR ou SAR originais. IV. Em nível domiciliar, a incorporação de indicadores de Consumo de Energia Elétrica (valor da conta de luz) e a adoção de técnicas de estatística espacial (GWR, principalmente) aumentou o poder de explicação da Renda pelo Critério Brasil de 0,57 para 0,77 (tópico 5.2.2, para a Pesquisa ABRADEE 2004), o que é um ganho que já justifica o baixo impacto da coleta de apenas um item a mais em uma pesquisa de campo – a leitura da conta de luz do entrevistado ou a declaração de seu valor médio. V. Em nível domiciliar, os construtos Renda Domiciliar e Consumo de Energia Elétrica apresentaram auto-correlação espacial significativa (I de Moran de cerca de 30% para Renda e 22% para Consumo de Energia, vide tópico 5.2.1), conforme esperado, para o município de São Paulo. Esses valores justificam a adoção de modelos de regressão espacial na análise da relação entre os construtos. VI. A investigação domiciliar mostrou que a explicação da Renda Domiciliar pelo Valor da Conta de Luz é estável de 2004 a 2009 e apresenta muitas vantagens com a adoção de modelos de dependência espacial. O coeficiente de determinação do modelo foi de 0,17 nos modelos OLS, 0,33 nos modelos SAR e de 0,44 nos modelos GWR, em média para as cinco rodadas da Pesquisa ABRADEE (tópico 5.2.2). Em algumas situações de campo (altos índices de recusa de coleta de posse de bens, aumento considerável do tempo e custo de aplicação, dificuldade na realização da pesquisa domiciliar, por exemplo), é possível fazer a substituição do Critério Brasil pelo Valor da Conta de Luz sem perda considerável do poder de explicação ou previsão da renda. 275 VII. Em nível domiciliar, os modelos GWR aplicados nas 1.000 amostras para cada alternativa de alocação de pontos em polígonos apresentaram R2 médio de 0,39-0,40 da Renda pelo Valor da Conta de Luz (tópico 5.2.3), inferior ao dos modelos com todas as entrevistas alocadas nos centróides ou sedes dos distritos. Essa diferença mostra que o uso standard das técnicas GWR apresenta resultados superestimados, enquanto que os resultados baseados nas alternativas de alocação de pontos parecem ser mais realistas. VIII. Em nível domiciliar, a técnica de alocação de pontos em polígonos baseada no plano amostral da Pesquisa ABRADEE (alternativa 6) apresentou os melhores resultados (R2) e mais se aproximou dos resultados com os dados reais de localização dos domicílios, conforme aplicação piloto da Pesquisa ABRADEE 2009 no município de São Paulo (tópico 5.2.3). As características de agrupamento e homogeneidade espacial das diversas amostras geradas por essa alternativa eram muito similares às da localização real dos domicílios. Em suma, no mundo dos indicadores agregados, é imprescindível cogitarmos o uso de estatística espacial e de outras técnicas de análise exploratória de dados espaciais. Quando existe dependência espacial do fenômeno, é fundamental utilizarmos técnicas como SAR e GWR, que consideram a geografia como parte da explicação e melhoram o poder de predição e explicação dos resultados, e tornam mais robusto o método, resolvendo problemas de resíduos. Para dados pontuais, o uso tradicional de GWR pode estar gerando resultados um pouco acima do real, por considerar que todos os indivíduos de uma mesma região estão em um mesmo ponto arbitrário. Utilizando técnicas de espalhamento de pontos, principalmente baseadas no planejamento amostral da pesquisa considerada, simulamos como deve ser a distribuição de pontos (utilizando várias técnicas), e, pelo menos para o problema em estudo, os resultados da regressão diminuíram um pouco em determinação, o que é razoável, pois mostram uma relação mais realística entre os construtos estudados. Em especial, a técnica de espalhamento baseada no planejamento amostral da pesquisa foi a que mais aproximou do modelo real. 276 6.2 IMPLICAÇÕES GERENCIAIS O presente trabalho traz várias contribuições para os profissionais de pesquisa de mercado em geral, que são distintas, porém complementares, para os contextos domiciliar e territorial. Os achados da investigação domiciliar potencializam o uso do Consumo de Energia Elétrica (ou do Valor da Conta de Luz) em levantamentos em campo. Uma combinação do Critério Brasil com o consumo de energia e a adoção das técnicas de estatística espacial mostraram grande determinação na predição da renda e devem ser considerados. Para os Institutos de Pesquisa, em geral, o custo da incorporação de uma variável a mais (o valor médio da conta de luz) é baixíssimo frente aos benefícios demonstrados neste trabalho. Um ganho adicional está, ainda, no caráter contingencial que o levantamento do consumo de energia elétrica traz. Índices de recusa de levantamento de posse de bens duráveis são comuns, e, nesses casos, a simples pergunta sobre o valor médio da conta de luz pode ser uma alternativa razoável. Os resultados obtidos na predição da Renda pelo Valor da Conta de Luz (R2 ≅ 0,40, nos modelos mais realistas com as alternativas de espalhamento de pontos) mostram que a perda nessa substituição é pequena em valores absolutos. Mais ainda, pesquisas não domiciliares de rendimentos poderiam fazer uso da coleta do valor da conta de luz, ao invés da coleta direta da renda, que incorre nos problemas de subdeclaração, superdeclaração, recusa (BUSSAB; FERREIRA, 1999), esquecimento e alto tempo de aplicação. Especula-se que o índice de recusa e de não informação do valor da conta de luz, para respondentes do tipo chefe ou cônjuge do domicílio, sejam menores que o da renda. Uma outra grande vantagem está na não necessidade de atualização ou revisão constante do critério. Em critérios baseados em posse de bens duráveis, constantemente a evolução da tecnologia e dos hábitos de posse direcionam sua atualização. Na adaptação do Critério Brasil para 2008 ocorreu a remoção do item aspirador de pó, e, em sua evolução desde a criação, itens como videocassete incorporaram o DVD na mesma categoria (ABEP, 277 2004, 2008a). A estabilidade da relação entre Renda e Valor da Conta de Luz de 2004 a 2009 sugere que podemos prescindir, no curto prazo, de medidas de validação de hipóteses de mudança nessa relação para efeitos de uso em critérios socioeconômicos. Os achados da investigação territorial podem ser úteis para os profissionais de pesquisa de mercado e marketing lotados em empresas de consultoria ou em clientes finais (públicos e privados) que utilizam indicadores espacializados de concentração de renda ou classificação econômica para a definição ou revisão de planos amostrais de suas pesquisas próprias e para suporte a decisões de caráter estratégico e tático. Os resultados sugerem a ampla adoção, pelo mercado, do uso de indicadores elétricos territoriais como substitutos a indicadores territoriais de renda. Tal adoção deve ser, pois, precedida de uma ampla oferta desses indicadores pelas empresas de distribuição de energia elétrica, ou por seus parceiros nessa empreitada. As distribuidoras deveriam ampliar seu portfólio de negócios não regulados incorporando o fornecimento sistemático de indicadores elétricos por unidades territoriais usuais do mercado (setores censitários, áreas de ponderação, distritos, municípios), ou expandir seu know-how com a inclusão de atividades de consultoria na geração de estudos ad-hoc sob medida para empresas solicitantes; visando apoiá-las em atividades de expansão de suas redes de lojas, aquisição de clientes de perfis pré-definidos, redesenho de áreas de cobertura de vendas e distribuição, ou identificação de áreas carentes para o estabelecimento de políticas públicas mais efetivas. O mercado, de maneira geral, utiliza pesquisas primárias para a confirmação, refinamento ou atualização das informações censitárias, talvez por desconhecimento da existência do potencial modelo de negócios vislumbrado anteriormente. As informações censitárias em geral são adquiridas a baixíssimo custo, enquanto que a contratação de pesquisas primárias apresenta custo relativo muitíssimo maior. O uso de indicadores elétricos representaria baixo custo adicional para as distribuidoras de energia, uma vez que a coleta das informações é realizada para as atividades de faturamento dos clientes, dentro do ciclo de gestão comercial das empresas; além disso, restaria o custo do estabelecimento da sistemática de geração dos indicadores agregados, de baixa complexidade com o uso de ferramentas de geoprocessamento. 278 Com isso, o preço de mercado dos indicadores de Consumo de Energia Elétrica poderia ser atraente, tornando-os disponíveis. Estes, atualizados mensalmente, poderiam diminuir o uso de pesquisas quantitativas para análise da evolução das variáveis de interesse e representar, assim, uma alternativa viável para um mercado cada vez mais exigente e carente de informações secundárias detalhadas e temporalmente menos esparsas. Em termos de informação, além do indicador de Renda baseado em Consumo de Energia, as distribuidoras de energia elétrica possuem, com exclusividade e precisão, dados atualizados de número de consumidores, estratificados por segmentos e tipos diversos, que podem derivar informações de taxa de crescimento, residencial, comercial e industrial em sua área de concessão. Além disso, as próprias empresas de distribuição de energia elétrica deveriam fazer melhor uso de sua riqueza de informações para finalidades diferentes das tradicionais de sua gestão operacional. Áreas como a de planejamento de mercado e de carga poderiam utilizar indicadores de concentração de consumo para especializar as classes de previsão, muitas vezes limitadas às tradicionais classes de consumidores (residenciais, comerciais, industriais e outros). O conhecimento cada vez mais aprofundado de seus clientes pode, ainda, trazer benefícios e aprimoramentos aos canais de relacionamento comercial, com a redução de custos operacionais, e permite o desenvolvimento de novos produtos e serviços não regulados, derivados da identificação de segmentos específicos de clientes de alto potencial. Sob a ótica da gestão do conhecimento, recente trabalho de Barros (2010), com aplicação de sistema de representação de conhecimento tácito na AES Eletropaulo, destaca que a implementação de produtos baseados em informação em uma empresa de distribuição de energia elétrica é um desafio mais cultural do que técnico. As fontes potenciais de produção de conhecimento no contexto deste negócio devem apoiar as estratégias da organização em seus processos decisórios em todos os níveis. Porém, no setor elétrico brasileiro, deve-se buscar ainda uma maturidade para se atingir esse estado, o que será certamente um diferencial para a empresa que o adotar em caráter pioneiro. A falta de cultura empresarial – com visão da liderança predominantemente vinculada a produtos regulados – representa um risco ao estabelecimento de um framework que possa subsidiar ao mesmo tempo o desenvolvimento de novos produtos e a inteligência de mercado que melhore o relacionamento com seus clientes. 279 Um framework dessa natureza, apoiado seminalmente em um perfil socioeconômico-demográfico dos clientes a partir de seu perfil elétrico (conforme achados desta tese), deve ser baseado em um ciclo motriz de retroalimentação que induza o aumento constante do conhecimento de seus clientes a partir de múltiplas interações. O Esquema 6.1 mostra essa estrutura, destaca um Spatial Data Warehouse, repositório central de informações, cerne desse contexto, e posiciona os indicadores de Renda baseados em Consumo de Energia Elétrica na evolução de uma visão operacional para uma visão estratégica. Visão Operacional Bases de Dados Operacionais das Distribuidoras de Energia Elétrica Fontes de Dados Externas FGV e Institutos de Pesquisa, IBGE, Demografia, Database Marketing, Pesquisa de Campo, Landbase, Competidores, ... Consumo de Energia Elétrica Call Center Tele Medição Billing Customer Location Rede Eletr. e Telecom ... Extração & Data Cleansing BD do Cliente Spatial Data Warehouse Indicador de Renda Retro alimentação CLIENTE CR GIS DM M Geomarketing, Geomarketing, Data Mining, Estatística Espacial, OLAP Web Suporte a Decisão Visão Estratégica e Holística Esquema 6.1: Framework de Diagrama de Valor de Spatial Data Warehouse com destaque para o uso estratégico dos Indicadores Socioeconômicos baseados no Consumo de Energia Elétrica Fonte: elaboração própria. Esse diagrama sintetiza um uso potencial dos indicadores socioeconômicos baseados em energia elétrica para uma distribuidora de energia elétrica. O diferencial 280 competitivo sustentável está além da geração de novos negócios, e sim no que isso representa na consistência do relacionamento com o cliente. Passamos a poder capturar e gerenciar uma visão única do cliente, sob todos os canais de relacionamento, seus hábitos e preferências, em uma dinâmica que quase caminha para o tempo real. Se permitido, podemos rastreá-lo e ofertar-lhe promoções convenientes de acordo com seu perfil de deslocamento urbano diário, seu local de moradia ou de trabalho, sua proximidade a determinada loja ou ponto de venda naquele instante. De acordo com sua resposta, entendemos melhor sua sensibilidade a ofertas e, assim, conhecemos cada vez mais cada cliente e retroalimentamos a base de informações. Trata-se da visão one-to-one de fato, o fullfilment da gestão de marketing, o gerenciamento de clientes ao longo do ciclo de vida e de acordo com seu perfil, em uma busca incessante do conhecimento que o dono da venda da esquina tinha outrora. No contexto espacial, é um “novo pensar geográfico”. Nesse contexto, a estrutura do Esquema 6.1 evolui sensivelmente. Primeiramente, a complementação do perfil do cliente através de bases sócio-demográficas adquire um alto grau de refinamento pelo perfil já caracterizado pelas informações das Utilities e pela altíssima cobertura de clientes. Em segundo lugar, o alto custo de bases sistemáticas de outrora se esvai quase completamente pelo advento do WebGIS, de webservices geográficos e de informações georreferenciadas de amplo interesse totalmente publicadas no Google Earth ou similares. E, por fim, o poder de personalização aumenta tanto que a identificação do perfil do cliente pode ser feita quase automaticamente, a partir do monitoramento de suas ações em sites de relacionamento, de buscas, de compras e de seu uso de dispositivos móveis acoplados a agendas eletrônicas e aparelhos celulares. Isso tudo permite a oferta de produtos e serviços muito específicos para cada cliente – em outras palavras, a caderneta de anotações do dono da venda da esquina agora faz parte da “computação em nuvem”. Segundo o Gartner Group, cerca de 70 a 80% das informações relevantes aos processos decisórios têm caracterização espacial (FRANCISCO, 2002). Em outras palavras, a pergunta “onde” é mais do que fundamental. Para a geração de valor a partir de dados operacionais em uma distribuidora de energia elétrica, o contexto espacial se torna instrumento importante para o entendimento pormenorizado da dinâmica e mobilidade urbana, para a antecipação de tendências constatadas com precisão apenas nos censos e pesquisas demográficas, e para a identificação detalhada dos clientes. 281 No contexto discutido nesta tese, trata-se da visão integrada entre a perspectiva territorial e a domiciliar. Por um lado, permite-se uma análise de tendências de crescimento populacional e de renda em uma granularidade, precisão e atualização temporal muito além do que o mercado sequer sonha em praticar. Por outro lado, perfis a priori podem ser outorgados aos clientes e refinados ou validados (e melhorados) com investigações simples do consumo de energia e perfil de pagamento da conta de luz, dentro de um contexto de Customer Relationship Management (CRM). 6.3 LIMITAÇÕES E RECOMENDAÇÕES PARA PESQUISAS FUTURAS Algumas limitações cercaram o desenvolvimento do trabalho, devido, principalmente, a seu caráter inicial. A importância de expor e discutir estas limitações está em especular sobre seus impactos nos resultados e levantar pontos que mereçam aprimoramentos e inspirem futuras pesquisas. Primeiramente, uma limitação deste estudo, e conseqüente recomendação para estudos futuros, é a validação com bases de dados mais atuais das conclusões obtidas na investigação territorial. Os dados utilizados referem-se a 2000, que é o levantamento brasileiro mais atual, na granularidade utilizada neste trabalho (área de ponderação). Os efeitos do Racionamento de energia elétrica, como a mudança em alguns hábitos de consumo residencial de energia (ACHÃO, 2003) e o avanço do consumo de GLP e Gás Natural (SÃO PAULO, 2005), podem ter causado alguma mudança na forte associação entre Renda e Consumo, que devem ser verificadas. A estabilidade da relação entre Renda e Consumo de Energia ao longo dos últimos anos, conforme discutido no tópico 5.2, sugere que resultados similares poderão ser encontrados. O Censo Demográfico 2010 do IBGE trará algumas novidades que permitirão desdobramentos importantes deste estudo. A principal delas, para esta finalidade, será a representatividade da Renda Domiciliar por setor censitário, e não mais apenas por área de ponderação. O Questionário Básico do Censo coletará a renda total do domicílio, e não apenas a renda do chefe da família (IBGE, 2010). Assim, poderemos testar as hipóteses deste estudo para esse nível de agregação. Em 2000, o município de São Paulo dividia-se em 13.278 282 setores censitários e 456 áreas de ponderação. Pretende-se replicar o estudo atual (investigação territorial) nas mesmas condições (áreas de ponderação de São Paulo) e estender sua agregação aos setores censitários, avaliando os prováveis impactos do aumento da variabilidade das variáveis envolvidas, dentro do contexto do Modifiable Area Unit Problem (MAUP), conforme discutido no tópico 3.2. Pretende-se avaliar a influência da variação das fronteiras das unidades de análise (JELINSKI; WU, 1996) através de testes como o de pseudo-significância para validade estatística dos índices espaciais (ANSELIN, 1995; FEITOSA et al., 2007). Ademais, replicações deste estudo podem e devem ser feitas em outras áreas geográficas, estendendo ou contestando os achados para o município de São Paulo. Pesquisadores que tenham acesso a informações de consumo de energia elétrica de domicílios de outras empresas de distribuição, do Brasil e de outros lugares do mundo, e que possam integrá-los a informações demográficas e censitárias, poderão seguir a metodologia desenvolvida neste estudo ou adaptá-la às condições locais. Rocha Jr. (2007) replicou parte da investigação territorial deste estudo (a criação do CBA e a aplicação de regressões não espaciais) em região do Espírito Santo e obteve resultados igualmente fortes na relação entre os construtos. Mesmo com relação à AES Eletropaulo, a investigação territorial em áreas de ponderação deve ser expandida para os demais 23 municípios de sua área de concessão, abrangendo, assim, uma maior porção da Grande São Paulo. Estudos comparativos internacionais devem ser incentivados, de forma a verificarmos se os indicadores de Renda baseados em Consumo de Energia Elétrica apresentam características similares às de São Paulo. Do ponto de vista domiciliar, além do Critério Brasil e principalmente do Consumo de Energia Elétrica Residencial, construtos centrais neste trabalho para a explicação da Renda Domiciliar, outras variáveis podem ser utilizadas na busca de uma melhor descrição do fenômeno de associação entre Renda e Consumo de Energia Elétrica. Árvores de decisão aplicadas sobre outras pesquisas no município de São Paulo (FRANCISCO, 2006) destacaram o número de pessoas, o número de cômodos e o número de dormitórios nos domicílios como variáveis discriminantes dos segmentos de renda encontrados. Adicionalmente, a estrutura familiar, conforme apontado por Silveira et al. (2003), apresenta tipologias socioeconômicas diversas, e pode refletir-se em hábitos de uso e posse de bens duráveis de natureza elétrica 283 (Guerreiro et al., 1996). A Pesquisa ABRADEE coleta informações sobre a estrutura familiar do domicílio desde sua rodada de 2007. Os microdados da Amostra do Censo Demográfico 2000 contêm informações de parentesco e grau de instrução de cada membro da família. Futuros estudos podem caracterizar comportamentos de consumo de energia elétrica típicos das principais estruturas familiares brasileiras, em níveis territorial e domiciliar. Estudos que considerem outros aspectos, de cunho social e cultural, ligados à riqueza e à pobreza, avaliados sob a ótica de modelos de dependência espacial, também devem ser considerados em análises futuras. A replicação da perspectiva domiciliar deste estudo para outros municípios ou regiões do Brasil deve ser fortemente considerada como futuro estudo. A Pesquisa ABRADEE de 2009 ocorreu em 1.409 municípios de 26 Estados brasileiros e Distrito Federal, compreendendo 39.724 entrevistas (INNOVARE, 2009), o que permite, com o prévio consentimento e interesse das concessionárias de distribuição de energia elétrica, sua aplicação e eventual avaliação comparativa com os resultados de São Paulo e outros. A Pesquisa CIER aplicada em outros países da América Latina também apresenta estrutura e planejamento amostral similares, e pode ser considerada em estudos comparativos. Para 2010, em função da aplicação piloto da Pesquisa ABRADEE de 2009 na AES Eletropaulo, a ABRADEE publicará no banco de dados da pesquisa o código do setor censitário em que ocorreu cada entrevista. Isso permitirá que possamos avaliar definitivamente as relações entre Renda e Consumo de Energia Elétrica prescindindo da associação, arbitrária, das entrevistas ao centróide ou à sede dos distritos. Também permitirá que repliquemos a avaliação da adequabilidade das técnicas de alocação de pontos no interior dos polígonos dos distritos. Os seis algoritmos de espalhamento de pontos no interior das áreas discriminadas no banco de dados devem ser testados em estudos que abranjam outras variáveis ou outras regiões geográficas. Deve-se buscar verificar se a provável ligeira superestimação da relação entre os construtos nos modelos com dados associados a um mesmo ponto arbitrário no interior das áreas é uma característica específica dos achados desta tese ou se se estende a outros fenômenos e pode ser generalizada dentro de contextos sociais específicos. 284 Da mesma forma, deve-se avaliar o comportamento do modelo GWR+SAR, criado no contexto deste estudo, para outros problemas e fenômenos a serem analisados. Outras matrizes de vizinhança devem ser avaliadas para este novo modelo, e também para o GWR e SAR, em contextos mais específicos. Em problemas que envolvam abordagens de geomarketing, grafos de vizinhança baseados em modelos gravitacionais de localização de Reilly (1931) e Huff (1966), conforme apresentados no tópico 3.1, devem ser considerados. Ainda do ponto de vista metodológico, conforme discutido no tópico 5.3, deve-se buscar a análise conjunta das perspectivas territorial e domiciliar, através de técnicas de regressão multi-nível e modelos hierárquicos. Nesse contexto, as contribuições da renda média e consumo médio de energia do nível territorial (área de ponderação ou setor censitário) seriam avaliados de forma independente às contribuições que o consumo de energia elétrica de cada domicílio localizado dentro das áreas traz à explicação da Renda. Trabalhos de Subramanian, Duncan e Jones (2001) e de Subramanian et al. (2004) versam sobre o uso dessa técnica com dados censitários e em contextos sociais. Em ambos os níveis poderíamos incorporar a dependência espacial. Recomenda-se fortemente a evolução deste estudo nessa vertente. Os modelos aqui apresentados podem também evoluir dentro do contexto da estatística bayesiana, principalmente dentro da investigação domiciliar. Waller (2004) discute e incentiva fortemente a adoção de técnicas bayesianas no contexto da Estatística Espacial e Geoestatística, principalmente no que concerne à estimação em pequenas áreas. As técnicas de espalhamento de pontos em polígonos devem ser avaliadas sob essa perspectiva também. Outras variáveis disponíveis na Pesquisa ABRADEE podem ser adicionadas ao estudo para que tenhamos a derivação de novas alternativas de alocação de pontos em polígonos: número de moradores no domicílio, por exemplo. Modelos de superfície de probabilidade de fitness podem levar em conta combinações das variáveis consumo de energia, densidade demográfica e moradores por domicílio, por exemplo. Incentiva-se a aplicação dos indicadores de Renda baseados em consumo de energia elétrica em vários contextos. Para o setor de distribuição de energia elétrica, estudos de Francisco e Fagundes (2006a, 2006b) e de Francisco et al. (2009) incorporaram os indicadores ao contexto da propensão à perda comercial e fraude de energia. Estudos voltados 285 à inadimplência e ao planejamento de energia também devem ser avaliados, bem como seu uso para apoiar modelos de marketing, segmentação de clientes e oferta de novos produtos e serviços não-regulados. Em especial para a oferta de Microcrédito, estudos futuros poderiam testar modelos que contemplassem o uso de indicadores territoriais de consumo médio de energia elétrica como proxies da Renda média territorial em substituição à renda declarada pelo tomador de crédito. Avaliado em conjunto com a renda média da região de domicílio do indivíduo, esse modelo poderia ser uma alternativa potencial para a diminuição da assimetria de informação que dificulta e até inviabiliza em muitos casos os modelos de microcrédito aplicados no mercado (ZAMBALDI, 2007). As exigências para a concessão do crédito poderiam prescindir de comprovações de renda caso o modelo adotado mostre adequação. Espera-se, por fim, que os achados deste estudo contribuam de maneira relevante para o entendimento do comportamento da relação entre Consumo de Energia Elétrica, Renda e Caracterização Econômica dos consumidores em geral e incentivem a adoção de técnicas de Estatística Espacial no contexto das Ciências Sociais. Espera-se também que estas indicações das limitações e recomendações sirvam como inspiração para estudos futuros na área. 286 REFERÊNCIAS BIBLIOGRÁFICAS ABEP – Associação Brasileira de Empresas de Pesquisa. Critério de Classificação Econômica Brasil – Base 2000. São Paulo, 2004. Disponível em: . Acesso em: 25 jan. 2010. ABEP – Associação Brasileira de Empresas de Pesquisa. Critério de Classificação Econômica Brasil – Base 2005. São Paulo, 2008a. Disponível em: . Acesso em: 25 jan. 2010. ABEP – Associação Brasileira de Empresas de Pesquisa. Adoção do CCEB 2008. Critério de Classificação Econômica Brasil. São Paulo, 2008b. Disponível em: . Acesso em: 25 jan. 2010. ABEP – Associação Brasileira de Empresas de Pesquisa. Critério de Classificação Econômica Brasil – Base 2006 e 2007. São Paulo, 2009. Disponível em: . Acesso em: 25 jan. 2010. ABEP – Associação Brasileira de Empresas de Pesquisa. Critério de Classificação Econômica Brasil – Base 2008. São Paulo, 2010. Disponível em: . Acesso em: 25 jan. 2010. ABRADEE – Associação Brasileira dos Distribuidores de Energia Elétrica. Metodologia da Pesquisa ABRADEE de Satisfação do Cliente Residencial Urbano de Energia Elétrica. Brasília, 2003. ABRADEE – Associação Brasileira das Distribuidoras de Energia Elétrica. Glossário, Tarifa de Baixa Renda. Brasília, 2005. ABRADEE – Associação Brasileira dos Distribuidores de Energia Elétrica. Metodologia do Prêmio ABRADEE 2009. Brasília, 2008. ACHÃO, Carla C. L. Análise da Estrutura de Consumo de Energia pelo Setor Residencial Brasileiro. 2003. 122 f. Dissertação (Mestrado em Ciências em Planejamento Energético) – COPPE/UFRJ, Rio de Janeiro, 2003. AES ELETROPAULO. Relatório Comercial 2003. São Paulo, 2004. AES ELETROPAULO. Relatório Comercial 2004. São Paulo, 2005a. AES ELETROPAULO. Eficiência Energética. Ligado, v. 25, p. 20-22, 2005b. AES ELETROPAULO. Relatório Comercial 2008. São Paulo, 2009. AES ELETROPAULO. Relatório de Administração 2008. São Paulo, 2009. Disponível em: . Acesso em: 13 fev. 2010. 287 AES ELETROPAULO. Informações: Calcule o valor da sua conta. Simulador de cálculo de conta. São Paulo, 2010a. Disponível em: . Acesso em: 31 jan. 2010. AES ELETROPAULO. Eficiência Energética. São Paulo, 2010b. Disponível em: . Acesso em: 31 jan. 2010. AES ELETROPAULO. Relatório Comercial 2005. São Paulo, 2006. AGÊNCIA BRASIL. Tarifa social de energia passa a focar baixa renda. Brasília, 2010. Disponível em: . Acesso em: 21 jan. 2010. AGUIAR, Anna C. et al. O papel das tarifas de energia elétrica na queda da desigualdade de renda no Brasil. In: ENCONTRO NACIONAL DE ECONOMIA, 35., 2007. Anais … Niterói, RJ: ANPEC, 2007. AKAIKE, Hirotsugu. A new look at the statistical model identification. IEEE Transactions on Automatic Control, v. 19, n. 6, p. 716-723, Dec. 1974. ALAM, M. S. et al. A model for the quality of life as a function of electrical energy consumption. Energy, v. 16, n. 4, p. 739-745, Apr. 1991. ALMEIDA, Pergentino M.; WICKERHAUSER, Hilda. O Critério ABA/ABIPEME – em busca de uma atualização. Um estudo e uma proposta submetidos à ABA e à ABIPEME. São Paulo: ABA; ABIPEME, 1991. (Documento de circulação restrita). ANAND, Sudhir; SEN, Amartya. Concepts of human development and poverty: A multidimensional perspective. In: UNDP – Human Development Report 1997 Papers: Poverty and Human Development. New York: UNDP, 1997. ANDRADE, Fúlvio C. Estratégias de Relacionamento em uma Distribuidora de Energia Elétrica. In: ENCONTRO DE MARKETING DA ANPAD, 2004, Porto Alegre. Anais eletrônicos ... Porto Alegre: ANPAD, 2004. Disponível em: . Acesso em: 20 nov. 2009. ANDRADE, T.; LOBÃO, W. Elasticidade Renda e Preço da Demanda Residencial de Energia Elétrica no Brasil. Rio de Janeiro: IPEA, 1997. (Texto para Discussão n. 489). ANEEL – Agência Nacional de Energia Elétrica. Resolução nº 456, de 29 de novembro de 2000. Estabelece, de forma atualizada e consolidada, as Condições Gerais de Fornecimento de Energia Elétrica. Diário Oficial da União de 30 nov. 2000. Seção 1, p. 35, n. 230-E. ANEEL – Agência Nacional de Energia Elétrica. Atlas de Energia Elétrica do Brasil. Brasília, 2002. ANEEL – Agência Nacional de Energia Elétrica. Atlas de Energia Elétrica do Brasil. 3. ed. Brasília, 2008. 288 ANG, B. W.; GOH, T. N.; LUI, X. Q. Residential electricity demand in Singapore. Energy, v. 17, n. 1, p. 37-46, Jan. 1992. ANSELIN, Luc. Estimation methods for spatial autorregresive structures. Ithaca, NY: Cornell University, 1980. (Regional Science Dissertation and Monographs séries n. 8). ANSELIN, Luc. Spatial Econometrics: Methods and Models. Dordrecht, Holanda: Kluwer Academic, 1988. ANSELIN, Luc. Local indicators of spatial association – LISA. Geographical Analysis, v. 27, p. 93-115, 1995. ANSELIN, Luc. Exploratory Spatial Data Analysis in a Geocomputational Environment. In: LONGLEY, Paul A. et al. Geocomputation: a Primer. Chichester, England: WileyBlackwell, 1998. p. 77-94. ANSELIN, Luc. Geoda : GeoData Analysis Software. Urbana-Champaign, IL: University of Illinois, 2004. ANUNCIANTES Rejeitam Redefinição de Classes. Folha de São Paulo, São Paulo, p. 3-8, 30 set. 1991. ARANHA, Francisco. Losch, Christaller e a Teoria do Lugar Central. InfoGEO, n. 19, jun. 2001. ARANHA, Francisco; FIGOLI, Susana. Geomarketing: Memórias de Viagem. São Paulo, 2001. Documento eletrônico. Disponível sob pedido a francisco.aranha@fgvsp.br. ARAÚJO, Hildete P. M. O Setor de Energia Elétrica e a Evolução Recente do Capitalismo no Brasil. Rio de Janeiro: COPPE-UFRJ, 1979. ArcGIS ArcScene, version 9.3: 3D GIS Software. Redlands, CA: ESRI Inc., 2008. ArcView GIS, version 3.2: Desktop GIS Software. Redlands, CA: ESRI Inc., 2002. ASSUNÇÃO, Renato M. Estatística Espacial com Aplicações em Epidemiologia, Economia e Sociologia. São Carlos: Associação Brasileira de Estatística, 2001. AYDINALP, Merih; UGURSAL, V. Ismet; FUNG, Alan S. Modeling of the space and domestic hot-water heating energy-consumption in the residential sector using neural networks. Applied Energy, v. 79, n. 2, p. 159-178, Oct. 2004. BÄCK, Thomas; FOGEL, David B.; MICHALEWICZ, Zbigniew. Handbook of Evolutionary Computation. New York: Taylor & Francis Group, 1997. BADDELEY, Adrian; GILL, R. D. Kaplan-Meier estimators for interpoint distance distributions of spatial point processes. Annals of Statistics, v. 25, p. 263-292, 1997. BADDELEY, Adrian. Analysing spatial point patterns in 'R'. Clayton South, Austrália: CSIRO, 2008. Disponível em: < http://www.csiro.au/resources/Spatial-Point-Patternsin-R.html>. Acesso em: 21 ago. 2009. 289 BADDELEY, Adrian; TURNER, Rulf. Spatstat: an R package for analyzing spatial point patterns. Journal of Statistical Software, v. 12, n. 6, p. 1-42, 2005. BAGHERI, Nasser; HOLT, Alec; BENWELL, George L. Using Geographically Weighted Regression to Validate Approaches for Modelling Accessibility to Primary Health Care. Journal Applied Spatial Analysis and Policy, v. 2, n. 3, p. 177-194, Oct. 2009. BAIÃO, Lívia. Tarifa, Tributos e Encargos no Setor de Distribuição de Energia Elétrica. In: SEMINÁRIO SOBRE A REFORMA TRIBUTÁRIA, Brasília, 2005. BARNES, Carolyn. Microfinance Program Clients and Impact: an Assessment of Zambuko Trust, Zimbabwe. Washington, DC: AIMS, 2001. (AIMS Papers). BARROS, Maria B. Système de représentation de connaissances tacites: le cas de la stratégie dans un secteur d’energie. 2010. 247 f. Tese (Docteur ès Science de Gestion) – Ecole Doctorale Sciences Économiques et de Gestion – et ED EPIC, Université Jean Moulin Lyon 3, Lyon, França. 2010. BARROS, Ricardo P. de, CARVALHO, Mirella de; FRANCO, Samuel. Pobreza multidimensional no Brasil. Rio de Janeiro: IPEA, 2006. (Texto para Discussão n. 1227). BARROS, Ricardo P.; HENRIQUES, Ricardo; MENDONÇA, Rosane. A estabilidade inaceitável: desigualdade e pobreza no Brasil. Rio de Janeiro: IPEA, 2001. (Texto para Discussão n. 800). BITTENCOURT, N. Uso de Bancos de Dados Oficiais. In: ESCOLA DE INVERNO DA FGV-EAESP, 1., São Paulo, 2005. BIVAND, Roger; with contributions by Luc Anselin, Renato Assunção, Olaf Berke, Andrew Bernat, Marilia Carvalho, Yongwan Chun, Bjarke Christensen, Carsten Dormann, Stéphane Dray, Rein Halbersma, Elias Krainski, Nicholas Lewin-Koh, Hongfei Li, Jielai Ma, Giovanni Millo, Werner Mueller, Hisaji Ono, Pedro Peres-Neto, Markus Reder, Michael Tiefelsdorf and and Danlin Yu. spdep: Spatial dependence: weighting schemes, statistics and models. R package version 0.4-50. 2009. Disponível em: . Acesso em: 11 out. 2009. BIVAND, Roger; GEBHARDT, Albrecht. Implementing functions for spatial statistical analysis using the R language. Journal of Geographical Systems, n. 2, p. 307-317, 2000. BIVAND, Roger; YU, Danlin. spgwr: Geographically weighted regression. R package version 0.6-2. 2009. Disponível em: . Acesso em: 11 out. 2009. BLOMMESTEIN, Hans J. Specification and Estimation of Spatial Econometric Models: A Discussion of Alternative Strategies for Spatial Economic Modelling. Regional Science and Urban Economics, v. 13, n. 2, p. 251-270, May 1983. BÔA NOVA, Antonio C. Energia e Classes Sociais no Brasil. São Paulo: Loyola, 1985. BOLFARINE, Heleno; BUSSAB, Wilton O. Elementos de amostragem. Versão preliminar. São Paulo: Instituto de Matemática e Estatística da Universidade de São Paulo, 2000. 290 BOLT, Katharine; MATETE, Mampite; CLEMENS, Michael. Manual for Calculating Adjusted Net Savings. Washington, DC.: World Bank, 2002. BOURDIEU, P. The forms of capital. Handbook of theory and research for the sociology of education. New York: Greenwood, 1986. BOWMAN, Adrian W. An alternative method of cross-validation for the smoothing of density estimates. Biometrika, v. 71, n. 2, p. 353-360, 1984. BP GLOBAL. BP Statistical Review of World Energy 2008. London, 2008. BRASIL. Decreto nº 2.003, de 10 de setembro de 1996. Regulamenta a produção de energia elétrica por Produtor Independente e por Autoprodutor e dá outras providências. Diário Oficial da União de 11 set. 1996. Seção 1, p. 17.917. BREITENECKER, Robert J. Analysing Regional Firm Startup Activity Using Geographically Weighted Regression: The Case of Austria. In: EUROPEAN YOUNG STATISTICIANS MEETING, 15., 2007, Castro-Urdiales, Espanha. BREITENECKER, Robert J.; HARMS, Rainer. Dealing With Spatial Heterogeneity in Entrepreneurship Research. Organizational Research Methods, v. 13, p. 176-191, Jan. 2010. BRITO, Luiz A. L.; PIGNANELLI, Alexandre; CSILLAG, João M. Does Quality Management Improve Performance? A Longitudinal Multilevel Approach. In: ENCONTRO ANUAL ANPAD, 32., 2008, Rio de Janeiro. Anais eletrônicos ... Rio de Janeiro: ANPAD, 2008. BROWN, Stephen. Retail Location: A Micro-Scale Perspective. Aldershot, Hants, England: Ashgate, 1992. BRUNSDON, Chris. An R Library for Geographically Weighted Regression. Newcastle upon Tyne, England: Department of Geography, University of Newcastle upon Tyne, 2003. BURNHAM, Kenneth P.; ANDERSON, David R. Model Selection and Multimodel Inference: A Practical-Theoretic Approach. 2nd ed. New York: Springer, 2002. BUSSAB, Wilton O.; DINI, Nádia P.; MANCINI, Silvia R. Plano Amostral – Pesquisa de Emprego e Desemprego. São Paulo em perspectiva, v. 17, n. 3-4, p. 125-134, 2003. BUSSAB, Wilton O.; FERREIRA, M. Critério Brasil de Estratificação Socioeconômica: Aspectos Demográficos. In: CLADEA, 34., 1999, San Juan, Porto Rico. Anais ... San Juan, Porto Rico: CLADEA, 1999. BUSSAB, Wilton O.; MORETTIN, Pedro A. Estatística Básica. 5 ed. São Paulo: Saraiva, 2003. CAHILL, Meagan; MULLIGAN, Gordon. Using Geographically Weighted Regression to Explore Local Crime Patterns. Social Science Computer Review, v. 25, n. 2, p. 174-193, 2007. 291 CÂMARA, Gilberto et al. Tutorial Análise Geográfica. In: CONGRESSO GEOBRASIL 2003, 2003, São Paulo. CÂMARA, Gilberto et al. Mapping Social Exclusion/Inclusion in Developing Countries: Social Dynamics of São Paulo in the 1990s. In: GOODCHILD, Michael F.; JANELLE, Donald G. Spatially integrated social science. New York: Oxford University Press, 2004. cap. 11, p. 223--237. CÂMARA, Gilberto; CAMARGO, Eduardo. Análise Espacial de Dados Geográficos. In: CONGRESSO GEOBRASIL 2002, 2002, São Paulo. CÂMARA, Gilberto; CARVALHO, Marília S. A Tutorial on Spatial Analysis of Areas. Castelló, Spain: International Postgraduate Course on Geoinformation, Universitat Jaume I, 2004. Disponível em: . Acesso em: 10 jan. 2010. CARVALHO JR., C. Vaz. Indicadores Sócioeconômicos. In: FÓRUM DE CONTROLE DO ESTADO, 2., 2004, Bahia. Anais eletrônicos ... Disponível em: . Acesso em: 23 set. 2007. CARVALHO, Marília Sá. Aplicação de Métodos de Análise Espacial na Caracterização de Áreas de Risco à Saúde. 1997. Tese (Doutorado em Engenharia Biomédica) – COPPE/UFRJ, Rio de Janeiro, 1997. CAVARETTI, José L. Consumidor de Baixa Renda e os Desafios das Distribuidoras. In: ENCONTRO NACIONAL DE CONSELHOS DE CONSUMIDORES DE ENERGIA ELÉTRICA, 8., 2005, São Paulo. CHAMBERS, Ray. Poverty mapping: integrating geographically weighted regression with M-quantile modelling. Canberra, Australia: NATSEM, 2008. (Online Presentation – P152). CHAPIN, F. Stuart. The Measurement of Social Status. Minneapolis, MN: University of Minnesota Press, 1933. CHRISTALLER, Walter. Central Places in Southern Germany.Englewood Cliffs: Prentice Hall, 1933. CIARELLI, Monica. Aneel: furto de energia gera perda anual de R$ 5 bi. Portal EXAME, 22 nov. 2007. Disponível em: . Acesso em: 10 set. 2008. CLEVELAND, William S. Robust Locally Weighted Regression and Smoothing Scatterplots. Journal of the American Statistical Association, v. 74, n. 365, p. 829–836, 1979. CLIFF, Andrew D.; ORD, J. Keith. Spatial Processes: Models and Applications. London: Pion, 1981. 292 CODES, Ana L. M. Métodos de estudo sobre pobreza: Abordagens tradicionais e a modelagem de equações estruturais. Brasília: IPEA, 2008. (Texto para Discussão n. 1345). COHEN, Claude; LENZEN, Manfred; SCHAEFFER, Roberto. Energy requirements of households in Brazil. Energy Policy, v. 33, n. 4, p. 555–562, Mar. 2005. COLEMAN, Richard P. The Significance of Social Stratification in Selling. In: BELL, Martin. Marketing: A Mature Discipline. Chicago: American Marketing Association, 1961. p. 171-184. COLEMAN, Richard P.; RAINWATER, Lee. Social Standing in America: New Dimensions of Class. New York: Basic Books, 1978. COSTA, Jaqueline Severino da; CABELEIRA, Fabiana Martinez. Teoria da localização de Johann Heinrich von Thünen. In: ENCONTRO ANUAL DE INICIAÇÃO CIENTÍFICA, 11., 2002, Maringá, PR. Anais ... Maringá, PR: Universidade Estadual de Maringá, Departamento de Economia. COURTNEY, Amy; COURTNEY, Michael: Comments Regarding "On the Nature Of Science". Physics in Canada, v. 64, n. 3, p. 7-8, 2008. COX, David R. Principles of statistical inference. Cambridge: University Press, 2006. DAGNE, Getachew A. Bayesian transformed models for small area estimation. TEST, v. 10, n. 2, p. 375-391, Dec. 2001. DALY, Herman; COBB JR, John. For the Common Good: Redirecting the Economy Toward Community, the Environment, and a Sustainable Future. Boston: Beacon Press, 1989. DATA POPULAR. São Paulo, n. 2, 2006. Disponível em: . Acesso em: 10 jul. 2009. DAVIES, Ross L. Marketing Geography: With Special Reference to Retailing. Corbridge, England: Retail and Planning Associates, 1976. DAVIS, Kingsley; MOORE, Wilbert E. Some Principles of Stratification. American Sociological Review, v. 10, p. 242-249, Apr. 1945. DEBRAJ, R. Development Economics. Princeton, NJ: Princeton University Press, 1998. DIAS, Taciana L. et al. Problemas de escala e a relação área-indivíduo em análise espacial de dados censitários. Revista IP, v. 4, n. 1, p. 89-104, jun. 2002. DOWBOR, Ladislau; KILSZTAJN, Samuel. Economia Social no Brasil. São Paulo: Ed. SENAC, 2001. DUALIBI, Julia; BORSATO, Cíntia. Ela empurra o crescimento. Revista VEJA, n. 2054, p. 82-89, abr. 2008. 293 DUBIN, Jeffrey A.; MCFADDEN, Daniel L. An Econometric Analysis of Residential Electric Appliance Holdings and Consumption. Econometrica, v. 52, n. 2, p. 345-362, Mar. 1984. EBDON, David. Statistics in Geography. 2nd. ed. Oxford, UK: Blackwell, 1985. FERREIRA, Eduardo C. Um Modelo Quantitativo para o Valor do Cliente. 2007. Tese (Doutorado em Adminstração de Empresas) – Escola de Administração de Empresas de São Paulo, Fundação Getúlio Vargas, São Paulo. 2007. EGELIOGLU, F; MOHAMAD, A. A.; GUVEN, H. Economic variables and electricity consumption in Northern Cyprus. Energy, v. 26, n. 4, p. 355-362, Apr. 2001. ELETROBRÁS. Mercado brasileiro de energia – relatório analítico ciclo 2000. Brasília, 2001. EPE – EMPRESA DE PESQUISA ENERGÉTICA. Consumo Final e Conservação de Energia Elétrica (1970-2005). Rio de Janeiro, 2006. EPE – EMPRESA DE PESQUISA ENERGÉTICA. Balanço Energético Nacional 2008: ano base 2007. Rio de Janeiro, 2008a. EPE – EMPRESA DE PESQUISA ENERGÉTICA. Projeções da demanda de energia elétrica – para o plano decenal de expansão de energia (2008-2017). Rio de Janeiro, 2008b. (Nota Técnica den 02/08). FARBER, Steven; PÁEZ, Antonio. A systematic investigation of cross-validation in GWR model estimation: empirical analysis and Monte Carlo simulations. Journal of Geographical Systems, v. 9, n. 4, p. 371-396, Dec. 2007. FEITOSA, Flávia F. et al. De conceitos a medidas territoriais: a construção de índices espaciais de segregação urbana. In: ALMEIDA, Cláudia M.; CÂMARA, Gilberto; MONTEIRO, Antonio M. V. Geoinformação em urbanismo: cidade real X cidade virtual. São Paulo: Oficina de Textos, 2007. cap. 4, p. 86-105. FERREIRA, Fernando C.; GOLDSZMIDT, Rafael G. B.; CSILLAG, João M. A Relação entre a Concentração Regional das Indústrias e o Desempenho das Firmas: uma Abordagem Multinível. In: ENCONTRO DA ANPAD, 33., 2009, São Paulo. FUNDAÇÃO GETULIO VARGAS; INSTITUTO BRASILEIRO DE ECONOMIA. Tendências Econômicas – Sinalizador de Produção Industrial. Rio de Janeiro, 2007. Disponível em: . Acesso em: 28 jan. 2010. FILGUEIRA, Carlos; PERI, Andrés. América Latina: los rostos de la pobreza y sus casas determinantes. Santiago do Chile: CELADE, 2004. n. 54. (Serie Población y Desarrollo). FONSECA, A. C. Compatibilização de Consumo com a Renda de Famílias Carentes. In: FÓRUM DE COMUNICAÇÃO NA DISTRIBUIÇÃO DE ENERGIA ELÉTRICA ANEEL – ABRADEE, 1., 2005, Brasília. 294 FORTIN, Marie-Josée; DALE, Mark R. T. Spatial Analysis. A Guide for Ecologists. Cambridge: Cambridge University Press, 2005. FOSTER, Vivien; TRE, Jean-Philippe; WODON, Quentin. Energy consumption and income: An inverted-U at the household level? Washington, DC: The World Bank, 2000. FOTHERINGHAM, A. Stewart; CHARLTON, Martin E.; BRUNSDON, Chris. Two techniques for exploring non-stationarity in geographical data. Geographical Systems, v. 4, p. 59-82, 1997. FOTHERINGHAM, A. Stewart; BRUNSDON, Chris; CHARLTON, Martin E. Geographically Weighted Regression – the analysis of spatially varying relationships. West Sussex, England: John Wiley & Sons, 2002. FRANCISCO, Eduardo. Customer Franchise: A Mina de Ouro do Geomarketing. InfoGEO, n. 25, p. 56-57, ago. 2002. FRANCISCO, Eduardo. Análise do Potencial de Uso do Comércio Eletrônico na AES Eletropaulo. 2004. Trabalho de conclusão da disciplina Negócios na Era Digital – Escola de Administração de Empresas de São Paulo, Fundação Getulio Vargas, São Paulo. 2004. FRANCISCO, Eduardo. Relação entre o Consumo de Energia Elétrica, a Renda e a Caracterização Econômica de Famílias de Baixa Renda do Município de São Paulo. 2006. 349f. Tese (Mestrado em Administração) – Escola de Administração de Empresas de São Paulo, Fundação Getulio Vargas, São Paulo, 2006. FRANCISCO, Eduardo. GWR e Geomarketing: Aventuras na Nova Zelândia. InfoGEO, n. 50. p. 36-37, dez. 2007. FRANCISCO, Eduardo. Pesquisa ABRADEE 2009: Piloto AES Eletropaulo. In: SEMINÁRIO ABRADEE DE MELHORES PRÁTICAS DE AVALIAÇÃO PELO CLIENTE, 2009, São Paulo. FRANCISCO, Eduardo et al. Fraud and Energy Losses: A Geostatistical Analysis. In: NERI CONFERENCE 2007, 1., 2007, Auckland, Nova Zelândia. FRANCISCO, Eduardo et al. Development of an Indicator of Propensity to Energy Commercial Losses using Geospatial Statistical Techniques and Socio-Economic Data: the Case of AES Eletropaulo. In: ENCONTRO DA ANPAD, 33., 2009, São Paulo. Anais eletrônicos ... São Paulo: ANPAD, 2009. FRANCISCO, Eduardo; FAGUNDES, Eduardo B. Estudo Geoestatístico entre Variáveis Sócio-Econômicas e Perdas de Energia. In: JORNADA TÉCNICA AES ELETROPAULO E AES SUL, 1., 2006a, São Paulo. FRANCISCO, Eduardo; FAGUNDES, Eduardo B. Geostatistical Study between SocialEconomical Variables and Power Losses. In: LATIN AMERICA CONGRESS ON OPERATIONAL EXCELLENCE AND INNOVATION, 1., 2006b, São Paulo. FRANCISCO, Eduardo; FAGUNDES, Eduardo B. Indicador Geográfico de Propensão à Perda Comercial: Apropriação de Geoestatística, Pesquisas de Satisfação de Clientes e 295 Promoção a Indicador Social. In: JORNADA TÉCNICA AES ELETROPAULO E AES SUL, 3., 2008, São Paulo. FRANCISCO, Eduardo; TRISTÃO, Nivaldo. Tutorial Geomarketing e Business Intelligence. In: CONGRESSO GEOBRASIL SUMMIT 2006, 2006, São Paulo. FRIEDLANDER, G. D. Energy: crisis and challenge. IEEE Spectrum, v. 10, n. 5, p. 18-27, May 1973. FUKS, Mauricio; SALAZAR, Esther. Applying models for ordinal logistic regression to the analysis of household electricity consumption classes in Rio de Janeiro, Brazil. Energy Economics, v. 30, n. 4, p. 1672-1692, Jul. 2008. FUNDAÇÃO JOÃO PINHEIRO; IPEA. Desenvolvimento humano e condições de vida: indicadores da região metropolitana de Belo Horizonte, 1980-1991. Belo Horizonte, 1998. GADREY, Jean; JANY-CATRICE, Florence. Os novos indicadores de riqueza. São Paulo: Ed. Senac, 2006. GAMERMAN, Dani; LOPES, Hedibert F. Markov Chain Monte Carlo. Stochastic Simulation for Bayesian Inference. 2nd ed. Boca Raton, FL: Chapman & Hall/CRC, 2006. GEARY, Roy C. (1954). The Contiguity Ratio and Statistical Mapping. The Incorporated Statistician, v. 5, n. 3, p. 115–145, Nov. 1954. GENOVEZ, Patrícia C et al. Armadilhas de desigualdade: detecção e dinâmica espacial, trajetória das desigualdades sociais. In: ALMEIDA, Cláudia M.; CÂMARA, Gilberto; MONTEIRO, Antonio M. V. Geoinformação em urbanismo: cidade real X cidade virtual. São Paulo: Oficina de Textos, 2007a. cap. 5, p. 106-1130. GENOVEZ, Patrícia C et al. Indicadores territoriais de exclusão/inclusão social: geoinformação como suporte ao planejamento de políticas sociais. In: ALMEIDA, Cláudia M.; CÂMARA, Gilberto; MONTEIRO, Antonio M. V. Geoinformação em urbanismo: cidade real X cidade virtual. São Paulo: Oficina de Textos, 2007b. cap. 3, p. 64-85. GeoDA 0.9.5-i Beta: Software for Exploratory Spatial Data Analysis by Luc Anselin. UrbanaChampaign, IL: Spatial Analysis Laboratory, University of Illinois, 2003. Disponível em: . GHANBARI, A. et al. Artificial Neural Networks and regression approaches comparison for forecasting Iran's annual electricity load. In: INTERNATIONAL CONFERENCE ON POWER ENGINEERING, ENERGY AND ELECTRICAL DRIVES – POWERENG 2009, 2., 2009, Lisboa, Portugal. GOLDMANN, Lucien. Ciências Humanas e Filosofia: O que é a Sociologia?. 12 ed. Rio de Janeiro: Bertrand Brasil, 1993. GOLDSZMIDT, Rafael G. B.; BRITO, Luiz A. L.; VASCONCELOS, Flávio C. O efeito país sobre o desempenho da firma: uma abordagem multinível. RAE – Revista de Administração de Empresas, v. 47, p. 12-23, 2007. 296 GOODCHILD, Michael F. Spatial autocorrelation. CATMOG, v. 47, 1986. GOOGLE Earth, version 5: virtual globe software. Mountain View, CA: Google Inc. 2010. Disponível em: . GOOGLE Maps: web mapping service. Mountain View, CA: Google Inc. 2010. Disponível em: < http://maps.google.com/>. GRANDES Empresas Formam Associação Dissidente. Gazeta Mercantil, São Paulo, p. 34, 15 jan. 1992. GREGORI, Reinaldo G.; LINK, Fernando. A cientifização dos negócios: visão geral e estudo de caso do setor financeiro. In: GUIMARÃES, José R. S. Demografia dos Negócios: campo de estudo, perspectivas e aplicações. Campinas: ABEP, 2006. p. 97-130. GRIFFITH, D. A. Spatial Autocorrelation – a primer. Washington, DC: Association of American Geographers, 1987. GROSSMAN, Gene M.;KRUEGER, Alan B. Environmental Impacts of a North American Free Trade Agreement. Cambridge: National Bureau of Economic Research, 1991. (Working Paper n. 3914). GUERREIRO, A. G. et al. A Influência da Venda de Eletrodomésticos na Expansão do Consumo Residencial de Energia Elétrica. In: CONGRESSO BRASILEIRO DE ENERGIA, 7., 1996, Rio de Janeiro. Anais ... Rio de Janeiro: CBE, 1996, p. 22-33. GUTTMAN, Louis. A Revision of Chapin’s Social Status Scale. American Sociological Review, v. 7, p. 362-369, 1942. HAIR, Joseph F. et al. Análise Multivariada de dados. 5.ed. Porto Alegre: Bookman, 2005. HANSEN, Alice M. D. Padrões de Consumo de Energia Elétrica em Diferentes Tipologias de Edificações Residenciais, em Porto Alegre. 2000. 146 f. Dissertação (Mestrado em Engenharia) – Faculdade de Engenharia Civil, Universidade Federal do Rio Grande do Sul, Porto Alegre. 2000. HART, Stuart L. O Capitalismo na Encruzilhada. Porto Alegre: Artmed, 2006. HART, Stuart L.; CHRISTENSEN, Clayton M. The Great Leap. Driving Innovation From the Base of the Pyramid. MIT Sloan Management Review, v. 44, n. 1, p. 51-56, Oct. 2002. HART, Stuart L.; SHARMA, Sanjay. Engaging fringe stakeholders for competitive imagination. Academy of Management Executive, v. 18, n. 1, p. 7-18, Feb. 2004. HARTSHORNE, Richard. Propósitos e Natureza da Geografia. 2.ed. São Paulo: Hucitec, 1978. HATT, Paul K. Occupation and Social Stratification. American Journal of Sociology, v. 55, n. 6, p. 533-543, May 1950. HAY, Geoff C. et al. Spatial variation in the association between neighbourhood deprivation and access to alcohol outlets. In: ANNUAL COLLOQUIUM OF THE SPATIAL 297 INFORMATION RESEARCH CENTRE – SIRC 2007, 19., 2007, University of Otago, Dunedin, New Zealand. HEALY, John D.; CLINCH, Peter C. Fuel poverty, thermal comfort and occupancy: results of a national household-survey in Ireland. Applied Energy, v. 73, n. 3-4, p. 217–343, Nov./Dec. 2002. HOQUE, A.; RAHMAN, S. F.; HUQ, A. M. Z. Rural Energy in Bangladesh. In: INTERNATIONAL SEMINAR ON AGRICULTURE TO INDUSTRY: THE ROLE OF ENGINEERING, 1980, Bangladesh. HUFF, David L. A programmed solution for Approximating an optimal retail location. Land Economics, v. 42, n..3, p. 293-303, Aug. 1966. HURVICH, Clifford M.; SIMONOFF, Jeffrey S.; TSAI, Chih-Ling. Smoothing parameter selection in nonparametric regression using an improved Akaike information criterion. Journal of the Royal Statistical Society. Series B (Statistical Methodology), v. 60, n. 2, p. 271-293, 1998. IAEA – INTERNATIONAL ATOMIC ENERGY AGENCY et al. Energy indicators for sustainable development: guidelines and methodologies. Viena, Austria, Apr. 2005. IBGE – INSTITUTO BRASILEIRO DE GEOGRAFIA E ESTATÍSTICA. Censo Demográfico 2000. Documentação dos Microdados da Amostra. Rio de Janeiro, 2002. IBGE – INSTITUTO BRASILEIRO DE GEOGRAFIA E ESTATÍSTICA. PNAD – Pesquisa Nacional por Amostragem de Domicílios: Síntese de Indicadores 2003. Rio de Janeiro, 2003. IBGE – INSTITUTO BRASILEIRO DE GEOGRAFIA E ESTATÍSTICA. Pesquisa de Orçamentos Familiares, 2002-2003. Primeiros Resultados. Rio de Janeiro, 2004a. IBGE – INSTITUTO BRASILEIRO DE GEOGRAFIA E ESTATÍSTICA. Pesquisa de Orçamentos Familiares 2003-2004. Rio de Janeiro, 2004b. Disponível em: . Acesso em: 18 out. 2009. IBGE – INSTITUTO BRASILEIRO DE GEOGRAFIA E ESTATÍSTICA. Pesquisa Nacional por Amostra de Domicílios (PNAD) 1992-2008. Rio de Janeiro, 2009. Disponível em: . Acesso em: 14 dez. 2009. IBGE – INSTITUTO BRASILEIRO DE GEOGRAFIA E ESTATÍSTICA. Censo 2010. Rio de Janeiro, 2010. Disponível em: . Acesso em: 25 jan. 2010. IEA – INTERNATIONAL ENERGY AGENCY. Key World Energy Statistics 2008. Paris, França, 2008. IETS – INSTITUTO DE ESTUDOS DO TRABALHO E SOCIEDADE. Indicadores PNAD 1992-2004. Tabelas Pobreza e Desigualdade – Unidades da Federação. Rio de Janeiro, 2005. 298 INNOVARE PESQUISA DE MERCADO E OPINIÃO. 11ª Pesquisa ABRADEE de Satisfação do Consumidor Residencial Urbano de Energia Elétrica – Plano Amostral. Rio de Janeiro, 2008. INNOVARE PESQUISA DE MERCADO E OPINIÃO. Pesquisa ABRADEE de Satisfação do Consumidor Residencial Urbano 2009 – Apresentação Analítica. In: SEMINÁRIO ABRADEE DE MELHORES PRÁTICAS (SAMP), 2009, São Paulo. IPEADATA. Site mantido pelo Instituto de Pesquisa Econômica Aplicada (IPEA). Disponível em: . Acesso em: 6 set. 2009. JANNUZZI, Gilberto D. M. Residential energy demand in Brazil by income classes: issues for the energy sector. Energy Policy, v. 17, n. 3, p. 254-256, Jun. 1989. JANNUZZI, Gilberto D. M.; SCHIPPER, Lee. The structure of electricity demand in the Brazilian Household Sector. Energy Policy, v. 19, n. 19, p. 879-891, Nov. 1991. JANSSON, Tor; TABORGA, Miguel. The Latin American Microfinance Industry: how does it measure up?. Washington, DC: Inter-american Development Bank, 2000. JELINSKI, Dennis E.; WU, Jianguo. The modifiable areal unit problem and implications for landscape ecology. Landscape Ecology, v. 11, n. 3, p. 129-140, 1996. JOYEUX, Roselyne; RIPPLE, Ronald D. Household energy consumption versus income and relative standard of living: A panel approach, Energy Policy, v. 35, n. 1, p. 50-60, Jan. 2007. JOHANNESSON, Gardar et al. Spatial statistical procedures to validate input data in energy models. Golden, CO : National Renewable Energy Laboratory, 2006. KAHL, Joseph A. The American Class Structure. New York: Rinehart & Co., 1957. KALTON, Graham. Introduction to survey sampling. 4. ed. Beverly Hills: Sage, 1983. KAZTMAN, Ruben. Activos y Estructuras de Oportunidades: estudios sobre las raíces de la vulnerabilidad social en Uruguay. Montevideo, Uruguai: CEPAL/Nações Unidas, 1999. KEMMLER, Andreas; SPRENG, Daniel. Energy indicators for tracking sustainability in developing countries. Energy Policy, v. 35, n. 4, p. 2466-2480, Apr. 2007. KING, Gary; KEOHANE, Robert O.; VERBA, Sidney. Designing Social Inquiry: Scientific Inference in Qualitative Research. Princeton, NJ: Princeton University Press, 1994. KIRKPATRICK, David G.; RADKE, John D. A framework for computational morphology. In: TOUSSAINT, G. T. Computational Geometry. Amsterdam, The Netherlands: North Holland, 1985. p. 217–248. KISH, Leslie. Survey sampling. 3. ed. New York: John Wiley & Sons, 1965. KRAUSS, Irving. Stratification, Class and Conflit. New York: The Free Press, 1976. 299 KROPP, Manuela. Overview of Alternative Indicators measuring societal progress. In: TURI SEMINAR "European responses to the crisis and alternatives to GDP as an element of a paradigm shift", 2009, ITUH, Brussels. KUZNETS, Simon. Economic Growth and Income Inequality. American Economic Review, v. 45, n. 1, Mar. 1955. LAM, Raymond S. F. An analysis of the policy of energy efficiency and conservation in Hong Kong in the 1990s. 1998. 141 f. Dissertação (Master of Public Administration) – University of Hong Kong, Hong Kong, 1998. LEITE, Antonio D. A Energia Do Brasil. Rio de Janeiro: Nova Fronteira, 1997. LENZEN, Manfred et al. A comparative multivariate analysis of household energy requirements in Australia, Brazil, Denmark, India and Japan. Energy, v. 31, n. 2-3, p. 181-207, Feb./Mar. 2006. LESAGE, James P. Spatial Econometrics. Toledo, OH: Department of Economics, University of Toledo, 1999. Disponível em: . Acesso em: 8 jul. 2009. LESAGE, James P. A Family of Geographically Weighted Regression Models. In: ANSELIN, Luc; FLORAX, Raymond J. G. M.; REY, Sergio J. Advances in Spatial Econometrics. Berlin; Heidelberg: Springer, 2004. cap. 11, p. 241-266. LEVY, Sidney J. Social Class and Consumer Behavior. On Knowing the Consumer. New York: John Wiley & Sons, 1966. LEWIN-KOH, Nicholas J.; BIVAND, Roger; with contributions by Edzer J. Pebesma, Eric Archer, Adrian Baddeley, Hans-Jörg Bibiko, Stéphane Dray, David Forrest, Patrick Giraudoux, Duncan Golicher, Virgilio Gómez Rubio, Patrick Hausmann, Thomas Jagger, Sebastian P. Luque, Don MacQueen, Andrew Niccolai and Tom Short. maptools: Tools for reading and handling spatial objects. R package version 0.7-26. 2009. Disponível em: . Acesso em: 11 out. 2009. LINS, Marcos P. E.; ANDRADE, C. S. Análise do Consumo de Energia Residencial no Estado do Rio de Janeiro. In: CONGRESSO BRASILEIRO DE PLANEJAMENTO ENERGÉTICO, 1., 1989, Campinas, SP. LLOYD R.; KUMAR, M.; METHAM, P. Household Energy Use in Fiji, Report of the NadiLautoka Domestic Energy Survey. Fiji Islands: Institute of Natural Resources, USP, 1982. (INR Energy Studies Report No. ESU G/82/1). LOMBARDI, Cintia. et al. Operacionalização do Conceito de Classe Social em Estudos Epidemiológicos. Rev. Saúde Pública, São Paulo, v. 22, p. 253-265, 1988. LÖSCH, August. The Economics of Location. New Haven, CT: Yale University Press, 1954. LU, Hongwei et al. Modelling Meso-Level Marketing Phenomena Using Geographically Weighted Regression. In: ANZMAC 2006 CONFERENCE, 2006, Brisbane, Australia. 300 MACHADO, Cláudio C.; FRANCISCO, Eduardo; RIBEIRO, Júlio G. P. A geodemografia e o geomarketing na identificação de mercados potenciais. In: GUIMARÃES, José R. S. Demografia dos Negócios: campo de estudo, perspectivas e aplicações. Campinas, SP: ABEP, 2006. p. 77-95. MADUREIRA, Ronaldo G. Análise dos Aspectos Socioeconômicos, Históricos e Culturais determinantes do Consumo de Energia Elétrica no Setor Residencial Brasileiro. Rio de Janeiro: Departamento de Energia, FEM-UNICAMP, 1996. MAGRI, Antoni; LYNCH, Steve. Geostatistical Analyst – An Introduction. In: ESRI USER CONFERENCE, 28., 2008, San Diego, CA. HAQ, Mahbub ul. Reflections on human development. New York: Oxford University Press. 1995. MAIA, Fernando. Panorama das Perdas no Setor Elétrico Nacional. In: WORKSHOP NACIONAL DE RECUPERAÇÃO DE ENERGIA ELÉTRICA, 2008, Campinas, SP. MANSOURI, Iman; NEWBOROUGH, Marcus; PROBERT, Douglas. Energy consumption in UK households: Impact of domestic electrical appliances. Applied Energy, v. 54, n. 3, p. 211-285, Jul. 1996. MARTIN, David. Geographic Information Systems: Socioeconomic Applications. 2. ed., London: Routledge, 1995. MARTIN, M. Economic and Social Indicators of Development, by Income Groups and by Region. In: SMIL, Vaclav; KNOWLAND, William E. Energy in the Developing World: the real energy crisis. Oxford: Oxford University Press, 1980. p. 372-386. MARTINEAU, Pierre. Social Class and Spending Behavior. Journal of Marketing, v. 23, p. 121-130, Oct. 1958. MASIH, Abul M. M.; MASIH, Rumi. Energy consumption, real income and temporal causality: results from multi-country study based on cointegration and error-correction modeling techniques. Energy Economics, v. 18, n. 3, p. 165-183, Jul. 1996. MASIH, Abul M. M.; MASIH, Rumi. On the temporal causal relationship between energy consumption, real income, and prices: some new evidence from Asian-energy dependent NICs based on a multivariate cointegration/vector error-correction approach. Journal of Policy Modeling, v. 19, n. 4, p. 417-440, Aug. 1997. MATTAR, Fauze N. Estratificação Socioeconômica e Pesquisas de Marketing. In: ENANPAD, 18., 1994, São Paulo. Anais ... São Paulo: ENANPAD, 1994. v. 7, p. 307325. MATTAR, Fauze N. Estudo sobre Estratificação Social para Utilização em Marketing e Pesquisas de Marketing – Proposta de Novo Modelo para Estratificação SócioEconômica. 1995. Tese (Livre-Docência em Administração) – FEA-USP, São Paulo. MATTAR, Fauze N. Porque os Métodos de Classificação Socioeconômicos utilizados no Brasil não funcionam. In: ENANPAD, 20., 1996, Angra dos Reis. 301 MATTOS, Leonardo B.; LIMA, João E. Demanda Residencial de energia elétrica em Minas Gerais: 1970-2002. Revista Nova Economia, v. 15, n. 3, p. 31-52, set./dez. 2005. MATULA, David W.; SOKAL Robert R. Properties of Gabriel graphs relevant to geographic variation research and the clustering of points in the plane. Geographic Analysis, v. 12, n.3, p. 205-222, 1980. MCNEIL, Michael A.; LETSCHERT, Virginie E. Future Air Conditioning Energy Consumption in Developing Countries and what can be done about it: The Potential of Efficiency in the Residential Sector. Berkeley, CA: Lawrence Berkeley National Laboratory, Apr. 2008. (LBNL Paper LBNL-63203). MCNEIL, Michael A.; LETSCHERT, Virginie E. Forecasting Electricity Demand in Developing Countries: A Study of Household Income and Appliance Ownership. In: ECEEE SUMMER STUDY, 2005, Mandelieu, França. MEMÓRIA DA ELETRICIDADE. Panorama do Setor de Energia Elétrica: eletricidade no Brasil. Rio de Janeiro, 1988. MESSNER, Steven F.; ANSELIN, Luc. Spatial Analyses of Homicide with Areal Data. In: GOODCHILD, Michael F.; JANELLE, Donald G. Spatially integrated social science. New York: Oxford University Press, 2004. cap. 7, p. 127-144. MICROSOFT Virtual Earth, version 6.2: virtual globe software. Redmond, WA: Microsoft Inc., 2008. Disponível em: . Acesso em: 11 fev. 2009. MIELNIK, Otavio; GOLDEMBERG, José. Converging to a common pattern of energy use in developing and industrialized countries, Energy Policy, v. 28, n. 8, p. 503-508, Jul. 2000. MITCHELL, Andy. Spatial Measurements & Statistics. Redlands, CA: ESRI Press, 2005. 2v. (The ESRI Guide to GIS Analysis). MITTAL, Vikas; KAMAKURA, Wagner A.; GOVIND, Rahul. Geographic Patterns in Customer Service and Satisfaction: An Empirical Investigation. Journal of Marketing, v. 68, p. 48-62, Jul. 2004. MONZONI, Mario. Impacto em renda do microcrédito. São Paulo: Editora Peirópolis, 2008. MORAN, Patrick A. P. The interpretation of statistical maps. Journal of the Royal Statistical Society, Series B (Methodological), v. 10, n. 2, p. 243-251, 1948. MORENO, Ramona A. R.; MARTÍNEZ, Maria C. Housing and Electric Energy Consumption in Hot Arid Zones: Mexicali, México. ISESCO Science and Technology Vision, v. 3, n. 3, May 2007. MYERS, James H.; GUTMAN, Jonathan. Life Style: The Essence of Social Class. In: WELLS, William D. Life Style and Psicographics. Chicago: American Marketing Association, 1974. p. 235-256. 302 NAKAYA, Tomoki. Local spatial interaction modeling based on the geographically weighted regression approach. In: BOOTS, Barry; OKABE, Atsuyuki; THOMAS, Richard. Modelling geographical systems: statistical and computational applications. Dordrecht: Kluwer Academic, 2003. p. 45-68. NEWMAN, Dorothy R.; DAY, Dawn. The American Energy Consumer. Cambridge: Ballinger Publishing, 1975. NGUYEN-VAN, Phu. Energy consumption and income: a semiparametric panel data analysis. Estrasburgo, França: BETA, 2009. (Working Paper n. 2009-26). NILSSON Lars J. Energy intensity trends in 31 industrial and developing countries 19501988. Energy, v. 18, n. 4, p. 309-322, Apr. 1993. NOONAN, Jessica C.; JOHNSON, Amy L. GIS boosts T&D planning for Asset Management. Transmission & Distribution World, v. 57, n. 10, p. 28-33, Oct. 2005. OLIVEIRA, Vinicius S. Regressão ponderada geograficamente para os dados do Censo IBGE 2000 de São Paulo - SP. In: ENCITA 2003, 9., 2003, São José dos Campos, SP. ONU – ORGANIZAÇÃO DAS NAÇÕES UNIDAS. Principles and Recommendations for Population and Housing Censuses: Revision 2. New York, 2008. (Statistical papers Series M No. 67/Rev.2). ONU – ORGANIZAÇÃO DAS NAÇÕES UNIDAS. 2010 World Population and Housing Census Programme. Disponível em: . Acesso em: 10 jan. 2010. OPENSHAW, Stan; TAYLOR, Peter J. A million or so correlation coefficients: three experiments on the modifiable areal unit problem. In: WRIGLEY, Neil. Statistical Applications in the Spatial Sciences. London: Pion, 1979. p. 127-144. OSBERG, Lars; SHARPE, Andrew. Human Well-being and Economic Well-being: What Values Are Implicit in Current Indices? Ottawa: CSLS, Aug. 2003. (Research Report n. 2003-04). OZTURK, lhan; ACARAVCI, Ali. The causal relationship between energy consumption and GDP in Albania, Bulgaria, Hungary and Romania: Evidence from ARDL bound testing approach. Applied Energy, In Press, 2009. Disponível em: . Acesso em: 02 dez. 2009. PAELINCK, Jean H. P.; KLAASSEN, Leo H. Spatial econometrics. Farnborough: Saxon House, 1979. (Studies in spatial analysis). PARENTE, S. Microcredit as a Financial Market Mechanism to Reduce Poverty. 2002. Dissertação (Mestrado) – MIT, Cambridge, 2002. PARSONS, Talcott. An Analytical Approach to the Theory of Social Stratification. The American Journal of Sociology, v. 45, n. 6, p. 841-962, May 1940. 303 PEDHAZUR, Elazar J.; SCHMELKIN, Liora P. Measurement, Design, and Analysis: An Integrated Approach. Mahwah, NJ: Lawrence Erlbaum Associates, 1991. PEDROSO, Marcel de M. Desenvolvimento Humano no Município de São Paulo (2000): Uma cartografia socioeconômica como contribuição ao planejamento de políticas públicas. 2003.128 f. Dissertação (Mestrado em Economia Política) – Departamento de Economia, Pontifícia Universidade Católica de São Paulo, São Paulo, 2003. PENG, Roger D.; with contributions by Duncan Murdoch; GPC library by Alan Murta gpclib: General Polygon Clipping Library for R. R package version 1.4-4. 2009. Disponivel em: . Acesso em: 11 out. 2009. PENNA, Rogério; FRANCISCO, Eduardo. Entendendo os Data Warehouses Espaciais. InfoGEO, n. 35, p. 51-52, set./out. 2004. PEREIRA, Vinicius R. Métodos Alternativos no Critério Brasil para Construção de Indicadores Sócio-Econômicos: Teoria de Resposta ao Item. 2004. 103 f. Dissertação (Mestrado em Engenharia Elétrica) – Departamento de Engenharia Elétrica, Pontifícia Universidade Católica do Rio de Janeiro, Rio de Janeiro. 2004 PÉREZ, ROSARIO C. G.; PÉREZ, Ramón A. Analyzing urban poverty. GIS for the Developing World. Redlands, CA: ESRI Press, 2008. POMPERMAYER, Máximo L. Análise e Projeção da Demanda Residencial de Energia Elétrica na Região Administrativa de Campinas. In: CONGRESSO BRASILEIRO DE ENERGIA, 7., 1996, Rio de Janeiro. Anais ... Rio de Janeiro: CBE, 1996, p. 116-129. POMPERMAYER, Máximo L.; CHARNET, R. Determinantes da Demanda Residencial de Energia Elétrica. In: CONGRESSO BRASILEIRO DE ENERGIA, 7., 1996, Rio de Janeiro. Anais ... Rio de Janeiro: CBE, 1996, p. 102-115. PRAHALAD, C. K. A Riqueza na Base da Pirâmide: Como erradicar a pobreza com o lucro. Porto Alegre: Bookman, 2005. PRAHALAD, C. K.; HART, Stuart. The Fortune at the Bottom of the Pyramid. Strategy + Business, n. 26, First Quarter 2002. PRAHALAD, C. K.; LIEBERTHAL, Kenneth. The End of Corporate Imperialism. Harvard Business Review, Nov. 1998. PROCEL/ELETROBRÁS. Consumo de Eletrodomésticos. Brasília, 2005. Disponível em: . Acesso 15 dez. 2005, R 2.9.1. Linguagem e ambiente de desenvolvimento integrados, para cálculos estatísticos e gráficos. [S.I.]: R DEVELOPMENT CORE TEAM, 2009. Disponível em: . Acesso em: 3 set. 2009. R DEVELOPMENT CORE TEAM. R: A language and environment for statistical computing. Viena, Austria: R Foundation for Statistical Computing, 2009. 304 RAUDENBUSH, Stephen W.; BRYK, Anthony S. Hierarchical linear models: applications and data analysis methods. 2nd ed. Thousand Oaks, CA: Sage Publications, 2002. REILLY, William. The Law of Retail Gravitation. New York: Knickerbocker Press, 1931. RIBEIRO Jr., Paulo J.; DIGGLE, Peter J. geoR: A package for geostatistical analysis. RNEWS, v. 1, n. 2, p. 15-18, 2001. RIPLEY, Brian D. Modelling spatial patterns (with discussion). Journal of the Royal Statistical Society. Series B (Statistical Methodology), v. 39, p. 172-212, 1977. ROCHA Jr, Aroldo R. Utilização do Consumo de Energia Elétrica como Indicador SócioEconômico na Área Urbana dos Municípios de Vitória, Vila Velha, Cariacica e Serra. 2007. 57 f. Trabalho de Conclusão de Curso (Graduação em Geografia) – Departamento de Geografia, Universidade Federal do Espírito Santo, Vitória, ES. 2007. ROCHA, Sonia. Pobreza na Brasil: afinal, de que se trata? Rio de Janeiro: Ed. FGV, 2003. RODRÍGUEZ, Carlos C. The ABC of Model Selection: AIC, BIC and the New CIC. In: INTERNATIONAL WORKSHOP ON BAYESIAN INFERENCE AND MAXIMUM ENTROPY METHODS IN SCIENCE AND ENGENEERING, 25., 2005, San José, CA. Anais ... San José, CA: AIP, 2005, v. 803, p. 80-87. ROWLINGSON, Barry; DIGGLE, Peter. Splancs: spatial point pattern analysis code in SPlus. Computers and Geosciences, n. 19, p. 627-655, 1993. ROWLINGSON, Barry; DIGGLE, Peter. adapted, packaged for R by Roger Bivand, pcp functions by Giovanni Petris and goodness of fit by Stephen Eglen. splancs: Spatial and Space-Time Point Pattern Analysis. R package version 2.01-23. 2007. Disponível em: . Acesso em: 11 out. 2009. SALAMA, Pierre; DESTREMAU, Bladine. O tamanho da pobreza: economia política da distribuição de renda. Petrópolis: Ed. Garamond, 2001. SANTAMOURIS, Mattew et al. On the relation between the energy and social characteristics of the residential sector. Energy and buildings, v. 39, n. 8, p. 893-905, 2007. SANTOS, Paulo R. Avaliação da demanda de consumo de energia elétrica em apartamentos residenciais: o caso da cidade de Campinas-SP. 2006. 186 f. Dissertação (Mestrado em Engenharia Civil) – Faculdade de Engenharia Civil, Arquitetura e Urbanismo, Universidade Estadual de Campinas, Campinas, SP. 2006. SÃO PAULO (Estado). Secretaria de Energia, Recursos Hídricos e Saneamento. Balanço Energético do Estado de São Paulo 2005. Ano Base 2004. São Paulo, 2005. Disponível em: . Acesso em: 03 nov. 2005. SÃO PAULO (Estado). Secretaria de Saneamento e Energia. Consumo de Energéticos por Municípios do Estado de São Paulo. São Paulo, 2009. Disponível em: . Acesso em: 03 nov. 2009. 305 SARI, Ramazan; SOYTAS, Ugur. The growth of income and energy consumption in six developing countries. Energy Policy, v. 35, n. 2, p. 889-898, Feb. 2007. SCHAEFFER, Roberto et al. Energia e pobreza: problemas de desenvolvimento energético e grupos sociais marginais em áreas rurais e urbanas do Brasil. Santiago do Chile: CEPAL/NAÇÕES UNIDAS, 2003. SCHANINGER, Charles M. Social Class Versus Income Revisited: An Empirical Investigation. Journal of Marketing Research, v. 18, n. 2, p. 192-208, May 1981. SCHMIDT, Cristiane A. J.; LIMA, Marcos A. M. A Demanda por Energia Elétrica no Brasil. Revista Brasileira de Energia, v. 58, n. 1, p. 67-98, 2004. SCHWARTZ, Gideon. Estimating the Dimension of a Model . The Annals of Statistics, v. 6, n. 2, p. 461–464, Mar. 1978. SCHWARTZMAN, Simon. As causas da pobreza. Rio de Janeiro: Ed. FGV, 2004. SEADE – FUNDAÇÃO SISTEMA ESTADUAL DE ANÁLISE DE DADOS. Índice Paulista de Vulnerabilidade Social: espaços e dimensões da pobreza nos municípios do Estado de São Paulo. São Paulo, 2004. Disponível em: . Acesso em: 10 ago. 2009. SEADE – FUNDAÇÃO SISTEMA ESTADUAL DE ANÁLISE DE DADOS. Informações dos Distritos de São Paulo. São Paulo, 2005a. SEADE – FUNDAÇÃO SISTEMA ESTADUAL DE ANÁLISE DE DADOS. Pesquisa de Condições de Vida: Apresentação da Base das Variáveis do Questionário e dos Indicadores Gerados. São Paulo, 2005b. SEADE – FUNDAÇÃO SISTEMA ESTADUAL DE ANÁLISE DE DADOS. O estado dos municípios 2004-2006. Índice Paulista de Responsabilidade Social. Metodologia. São Paulo, 2009. SEN, Amartya. The Concept of Development. In: CHENERY, Hollis; SRINIVASAN, T. N. Handbook of Development Economics, v. 1, n. 1. North-Holland: Elsevier Science, 1988. cap. 1, p. 9-26. SEN, Amartya. Sobre ética na economia. São Paulo: Cia das Letras, 1999. SHIVELY, Gerald; WARD, Patrick; DIFFENBAUGH, Noah. Vulnerability, Income Growth and Climate Change. In: CONFERENCE OF THE INTERNATIONAL ASSOCIATION OF AGRICULTURAL ECONOMISTS (IAAE), 27., 2009, Beijing, China. SICSÚ, Abraham L. Regressão Linear Múltipla. Parte I – Fundamentos. 2. ed. São Paulo: FGV-EAESP, 2004. SILVA, Ney L. Critério Brasil: o mercado falando a mesma língua. Pesquisa em foco – Informativo dos Associados da ANEP, dez. 2002. 306 SILVEIRA, Fernando G. et al. Dimensão, Magnitude e Localização das Populações Pobres no Brasil. Brasília: IPEA, 2007. (Texto para Discussão n. 1278). SILVEIRA, Fernando G.; BERTASSO, Beatriz; MAGALHÃES, Luís C. G. Tipologia Socioeconômica das Famílias das Grandes Regiões Urbanas Brasileiras e seu Perfil de Gastos. Brasília: IPEA, 2003. (Texto para Discussão n. 983). SMITH, Michael J.; GOODCHILD, Michael F.; LONGLEY, Paul. Geospatial analysis : a comprehensive guide to principles, techniques and software tools. Leicester, UK: Matador, 2007. SOARES, Pedro. SP ganha mais de 200 mil pobres em um ano. Folha de São Paulo, São Paulo, 29 jan. 2006. Caderno B, p. 1. SOLLA, Jorge J. S. P. Diferenças nas propostas de operacionalização do conceito de classe social empregadas em estudos epidemiológicos. Cad. Saúde Pública, v. 12, n. 3, p. 329337, jul./set. 1996. SOYTAS, Ugur; SARI, Ramazan. Energy consumption and GDP: causality relationship in G7 countries and emerging markets. Energy Economics, v. 25, n. 1, p. 33-37, Jan. 2003. SOYTAS, Ugur; SARI, Ramazan. Energy consumption and income in G-7 countries. Journal of Policy Modeling, v. 28, n. 7, p. 739-750, 2006. SÖZEN, Adnan; ARCAKLIOGLU, Erol. Prediction of net energy consumption based on economic indicators (GNP and GDP) in Turkey. Energy Policy, v. 35, n. 10, p. 49814992, Oct. 2007. SPOSATI, Aldaíza. Mapa de Exclusão/Inclusão Social de São Paulo. São Paulo: EDUC, 1996. STOECKLEIN, Albrecht et al. Multi-disciplinary investigation of energy use in New Zealand households. IPENZ Transactions, v. 24, n. 1/CE, 1997. SUBRAMANIAN, Sankaranarayanan V. et al. Multilevel analysis of health behaviors. In: RAJAN, S. Irudaya; JAMES, K. S. Demographic Change, Health Inequality and Human Development in India. Hyderabad: Centre for Economic and Social Studies, p. 249-281, 2004. SUBRAMANIAN, Sankaranarayanan V.; DUNCAN, Craig; JONES, Kelvyn. Multilevel perspectives on modeling census data. Environment and Planning A, v. 33, n. 3, p. 399417, 2001. THE WORLD FACTBOOK. Site mantido pela Central Intelligence Agency (CIA). Disponível em: . Acesso em: 20 dez. 2008. THRIFT, Nigel J. On the determination of social action in space and time. Environment and Planning D: Society and Space, v. 1, n. 1, p. 23-57, 1983. THÜNEN, Johann H. von. The Isolated State. Oxford: Pergamon, 1826. 307 TOBLER, Waldo R. A computer movie simulating urban growth in the Detroit region. Economic Geography, v. 46, n. 2, p. 234-240, Jun. 1970. TOMLINSON, Roger. Thinking About GIS. Geographic Information System Planning for Managers. Redlands, CA: ESRI Press, 2003. TORRES, Haroldo G. et al. Pobreza e espaço: padrões de segregação em São Paulo. Estudos Avançados, v.17, n..47, jan./abr. 2003. TORRES, Haroldo G.; FERREIRA, Maria P.; DINI, Nádia P. Indicadores sociais: por que construir novos indicadores como o IPRS. Revista São Paulo em Perspectiva, v. 17, n. 3-4, p.80-90, jul./dez. 2003. TORRES, Haroldo G.; MARQUES, Eduardo. Políticas sociais e território: uma abordagem metropolitana. São Paulo em Perspectiva, v.18, n.4, out./dez. 2004. TOUSSAINT, Godfried T. The relative neighborhood graph of a finite planar set. Pattern Recognition, v. 12, n. 4, p. 261-268, 1980. TRIGOSO, Federico B. M. Demanda de energia elétrica e desenvolvimento sócioeconômico: o caso das comunidades rurais eletrificadas com sistemas fotovoltaicos. 2004. 331 f. Tese (Doutorado em Energia) – Programa Interunidades de Pós-graduação em Energia, Universidade de São Paulo, São Paulo, 2004. TSO, Geoffrey K. F.; YAU, Kelvin K. W. A study of domestic energy usage patterns in Hong Kong. Energy, v. 28, n. 15, p. 1671-1682, Dec. 2003. TSO, Geoffrey K. F.; YAU, Kelvin K. W. Predicting electricity energy consumption: A comparison of regression analysis, decision tree and neural networks. Energy, v. 32, n. 9, p. 1761-1768, Sep. 2007. TURNER, Michael A. et al. Give credit where credit is due: increasing access to affordable mainstream credit using alternative data. [S.I.]:PERC & The Brookings, 2006. TYSZLER, Marcelo. Econometria Espacial: Discutindo Medidas para a Matriz de Ponderação Espacial. 2006. 155 f. Dissertação (Mestrado em Administração Pública e Governo) Escola de Administração de Empresas de São Paulo, Fundação Getúlio Vargas, São Paulo. 2006. VALCARCE, Esther V.; SERRANO, Rosina M. La utilidad de la econometria espacial en el ambito de la ciência regional. Madrid: Fundación de Estudios de Economia Aplicada, 2000. (Documento de trabajo 2000-13). VENETOULIS, Jason; COBB, Cliff. The Genuine Progress Indicator 1950-2002 (2004 Update). [S.I.]:Redefining Progress, Mar. 2004. VIVERET, Patrick. Reconsiderar a Riqueza. Brasilia: Ed. UNB, 2006. VOSS, Paul R.; WHITE, Katherine J. Curtis; HAMMER, Roger B. Explorations in Spatial Demography. In: KANDEL, William; BROWN, David L. Population Change and Rural Society. Dordrecht, Holanda: Springer, 2006. p. 407-429. 308 VOX POPULI. Questionário Versão Final 7ª Rodada Pesquisa ABRADEE da Satisfação do Cliente Residencial. Belo Horizonte, 2005. VOX POPULI. Encuesta CIER de Satisfacción del Cliente Residencial 2009. In: SICESD – SEMINÁRIO INTERNACIONAL "CAMINOS PARA LA EXCELENCIA EM LOS SERVICIOS DE DISTRIBUCIÓN Y RELACIONAMIENTO COM LOS CLIENTES", 7., 2009, Santa Cruz de la Sierra, Colombia. WALLER, Lance A. Bayesian Thinking in Spatial Statistics. In: DEY, Dipak; RAO, Calyampudi R. Bayesian thinking: modeling and computation. Amsterdan: Elsevier, 2005. cap. 20, p. 589-622. WARNER, W. Lloyd; MEEKER, Marchia; EELLS, Kenneth. Social Class in America – A Manual of Procedure for Measurement of Social Status. Chicago: Sciences Research Associates, 1949. WEBER, Alfred. Theory of the Location of Industries. Chicago: The University of Chicago Press, 1909. WHIGHAM, Peter. Geographically Weighted Regression. Dunedin, NewZealand: University of Otago, 2007. (Lecture SPIN 301). WHIGHAM, Peter A.; HAY, Geoff. A preliminary investigation of the stability of Geographically-weighted Regression. In: ANNUAL COLLOQUIUM OF THE SPATIAL INFORMATION RESEARCH CENTRE, 19., 2007, Dunedin, New Zealand. Anais ... Dunedin, New Zealand: University of Otago, p.119-126. WHITE, Howard; KILLICK, Tony. African poverty at the millennium, causes, complexities and challenges. Washington DC: World Bank, 2001. WINDOWS VISTA Home Premium, version 6.0: sistema operacional para uso em computadores pessoais. Redmond, WA: Microsoft Inc., 2006. WOUTER, Biesiot; NOORMAN, Klaas J. Energy Requirements of Household Consumption: A Case Study of The Netherlands. Ecological Economics, v. 28, n. 3, p. 367-383, Mar. 1999. WRIGLEY, Neil et al. Analyzing, modelling, and resolving the ecological fallacy. In: LONGLEY, Paul; BATTY, Michael. Spatial analysis: modelling in a GIS environment. New York: John Wiley & Sons, 1996. p. 25-40. YANDLE, Bruce; VIJAYARAGHAVAN, Maya; BHATTARAI, Madhusudan. The Environmental Kuznets Curve. A Primer. Bozeman, MT: PERC, May 2002. (Research Study n. RS02-1). YAO, X. Evolutionary Computation Theory and Applications. Singapore: World Scientific, 1999. YU, Elena S.H.; CHOI, Jai-Young. The causal relationship between energy and GNP: an international comparison. Journal of Energy and Development, v. 10, n. 2, p. 249-272, 1985. 309 ZAMBALDI, Felipe. The Brazilian Credit Market for small and medium-sized enterprises: an adaptive marketing approach. 2007. 237 f. Tese (Doutorado em Administração de Empresas) – Escola de Administração de Empresas de São Paulo, Fundação Getulio Vargas, São Paulo. 2007. ZAMBALDI, Felipe; GOLDSZMIDT, Rafael G. B. Análise do Perfil Social de São Paulo. 2006. 25 f. Trabalho apresentado na disciplina Análise Espacial de Dados e Geoestatística Aplicada à Administração – Escola de Administração de Empresas de São Paulo, Fundação Getulio Vargas, São Paulo. 2006. 310 PUBLICAÇÕES FRANCISCO, Eduardo. Customer Franchise: A Mina de Ouro do Geomarketing. InfoGEO, n. 25, p. 56-57, ago. 2002. FRANCISCO, Eduardo. Relação entre o Consumo de Energia Elétrica, a Renda e a Caracterização Econômica de Famílias de Baixa Renda do Município de São Paulo. Tese (Mestrado em Administração) – Escola de Administração de Empresas de São Paulo, Fundação Getulio Vargas, São Paulo, 2006. FRANCISCO, Eduardo. GIS + Consumo de Energia = Indicadores Geográficos de Renda. InfoGEO, n. 43, p. 32-33, ago. 2006. FRANCISCO, Eduardo. GIS no combate às fraudes. InfoGEO, n. 45, p. 32-33, dez. 2006. FRANCISCO, Eduardo; FAGUNDES, Eduardo B. Geostatistical Study between SocialEconomical Variables and Power Losses. In: LATIN AMERICA CONGRESS ON OPERATIONAL EXCELLENCE AND INNOVATION, 1., 2006, São Paulo. FRANCISCO, Eduardo. Relação entre o consumo de energia elétrica, a renda e a caracterização econômica de famílias de baixa renda do município de São Paulo: uma abordagem geoestatística. In: ENCONTRO NACIONAL SOBRE GEOPROCESSAMENTO NO SETOR ELÉTRICO, 1., 2006, Brasília. FRANCISCO, Eduardo; FAGUNDES, Eduardo. Estudo geoestatístico entre variáves sócioeconomicas e perdas de energia. In: ENCONTRO NACIONAL SOBRE GEOPROCESSAMENTO NO SETOR ELÉTRICO, 1., 2006, Brasília. FRANCISCO, Eduardo; FAGUNDES, Eduardo B. Estudo Geoestatístico entre Variáveis Sócio-Econômicas e Perdas de Energia. In: JORNADA TÉCNICA AES ELETROPAULO E AES SUL, 1., 2006, São Paulo. FRANCISCO, Eduardo et al. Electricity Consumption as a Predictor of Household Income: a Spatial Statistics Approach. In: DAVIS JR, Clodoveu A.; MONTEIRO, Antônio M. V. Advances in Geoinformatics. Berlin;Heidelberg: Springer, 2007. p. 267-282. FRANCISCO, Eduardo. GIS no combate às fraudes 2 – O Retorno. InfoGEO, n. 46, p. 38, abr. 2007. FRANCISCO, Eduardo. GWR e Geomarketing: Aventuras na Nova Zelândia. InfoGEO, n. 50. p. 36-37, dez. 2007. FRANCISCO, Eduardo; FAGUNDES, Eduardo. Geostatistical Study for Fraud and Energy Losses in Electric Utilities. In: ESRI USER CONFERENCE, 27., 2007, San Diego, CA. FRANCISCO, Eduardo. Geographic Income Indicators Based on Electricity Consumption – a Potencial New Business for Electric Companies. In: GITA’S ANNUAL CONFERENCE, 30., 2007, San Antonio, TX. 311 FRANCISCO, Eduardo; WHIGHAM, Peter; MOORE, Tony. Point Allocation inside Polygons and GWR: an Experimental Analysis. In: ANNUAL COLLOQUIUM OF THE SPATIAL INFORMATION RESEARCH CENTRE – SIRC 2007, 19., 2007, University of Otago, Dunedin, New Zealand. FRANCISCO, Eduardo et al. Electricity Consumption as a Predictor of Household Income. In: NERI CONFERENCE 2007, 1., 2007, Auckland, Nova Zelândia. FRANCISCO, Eduardo et al. Fraud and Energy Losses: A Geostatistical Analysis. In: NERI CONFERENCE 2007, 1., 2007, Auckland, Nova Zelândia. FRANCISCO, Eduardo; ARANHA, Francisco; ZAMBALDI, Felipe. Caracterização Econômica de Famílias de Baixa Renda do Município de São Paulo baseada em Consumo de Energia Elétrica. In: CONGRESSO INTERNACIONAL DE COMUNICAÇÃO E MARKETING – CINCOM 2007, 4., 2007, FGV-EAESP, São Paulo. FRANCISCO, Eduardo. Geoprocessamento e Pesquisas de Mercado: O poder da localização na gestão pública e privada. InfoGEO, n. 53, p. 30-32, jul. 2008. FRANCISCO, Eduardo et. al. Income Indicators based on Electricity Consumption: A Geostatistical Approach. In: ESRI USER CONFERENCE, 28., 2008, San Diego, CA. FRANCISCO, Eduardo et. al. A Consumer Income Predicting Model Based on Survey Data: An Analysis Using Geographically Weighted Regression (GWR). In: LATIN AMERICAN ACR CONFERENCE, 2., 2008, São Paulo. Anais: Advances in Consumer Research. Latin America Advances Volume 2. São Paulo: ACR, 2008. FRANCISCO, Eduardo et. al. Economic Characterization of Low Income Families in the City of Sao Paulo Using Electricity Consumption as a Predictive Variable. In: LATIN AMERICAN ACR CONFERENCE, 2., 2008, São Paulo. Anais: Advances in Consumer Research. Latin America Advances Volume 2. São Paulo: ACR, 2008. FRANCISCO, Eduardo; ARANHA, Francisco; WHIGHAM, Peter. Indicadores de Renda Baseados em Consumo de Energia Elétrica: Um Potencial Novo Modelo de Negócios para as Distribuidoras de Energia Elétrica. In: SEMINÁRIO NACIONAL DE DISTRIBUIÇÃO DE ENERGIA ELÉTRICA – SENDI 2008, 18., 2008, Recife/Olinda, PE. FRANCISCO, Eduardo; REINA, Claudia S. Clusters BT – Metodologia Inovadora para Segmentação Geocomportamental de Clientes. In: SEMINÁRIO NACIONAL DE DISTRIBUIÇÃO DE ENERGIA ELÉTRICA – SENDI 2008, 18., 2008, Recife/Olinda, PE. FRANCISCO, Eduardo; FAGUNDES, Eduardo B. Indicador Geográfico de Propensão à Perda Comercial: Apropriação de Geoestatística, Pesquisas de Satisfação de Clientes e Promoção a Indicador Social. In: JORNADA TÉCNICA AES ELETROPAULO E AES SUL, 3., 2008, São Paulo. FRANCISCO, Eduardo et al. Development of an Indicator of Propensity to Energy Commercial Losses using Geospatial Statistical Techniques and Socio-Economic Data: the Case of AES Eletropaulo. In: ENCONTRO DA ANPAD, 33., 2009, São Paulo. 312 FRANCISCO, Eduardo. Pesquisa ABRADEE 2009: Piloto AES Eletropaulo. In: SEMINÁRIO ABRADEE DE MELHORES PRÁTICAS DE AVALIAÇÃO PELO CLIENTE, 2009, São Paulo. FRANCISCO, Eduardo. Perdas Comerciais, Satisfação de Clientes e ROI usando Geoestatística. In: ENCONTRO DE USUÁRIOS ESRI PARA ENERGIA ELÉTRICA, 2., 2009, São Paulo. 313 APÊNDICE A – ALGORITMOS APLICADOS NA INVESTIGAÇÃO TERRITORIAL O Apêndice A desta tese reproduz o código desenvolvido para a implementação dos algoritmos utilizados na Investigação Territorial. Esse código consiste na aplicação de regressão linear (OLS), SAR, GWR e GWR+SAR, com diversas variações nas matrizes de vizinhança empregadas, sobre a base de áreas de ponderação do Censo Demográfico 2000 do município de São Paulo. O código foi criado na linguagem de programação (script interpretado) do programa R, em sua versão 2.9.1 . R é um software criado em ambiente livre para computação e programação estatística e geração de saídas gráficas, bastante extenso em funcionalidade e amplamente utilizado no meio acadêmico (R DEVELOPMENT CORE TEAM, 2009). As extensões (packages) do R que foram utilizadas nesta implementação foram: (i) MAPTOOLS 0.7-26, um conjunto de ferramentas para manipulação e leitura de dados geográficos (LEWIN-KOH; BIVAND, 2009), (ii) SPDEP (Spatial Dependence) 0.4-50 para a criação das matrizes de vizinhança e a aplicação de SAR (BIVAND, 2009), e (iii) SPGWR 0.6-2 para a aplicação de GWR (BIVAND; YU, 2009). 314 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 ############################################################################## ############################################################################## ## ======================================================================== ## ## == Algorithms for Application of OLS, SAR, GWR and Variations == ## ## == Models for São Paulo's Weighted Areas == ## ## ======================================================================== ## ## ## ## Eduardo de Rezende Francisco - FGV-EAESP / University of Otago ## ## ## ## Code in R (www.r-project.com) - Applied in R 2.9.1 ## ## ## ## Doctorate Thesis: ## ## INDICADORES DE RENDA BASEADOS EM CONSUMO DE ENERGIA ## ## ELÉTRICA: ABORDAGENS DOMICILIAR E REGIONAL ## ## NA PERSPECTIVA DA ESTATÍSTICA ESPACIAL ## ## ## ## First version: 03 October 2007 ## ## Revision in documentation: 29 September 2009 ## ## ## ############################################################################## ############################################################################## # load MAPTOOLS, SPGWR and SPDEP packages (extensions) in R environment library(maptools) library(spgwr) library(spdep) # change working directory setwd("c:/DOUTORADO - Working Area/Bases/areap_sp") # Source file: AREAP_SP.CSV (456 Weighted Areas in Sao Paulo City) # "ap" is the variable that points to the input table # (ap is the abbreviation of weighted areas in Portuguese) ap <- read.csv("shapefiles/areap_sp.csv") # select some columns (5) in the input table and still point to ap ap <- as.data.frame(cbind(ap$ID,ap$INCOME,ap$ENERGY,ap$XCENTR,ap$YCENTR)) # rename these 5 columns colnames(ap) <- c("ID","Income","Energy","X","Y") #==============================================# # List of Global Results of Implemented Models # #==============================================# list_R2 <- as.data.frame(cbind(0,0,0,0,0,0,0,0,0,0,0,0,0)) colnames(list_R2) <- c("LM","SARpoly1o","SARpoly2o","SARpoly3o","SARkGauss", "SARkBisquare","SARGabriel","SARRelNeighbor","SARSoI", "GWRkGauss","GWRkBisquare","GWRSARpoly1o","GWRSARpoly2o", "GWRSARpoly3o","GWRSARkGauss","GWRSARkBisquare") list_RSS <- as.data.frame(cbind(0,0,0,0,0,0,0,0,0,0,0,0,0)) colnames(list_RSS) <- colnames(list_R2) list_predicted <- as.data.frame(cbind(1:length(ap[,1]), 0,0,0,0,0,0,0,0,0,0,0,0,0,0)) colnames(list_predicted) <- c("ID","real","LM","SARpoly1o","SARpoly2o", "SARpoly3o","SARkGauss","SARkBisquare", "SARGabriel","SARRelNeighbor","SARSoI","GWRkGauss", "GWRkBisquare","GWRSARpoly1o","GWRSARpoly2o", "GWRSARpoly3o","GWRSARkGauss","GWRSARkBisquare") list_residuals <- as.data.frame(cbind(1:length(ap[,1]), 0,0,0,0,0,0,0,0,0,0,0,0,0)) colnames(list_residuals) <- c("ID","LM","SARpoly1o","SARpoly2o", "SARpoly3o","SARkGauss","SARkBisquare", "SARGabriel","SARRelNeighbor","SARSoI","GWRkGauss", "GWRkBisquare","GWRSARpoly1o","GWRSARpoly2o", "GWRSARpoly3o","GWRSARkGauss","GWRSARkBisquare") 315 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 list_ParIntercept <- list_residuals list_ParEnergy <- list_residuals list_ParW <- list_residuals list_R2local <- list_residuals # store real values in list_predicted vector list_predicted$real <- ap$Income # Map of São Paulo's weighted areas mapa_sp <- read.shape("shapefiles/areap_sp.shp") poligonos <- Map2poly(mapa_sp) # calculate global residual SS sum_square_glo <- sum((ap$Income - mean(ap$Income))^2) ############################################################################ ## SIMPLE LINEAR REGRESSION ################################################ ############################################################################ # "lm" is the function used to fit linear models # "Income ~ Energy" is the way you explicit regression formulas in R # (Income is the dependent and Energy is one (the only one) independent var) lm.ap <- lm(Income ~ Energy,data=ap) # store the residuals (the response minus fitted values of the model) list_RSS$LM <- sum(lm.ap$residuals^2) # calculate R2 of the global model list_R2$LM <- 1 - (list_RSS$LM/sum_square_glo) list_predicted$LM <- lm.ap$fitted.values list_residuals$LM <- lm.ap$residuals list_ParIntercept$LM <- lm.ap$coefficients[1] list_ParEnergy$LM <- lm.ap$coefficients[2] list_ParW$LM <- 0 list_R2local$LM <- list_R2$LM ############################################################################ ## GWR - Geographically Weighted Regression ################################ ## (AIC com Gaussian Weight) ############################################### ############################################################################ # define coords (X and Y coordinates) coords <- cbind(ap$X,ap$Y) colnames(coords) <- c("X","Y") # calculate bandwidth (in % of individuals in the regression) bwGauss <- gwr.sel(Income~Energy,data=ap,coords=coords,adapt=TRUE,method="aic", gweight=gwr.gauss,verbose=FALSE) # Apply GWR # "gwr" is the function that implements GWR in R (SPGWR package) # Some parameters: # gweight: defines the geographical weighting function (gauss or bisquare) # adapt: if NULL the kernel is in "Fixed" type (bandwidth is in distance) # if between 0 and 1 is the bandwidth for "Adapt" (k nearest neighbors) # hatmatrix: if TRUE, return the hatmatrix as a component of the result gwr.ap <- gwr(Income ~ Energy,data=ap,coords=coords,bandwidth=bwGauss, gweight=gwr.gauss,adapt=bwGauss,hatmatrix=TRUE) list_RSS$GWRkGauss <- gwr.ap$results$rss list_R2$GWRkGauss <- 1 - (list_RSS$GWRkGauss/sum_square_glo) temp <- as.data.frame(gwr.ap$SDF)[2] colnames(temp) <- "GWRkGauss" list_ParIntercept$GWRkGauss <- temp list_ParEnergy$GWRkGauss <- gwr.ap$SDF$Energy 316 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 list_predicted$GWRkGauss <- list_ParIntercept$GWRkGauss + list_ParEnergy$GWRkGauss * ap$Energy list_residuals$GWRkGauss <- gwr.ap$SDF$gwr.e list_ParW$GWRkGauss <- 0 list_R2local$GWRkGauss <- gwr.ap$SDF$R2 ############################################################################ ## GWR - Geographically Weighted Regression ################################ ## (AIC com Bisquare Weight) ############################################### ############################################################################ # calculate bandwidth (in % of individuals in the regression) bwBisquare <- gwr.sel(Income~Energy,data=ap,coords=coords,adapt=TRUE, method="aic",gweight=gwr.bisquare,verbose=FALSE) # Apply GWR # "gwr" is the function that implements GWR in R # Some parameters: # gweight: defines the geographical weighting function (gauss or bisquare) # adapt: if NULL the kernel is in "Fixed" type (bandwidth is in distance) # if between 0 and 1 is the bandwidth for "Adapt" (k nearest neighbors) # hatmatrix: if TRUE, return the hatmatrix as a component of the result gwr.ap <- gwr(Income ~ Energy,data=ap,coords=coords,bandwidth=bwBisquare, gweight=gwr.bisquare,adapt=bwBisquare,hatmatrix=TRUE) list_RSS$GWRkBisquare <- gwr.ap$results$rss list_R2$GWRkBisquare <- 1 - (list_RSS$GWRkBisquare/sum_square_glo) temp <- as.data.frame(gwr.ap$SDF)[2] colnames(temp) <- "GWRkBisquare" list_ParIntercept$GWRkBisquare <- temp list_ParEnergy$GWRkBisquare <- gwr.ap$SDF$Energy list_predicted$GWRkBisquare <- list_ParIntercept$GWRkBisquare + list_ParEnergy$GWRkBisquare * ap$Energy list_residuals$GWRkBisquare <- gwr.ap$SDF$gwr.e list_ParW$GWRkBisquare <- 0 list_R2local$GWRkBisquare <- gwr.ap$SDF$R2 ############################################################################ # SAR - Spatial Autoregressive lag model ################################### # (k nearest neighbors [k from AIC Gaussian minimisation]) ################# ############################################################################ kGauss <- round(bwGauss * length(ap[,1])) # create spatial weights using k nearest neighbors (knearneigh command) # and convert to a W matrix style (knn2nb and nb2listw commands) myknn <- knearneigh(coords,k=kGauss) mynb <- knn2nb(myknn,sym=TRUE) mylistw <- nb2listw(mynb,style="W") # "lagsarlm" is the function that implements SAR Lag model in R sar.ap <- lagsarlm(Income ~ Energy,data=ap,mylistw,method="Matrix") # store RSS and R2 of the SAR lag model list_RSS$SARkGauss <- sar.ap$SSE list_R2$SARkGauss <- 1 - (list_RSS$SARkGauss/sum_square_glo) list_predicted$SARkGauss <- sar.ap$fitted.values list_residuals$SARkGauss <- sar.ap$residuals list_ParIntercept$SARkGauss <- sar.ap$coefficients[1] list_ParEnergy$SARkGauss <- sar.ap$coefficients[2] list_ParW$SARkGauss <- sar.ap$rho list_R2local$SARkGauss <- list_R2$SARkGauss 317 202 203 204 205 206 207 208 209 210 211 212 213 214 215 216 217 218 219 220 221 222 223 224 225 226 227 228 229 230 231 232 233 234 235 236 237 238 239 240 241 242 243 244 245 246 247 248 249 250 251 252 253 254 255 256 257 258 259 260 261 262 263 264 265 266 ############################################################################ # SAR - Spatial Autoregressive lag model ################################### # (k nearest neighbors [k from AIC Bisquare minimisation]) ################# ############################################################################ kBisquare <- round(bwBisquare * length(ap[,1])) # create spatial weights using k nearest neighbors (knearneigh command) # and convert to a W matrix style (knn2nb and nb2listw commands) myknn <- knearneigh(coords,k=kBisquare) mynb <- knn2nb(myknn,sym=TRUE) mylistw <- nb2listw(mynb,style="W") # "lagsarlm" is the function that implements SAR Lag model in R sar.ap <- lagsarlm(Income ~ Energy,data=ap,mylistw,method="Matrix") # store RSS and R2 of the SAR lag model list_RSS$SARkBisquare <- sar.ap$SSE list_R2$SARkBisquare <- 1 - (list_RSS$SARkBisquare/sum_square_glo) list_predicted$SARkBisquare <- sar.ap$fitted.values list_residuals$SARkBisquare <- sar.ap$residuals list_ParIntercept$SARkBisquare <- sar.ap$coefficients[1] list_ParEnergy$SARkBisquare <- sar.ap$coefficients[2] list_ParW$SARkBisquare <- sar.ap$rho list_R2local$SARkBisquare <- list_R2$SARkBisquare ############################################################################ # SAR - Spatial Autoregressive lag model ################################### # (polygons - contiguous boundaries' neighborhood - 1st ORDER) ############# ############################################################################ # create spatial weights using adjacency between polygons(regions with # contiguous boundaries - poly2nb command) of areap_sp shapefile # and convert to a listw object (nb2listw command) mynb <- poly2nb(poligonos) mylistw <- nb2listw(mynb,style="W") # "lagsarlm" is the function that implements SAR Lag model in R sar.ap <- lagsarlm(Income ~ Energy,data=ap,mylistw,method="Matrix") # store RSS and R2 of the SAR lag model list_RSS$SARpoly1o <- sar.ap$SSE list_R2$SARpoly1o <- 1 - (list_RSS$SARpoly1o/sum_square_glo) list_predicted$SARpoly1o <- sar.ap$fitted.values list_residuals$SARpoly1o <- sar.ap$residuals list_ParIntercept$SARpoly1o <- sar.ap$coefficients[1] list_ParEnergy$SARpoly1o <- sar.ap$coefficients[2] list_ParW$SARpoly1o <- sar.ap$rho list_R2local$SARpoly1o <- list_R2$SARpoly1o ############################################################################ # SAR - Spatial Autoregressive lag model ################################### # (polygons - contiguous boundaries' neighborhood - 2nd ORDER) ############# ############################################################################ # create spatial weights using adjacency of 2nd order between polygons # of areap_sp shapefile – created in GeoDA # and convert to a listw object (nb2listw command) mynb <- read.gal("shapefiles/areap_sp_2order.gal",region.id=ap$ID) mylistw <- nb2listw(mynb,style="W") # "lagsarlm" is the function that implements SAR Lag model in R sar.ap <- lagsarlm(Income ~ Energy,data=ap,mylistw,method="Matrix") 318 267 268 269 270 271 272 273 274 275 276 277 278 279 280 281 282 283 284 285 286 287 288 289 290 291 292 293 294 295 296 297 298 299 300 301 302 303 304 305 306 307 308 309 310 311 312 313 314 315 316 317 318 319 320 321 322 323 324 325 # store RSS and R2 of the SAR lag model list_RSS$SARpoly2o <- sar.ap$SSE list_R2$SARpoly2o <- 1 - (list_RSS$SARpoly2o/sum_square_glo) list_predicted$SARpoly2o <- sar.ap$fitted.values list_residuals$SARpoly2o <- sar.ap$residuals list_ParIntercept$SARpoly2o <- sar.ap$coefficients[1] list_ParEnergy$SARpoly2o <- sar.ap$coefficients[2] list_ParW$SARpoly2o <- sar.ap$rho list_R2local$SARpoly2o <- list_R2$SARpoly2o ############################################################################ # SAR - Spatial Autoregressive lag model ################################### # (polygons - contiguous boundaries' neighborhood - 3rd ORDER) ############# ############################################################################ # create spatial weights using adjacency of 3rd order between polygons # of areap_sp shapefile – created in GeoDA # and convert to a listw object (nb2listw command) mynb <- read.gal("shapefiles/areap_sp_3order.gal",region.id=ap$ID) mylistw <- nb2listw(mynb,style="W") # "lagsarlm" is the function that implements SAR Lag model in R sar.ap <- lagsarlm(Income ~ Energy,data=ap,mylistw,method="Matrix") # store RSS and R2 of the SAR lag model list_RSS$SARpoly3o <- sar.ap$SSE list_R2$SARpoly3o <- 1 - (list_RSS$SARpoly3o/sum_square_glo) list_predicted$SARpoly3o <- sar.ap$fitted.values list_residuals$SARpoly3o <- sar.ap$residuals list_ParIntercept$SARpoly3o <- sar.ap$coefficients[1] list_ParEnergy$SARpoly3o <- sar.ap$coefficients[2] list_ParW$SARpoly3o <- sar.ap$rho list_R2local$SARpoly3o <- list_R2$SARpoly3o ############################################################################ # SAR - Spatial Autoregressive lag model ################################### # (Gabriel’s Graph) ######################################################## ############################################################################ # create spatial weights using Gabriel’s Graph # and convert to a listw object (nb2listw command) mynb <- graph2nb(gabrielneigh(coords), sym=TRUE) mylistw <- nb2listw(mynb,style="W") # "lagsarlm" is the function that implements SAR Lag model in R sar.ap <- lagsarlm(Income ~ Energy,data=ap,mylistw,method="Matrix") # store RSS and R2 of the SAR lag model list_RSS$SARGabriel <- sar.ap$SSE list_R2$SARGabriel <- 1 - (list_RSS$SARGabriel/sum_square_glo) list_predicted$SARGabriel <- sar.ap$fitted.values list_residuals$SARGabriel <- sar.ap$residuals list_ParIntercept$SARGabriel <- sar.ap$coefficients[1] list_ParEnergy$SARGabriel <- sar.ap$coefficients[2] list_ParW$SARGabriel <- sar.ap$rho list_R2local$SARGabriel <- list_R2$SARGabriel 319 326 327 328 329 330 331 332 333 334 335 336 337 338 339 340 341 342 343 344 345 346 347 348 349 350 351 352 353 354 355 356 357 358 359 360 361 362 363 364 365 366 367 368 369 370 371 372 373 374 375 376 377 378 379 380 381 382 383 384 385 386 387 388 ############################################################################ # SAR - Spatial Autoregressive lag model ################################### # (Relative Neighbor) ##################################################### ############################################################################ # create spatial weights using Relative Neighbor # and convert to a listw object (nb2listw command) mynb <- graph2nb(relativeneigh(coords), sym=TRUE) mylistw <- nb2listw(mynb,style="W") # "lagsarlm" is the function that implements SAR Lag model in R sar.ap <- lagsarlm(Income ~ Energy,data=ap,mylistw,method="Matrix") # store RSS and R2 of the SAR lag model list_RSS$SARRelNeighbor <- sar.ap$SSE list_R2$SARRelNeighbor <- 1 - (list_RSS$SARRelNeighbor/sum_square_glo) list_predicted$SARRelNeighbor <- sar.ap$fitted.values list_residuals$SARRelNeighbor <- sar.ap$residuals list_ParIntercept$SARRelNeighbor <- sar.ap$coefficients[1] list_ParEnergy$SARRelNeighbor <- sar.ap$coefficients[2] list_ParW$SARRelNeighbor <- sar.ap$rho list_R2local$SARRelNeighbor <- list_R2$SARRelNeighbor ############################################################################ # SAR - Spatial Autoregressive lag model ################################### # (Sphere of Influence) #################################################### ############################################################################ # create spatial weights using Delaunay Triangulation and Sphere of Influence # and convert to a listw object (nb2listw command) col.tri.nb<-tri2nb(coords) mynb <- graph2nb(soi.graph(col.tri.nb,coords), sym=TRUE) mylistw <- nb2listw(mynb,style="W") # "lagsarlm" is the function that implements SAR Lag model in R sar.ap <- lagsarlm(Income ~ Energy,data=ap,mylistw,method="Matrix") # store RSS and R2 of the SAR lag model list_RSS$SARSoI <- sar.ap$SSE list_R2$SARSoI <- 1 - (list_RSS$SARSoI/sum_square_glo) list_predicted$SARSoI <- sar.ap$fitted.values list_residuals$SARSoI <- sar.ap$residuals list_ParIntercept$SARSoI <- sar.ap$coefficients[1] list_ParEnergy$SARSoI <- sar.ap$coefficients[2] list_ParW$SARSoI <- sar.ap$rho list_R2local$SARSoI <- list_R2$SoI ############################################################################ # Global GWR with Local SAR ################################################ # (SAR with polygons - contiguous boundaries' neighborhood - 1st ORDER) #### ############################################################################ residuos <- numeric() previstos <- numeric() # vector of predicted values ParW <- numeric() ParIntercept <- numeric() ParEnergy <- numeric() r2_local <- numeric() # consider first order neighborhood to create neighbor list mynb <- poly2nb(poligonos) 320 389 390 391 392 393 394 395 396 397 398 399 400 401 402 403 404 405 406 407 408 409 410 411 412 413 414 415 416 417 418 419 420 421 422 423 424 425 426 427 428 429 430 431 432 433 434 435 436 437 438 439 440 441 442 443 444 445 446 447 448 449 450 451 452 453 454 455 # for each observation in ap for (i in 1:length(ap[,1])) { # find neighbors for i neighbors_i <- sort(c(i,mynb[[i]])) poligonos_i <- subset(poligonos, ap[,1] %in% neighbors_i) mynb_i <- poly2nb(poligonos_i) mylistw_i <- nb2listw(mynb_i,style="W") # select subset of ap, considering only i and its neighbors # and calculate global residual SS of i-local sample ap_i <- ap[neighbors_i,] sum_square_glo_i <- sum((ap_i$Income - mean(ap_i$Income))^2) # apply SAR for this subset sar.ap_i <- lagsarlm(Income ~ Energy,data=ap_i,mylistw_i, method="Matrix") # store SAR result's parameters in temporary tables residuos[i] <- sar.ap_i$residuals[ap_i$ID==i] previstos[i] <- sar.ap_i$fitted.values[ap_i$ID==i] ParW[i] <- sar.ap_i$rho ParIntercept[i] <- sar.ap_i$coefficients[1] ParEnergy[i] <- sar.ap_i$coefficients[2] r2_local[i] <- 1 - (sar.ap_i$SSE/sum_square_glo_i) } # calculate R2 of the global model list_RSS$GWRSARpoly1o <- sum(residuos^2) list_R2$GWRSARpoly1o <- 1 - (list_RSS$GWRSARpoly1o/sum_square_glo) # transfer local SAR results to parameters and results' global tables list_predicted$GWRSARpoly1o <- previstos list_residuals$GWRSARpoly1o <- residuos list_ParIntercept$GWRSARpoly1o <- ParIntercept list_ParEnergy$GWRSARpoly1o <- ParEnergy list_ParW$GWRSARpoly1o <- ParW list_R2local$GWRSARpoly1o <- r2_local ############################################################################ # GWR Global com SAR Local ################################################# # (SAR com polygons - contiguous boundaries' neighborhood - 2nd ORDER) ##### ############################################################################ residuos <- numeric() previstos <- numeric() # vector of predicted values ParW <- numeric() ParIntercept <- numeric() ParEnergy <- numeric() r2_local <- numeric() # consider second order neighborhood (obtained in GeoDA) # to create neighbor list mynb <- read.gal("areap_sp_2order.gal",region.id=ap$ID) for (i in 1:length(ap[,1])) { # find neighbors for i neighbors_i <- sort(c(i,mynb[[i]])) poligonos_i <- subset(poligonos, ap[,1] %in% neighbors_i) mynb_i <- poly2nb(poligonos_i) mylistw_i <- nb2listw(mynb_i,style="W") # select subset of ap, considering only i and its neighbors # and calculate global residual SS of i-local sample ap_i <- ap[neighbors_i,] sum_square_glo_i <- sum((ap_i$Income - mean(ap_i$Income))^2) 321 456 457 458 459 460 461 462 463 464 465 466 467 468 469 470 471 472 473 474 475 476 477 478 479 480 481 482 483 484 485 486 487 488 489 490 491 492 493 494 495 496 497 498 499 500 501 502 503 504 505 506 507 508 509 510 511 512 513 514 515 516 517 518 519 # apply SAR for this subset sar.ap_i <- lagsarlm(Income ~ Energy,data=ap_i,mylistw_i, method="Matrix") # store SAR result's parameters in temporary tables residuos[i] <- sar.ap_i$residuals[ap_i$ID==i] previstos[i] <- sar.ap_i$fitted.values[ap_i$ID==i] ParW[i] <- sar.ap_i$rho ParIntercept[i] <- sar.ap_i$coefficients[1] ParEnergy[i] <- sar.ap_i$coefficients[2] r2_local[i] <- 1 - (sar.ap_i$SSE/sum_square_glo_i) } # calculate R2 of the global model list_RSS$GWRSARpoly2o <- sum(residuos^2) list_R2$GWRSARpoly2o <- 1 - (list_RSS$GWRSARpoly2o/sum_square_glo) list_predicted$GWRSARpoly2o <- previstos list_residuals$GWRSARpoly2o <- residuos list_ParIntercept$GWRSARpoly2o <- ParIntercept list_ParEnergy$GWRSARpoly2o <- ParEnergy list_ParW$GWRSARpoly2o <- ParW list_R2local$GWRSARpoly2o <- r2_local ############################################################################ # GWR Global com SAR Local ################################################# # (SAR com polygons - contiguous boundaries' neighborhood - 3rd ORDER) ##### ############################################################################ residuos <- numeric() previstos <- numeric() # vector of predicted values ParW <- numeric() ParIntercept <- numeric() ParEnergy <- numeric() r2_local <- numeric() # consider third order neighborhood (obtained in GeoDA) # to create neighbor list mynb <- read.gal("areap_sp_3order.gal",region.id=ap$ID) for (i in 1:length(ap[,1])) { # find neighbors for i neighbors_i <- sort(c(i,mynb[[i]])) poligonos_i <- subset(poligonos, ap[,1] %in% neighbors_i) mynb_i <- poly2nb(poligonos_i) mylistw_i <- nb2listw(mynb_i,style="W") # select subset of ap, considering only i and its neighbors # and calculate global residual SS of i-local sample ap_i <- ap[neighbors_i,] sum_square_glo_i <- sum((ap_i$Income - mean(ap_i$Income))^2) # apply SAR for this subset sar.ap_i <- lagsarlm(Income ~ Energy,data=ap_i,mylistw_i, method="Matrix") # store SAR result's parameters in temporary tables residuos[i] <- sar.ap_i$residuals[ap_i$ID==i] previstos[i] <- sar.ap_i$fitted.values[ap_i$ID==i] ParW[i] <- sar.ap_i$rho ParIntercept[i] <- sar.ap_i$coefficients[1] ParEnergy[i] <- sar.ap_i$coefficients[2] r2_local[i] <- 1 - (sar.ap_i$SSE/sum_square_glo_i) } 322 520 521 522 523 524 525 526 527 528 529 530 531 532 533 534 535 536 537 538 539 540 541 542 543 544 545 546 547 548 549 550 551 552 553 554 555 556 557 558 559 560 561 562 563 564 565 566 567 568 569 570 571 572 573 574 575 576 577 578 579 580 581 582 # calculate R2 of the global model list_RSS$GWRSARpoly3o <- sum(residuos^2) list_R2$GWRSARpoly3o <- 1 - (list_RSS$GWRSARpoly3o/sum_square_glo) list_predicted$GWRSARpoly3o <- previstos list_residuals$GWRSARpoly3o <- residuos list_ParIntercept$GWRSARpoly3o <- ParIntercept list_ParEnergy$GWRSARpoly3o <- ParEnergy list_ParW$GWRSARpoly3o <- ParW list_R2local$GWRSARpoly3o <- r2_local ############################################################################ # GWR Global com SAR Local ################################################# # (SAR with k nearest neighbors [k from AIC Gaussian minimisation]) ####### ############################################################################ residuos <- numeric() previstos <- numeric() # vector of predicted values ParW <- numeric() ParIntercept <- numeric() ParEnergy <- numeric() r2_local <- numeric() # consider k nearest neighbors to create neighbor list # (k obtained from AIC Gaussian minimisation) myknn <- knearneigh(coords,k=kGauss) mynb <- knn2nb(myknn,sym=TRUE) for (i in 1:length(ap[,1])) { # find neighbors for i neighbors_i <- sort(c(i,mynb[[i]])) poligonos_i <- subset(poligonos, ap[,1] %in% neighbors_i) mynb_i <- poly2nb(poligonos_i) mylistw_i <- nb2listw(mynb_i,style="W") # select subset of ap, considering only i and its neighbors # and calculate global residual SS of i-local sample ap_i <- ap[neighbors_i,] sum_square_glo_i <- sum((ap_i$Income - mean(ap_i$Income))^2) # apply SAR for this subset sar.ap_i <- lagsarlm(Income ~ Energy,data=ap_i,mylistw_i, method="Matrix") # store SAR result's parameters in temporary tables residuos[i] <- sar.ap_i$residuals[ap_i$ID==i] previstos[i] <- sar.ap_i$fitted.values[ap_i$ID==i] ParW[i] <- sar.ap_i$rho ParIntercept[i] <- sar.ap_i$coefficients[1] ParEnergy[i] <- sar.ap_i$coefficients[2] r2_local[i] <- 1 - (sar.ap_i$SSE/sum_square_glo_i) } # calculate R2 of the global model list_RSS$GWRSARkGauss <- sum(residuos^2) list_R2$GWRSARkGauss <- 1 - (list_RSS$GWRSARkGauss/sum_square_glo) list_predicted$GWRSARkGauss <- previstos list_residuals$GWRSARkGauss <- residuos list_ParIntercept$GWRSARkGauss <- ParIntercept list_ParEnergy$GWRSARkGauss <- ParEnergy list_ParW$GWRSARkGauss <- ParW list_R2local$GWRSARkGauss <- r2_local 323 583 584 585 586 587 588 589 590 591 592 593 594 595 596 597 598 599 600 601 602 603 604 605 606 607 608 609 610 611 612 613 614 615 616 617 618 619 620 621 622 623 624 625 626 627 628 629 630 631 632 633 634 635 636 637 638 639 640 641 642 643 644 645 646 647 648 649 ############################################################################ # GWR Global com SAR Local ################################################# # (SAR with k nearest neighbors [k from AIC Bisquare minimisation]) ######## ############################################################################ residuos <- numeric() previstos <- numeric() # vector of predicted values ParW <- numeric() ParIntercept <- numeric() ParEnergy <- numeric() r2_local <- numeric() # consider k nearest neighbors to create neighbor list # (k obtained from AIC Bisquare minimisation) myknn <- knearneigh(coords,k=kBisquare) mynb <- knn2nb(myknn,sym=TRUE) for (i in 1:length(ap[,1])) { # find neighbors for i neighbors_i <- sort(c(i,mynb[[i]])) poligonos_i <- subset(poligonos, ap[,1] %in% neighbors_i) mynb_i <- poly2nb(poligonos_i) mylistw_i <- nb2listw(mynb_i,style="W") # select subset of ap, considering only i and its neighbors # and calculate global residual SS of i-local sample ap_i <- ap[neighbors_i,] sum_square_glo_i <- sum((ap_i$Income - mean(ap_i$Income))^2) # apply SAR for this subset sar.ap_i <- lagsarlm(Income ~ Energy,data=ap_i,mylistw_i, method="Matrix") # store SAR result's parameters in temporary tables residuos[i] <- sar.ap_i$residuals[ap_i$ID==i] previstos[i] <- sar.ap_i$fitted.values[ap_i$ID==i] ParW[i] <- sar.ap_i$rho ParIntercept[i] <- sar.ap_i$coefficients[1] ParEnergy[i] <- sar.ap_i$coefficients[2] r2_local[i] <- 1 - (sar.ap_i$SSE/sum_square_glo) } # calculate R2 of the global model list_RSS$GWRSARkBisquare <- sum(residuos^2) list_R2$GWRSARkBisquare <- 1 - (list_RSS$GWRSARkBisquare/sum_square_glo) list_predicted$GWRSARkBisquare <- previstos list_residuals$GWRSARkBisquare <- residuos list_ParIntercept$GWRSARkBisquare <- ParIntercept list_ParEnergy$GWRSARkBisquare <- ParEnergy list_ParW$GWRSARkBisquare <- ParW list_R2local$GWRSARkBisquare <- r2_local #===============================# # Save Tables of Models Results # #===============================# write.table(list_predicted,file="output/predicted_models.csv", dec=",",sep=";",row.names=FALSE) write.table(list_residuals,file="output/residuals_models.csv", dec=",",sep=";",row.names=FALSE) write.table(list_ParIntercept,file="output/intercept_models.csv", dec=",",sep=";",row.names=FALSE) write.table(list_ParEnergy,file="output/energy_models.csv", dec=",",sep=";",row.names=FALSE) 324 650 651 652 653 654 655 656 657 658 659 write.table(list_ParW,file="output/W_models.csv", dec=",",sep=";",row.names=FALSE) write.table(list_R2local,file="output/R2local_models.csv", dec=",",sep=";",row.names=FALSE) ParGlobais <- rbind(list_R2,list_RSS) rownames(ParGlobais) <- c("R2","RSS") write.table(ParGlobais,file="output/R2 and RSS_models.csv", dec=",",sep=";",row.names=TRUE) 325 APÊNDICE B – ALGORITMOS APLICADOS NA INVESTIGAÇÃO DOMICILIAR O Apêndice B desta tese reproduz o código desenvolvido para a implementação dos algoritmos aplicados na Investigação Domiciliar. Esse código consiste na descrição das Alternativas 1 a 6 de Alocação de Pontos em Polígonos (item B.1) e a Aplicação Iterativa da técnica GWR sobre as amostras com a localização das entrevistas (Pesquisa ABRADEE 2004, 2006, 2007, 2008 e 2009) segundo as alternativas de alocação (item B.2). O código foi criado na linguagem de programação (script interpretado) do programa R, em sua versão 2.9.1 . R é um software criado em ambiente livre para computação e programação estatística e geração de saídas gráficas, bastante extenso em funcionalidade e amplamente utilizado no meio acadêmico (R DEVELOPMENT CORE TEAM, 2009). As extensões (packages) do R que foram utilizadas nesta implementação foram: (i) GPCLIB 1.4-4 (General Polygon Clipping Library) para a manipulação geométrica de polígonos (PENG, 2009), (ii) MAPTOOLS 0.7-26, um conjunto de ferramentas para manipulação e leitura de dados geográficos (LEWIN-KOH; BIVAND, 2009) , (iii) SPLANCS 2.01-23 (Spatial and Space-Time Point Pattern Analysis Functions) para a geração aleatória de pontos em polígonos (ROWLINGSON; DIGGLE, 2007), e (iv) SPATSTAT (Spatial Statistics) 1.17-0 para a construção das superfícies (pixel images) de densidade de probabilidade e para a geração aleatória de pontos sobre essas superfícies (BADDELEY; TURNER, 2005). Adicionalmente, foi utilizado código gerado por Chris Brunsdon (2003), um dos criadores da Geographically Weighted Regression (FOTHERINGHAM; CHARLTON; BRUNSDON, 1997, 2002) para a implementação de funções GWR no ambiente R. Esse código difere da package SPGWR (BIVAND; YU, 2009) pela simplicidade e pelo desempenho nas etapas de cálculo, condições fundamentais para aplicação nas iterações sobre as amostras com localização geográfica definida pelas alternativas de alocação de pontos em polígonos. 326 B.1 – Alternativas de Alocação de Pontos em Polígonos 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 ############################################################################## ############################################################################## ## ======================================================================== ## ## == Algorithms for the Generation of Random Points inside Polygons == ## ## ======================================================================== ## ## ## ## Eduardo de Rezende Francisco - FGV-EAESP / University of Otago ## ## ## ## Code in R (www.r-project.com) - Applied in R 2.9.1 ## ## ## ## Doctorate Thesis: ## ## INDICADORES DE RENDA BASEADOS EM CONSUMO DE ENERGIA ## ## ELÉTRICA: ABORDAGENS DOMICILIAR E REGIONAL ## ## NA PERSPECTIVA DA ESTATÍSTICA ESPACIAL ## ## ## ## First version: 08 October 2007 ## ## Revision in documentation: 22 November 2009 ## ## ## ############################################################################## ############################################################################## # -------------------------------------------------------------------------# -- Function POLYGON_TO_OWIN ---------------------------------------------# Converts a Spatial Polygon (MAPTOOLS Package) to a Owin (SPATSTAT) # -------------------------------------------------------------------------f_polygon_to_owin <- function(list_p) { # if list_p is a single polygon, generates a simple gpc.poly # and returns a simple owin if (list_p$nParts == 1) { results_gpc.poly <- as(list_p$verts[(length(list_p$verts[,1])-1):1,], "gpc.poly") return (gpc2owin(results_gpc.poly)) } # generates a single polygon from the first part of the multiply polygon results_gpc.poly <- as(list_p$verts[ (list_p$Pstart[2]-1):(list_p$Pstart[1]+1),], "gpc.poly") # for each part in the multiple polygon for (j in (2:list_p$nParts)) { # generates a single gpc.poly from its part if (j < list_p$nParts) polyj <- as(list_p$verts[ (list_p$Pstart[j+1]-1):(list_p$Pstart[j]+1),], "gpc.poly") else polyj <- as(list_p$verts[ (length(list_p$verts[,1])-1):(list_p$Pstart[j]+1),], "gpc.poly") # appends the new part with the whole multiple polygon results_gpc.poly <- append.poly(results_gpc.poly,polyj) } # converts it to a owin return (gpc2owin(results_gpc.poly)) } # # # # 327 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 # -------------------------------------------------------------------------- # # -- Function CALCULATE_PARTITIONS ----------------------------------------- # # Used in Alternative 6 to distribute interviews per Census Sectors # # -------------------------------------------------------------------------- # f_calculate_partitions <- function(p) { interview_original <- tab_part_sc$Interv_original[tab_part_sc$LINKMAP == p] interview_final <- tab_part_sc$Interv_final[tab_part_sc$LINKMAP == p] n_partitions <- tab_part_sc$Partitions[tab_part_sc$LINKMAP == p] if (n_partitions == 0) return (0) if (interview_final == 0) return (0) partitions <- as.matrix(tab_part_sc[ tab_part_sc$LINKMAP == p,5:(4+n_partitions)]) # If there is no interviews to remove, return the original ones if (interview_original == interview_final) return (partitions) for (remove_one in 1:(interview_original-interview_final)) { selectedpartition <- sample(n_partitions,1) partitions[selectedpartition] <- partitions[selectedpartition] - 1 if (partitions[selectedpartition] == 0) { partitions <- (sort(partitions,decreasing=TRUE))[1:(n_partitions-1)] n_partitions <- n_partitions - 1 } } return (sort(partitions,decreasing=TRUE)) } 328 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 ############################################################################## ### ======================================================== ################# ### === ALTERNATIVES OF Point Allocation Inside Polygons === ################# ### ======================================================== ################# ############################################################################## # -------------------------------------------------------------------------# -- Function ALTERNATIVE1 ------------------------------------------------# (Completely Spatially random distributed points inside polygons) # Creates a data frame with 2*k columns, containing k random X,Y coords # -------------------------------------------------------------------------f_alternative1 <- function(k) { # creates matrix of results m <- matrix(data=0,nrow=length(ab[,1]),ncol=2*k+4) m[,1] <- ab$RECNUM m[,2] <- ab$ID for (j in seq(3,(2*k+4),2)) m[,j:(j+1)] <- coords # for each polygon (munic or district) for (p in LinkMap) { # get the spatial description of the polygon and the number of points polys <- districts$Shapes[[p]]$verts totalpoints_p <- Interview$Total[Interview$LINKMAP == p] # generate random points inside the polygon (function csr - SPLANCS) # for each k iteration for (j in seq(5,(2*k+4),2)) { random_points <- csr(polys,totalpoints_p) m[ab$LINKMAP == p,j:(j+1)] <- random_points } } #p df <- as.data.frame(m) colnames(df) <- c("RECNUM","ID","Xsede","Ysede", paste(c("X","Y"),rep(1:k,each=2),sep="")) # return coordinates return (df) } # # # # # 329 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 205 206 207 # -------------------------------------------------------------------------# -- Function ALTERNATIVE2 ------------------------------------------------# (Distribution based on Density (grid) of Customers (population)) # Creates a data frame with 2*k columns, containing k random X,Y coords # -------------------------------------------------------------------------f_alternative2 <- function(k) { # creates matrix of results m <- matrix(data=0,nrow=length(ab[,1]),ncol=2*k+4) m[,1] <- ab$RECNUM m[,2] <- ab$ID m[,3:4] <- coords # for each polygon (munic or district) for (p in LinkMap) { # get the number of points to be sorted inside this polygon totalpoints_p <- Interview$Total[Interview$LINKMAP == p] # open text file of grid (one square kilometer grid, # containing the number of customers per cell) pontos <- read.csv(file= paste("malhas/malha_",p,".txt",sep="")) # build empty rectangular matrix from grid # (xp,yp) is the coordinate of the centroid of each cell in the grid xp <- pontos$Xcentr yp <- pontos$Ycentr zp <- pontos$NTOTAL # total of customer in each cell xg <- seq(min(xp),max(xp),100) yg <- seq(min(yp),max(yp),100) mg <- matrix(0,nrow=length(xg),ncol=length(yg)) # populate matrix from values in the grid for (i in 1:length(xp)) { xi <- xp[i] yi <- yp[i] zi <- zp[i] posxi <- (1:length(xg))[xg==xi] posyi <- (1:length(yg))[yg==yi] mg[posxi,posyi] <- zi } # create pixel image object (SPATSTAT package) from matrix imagemp <- im(mg,xcol=yg,yrow=xg) # generate random points inside the polygon (function rpoint - SPATSTAT) # for each k iteration for (j in seq(5,(2*k+4),2)) { # sample points inside the polygon based on a probability density # (imagemp) rpontos <- rpoint(totalpoints_p,imagemp) # update vector of new coordinates frame_rpontos <- as.data.frame(cbind(rpontos$y,rpontos$x)) m[ab$LINKMAP == p,j:(j+1)] <- as.matrix(frame_rpontos) } } #p df <- as.data.frame(m) colnames(df) <- c("RECNUM","ID","Xsede","Ysede", paste(c("X","Y"),rep(1:k,each=2),sep="")) # return coordinates return (df) } # # # # # 330 208 209 210 211 212 213 214 215 216 217 218 219 220 221 222 223 224 225 226 227 228 229 230 231 232 233 234 235 236 237 238 239 240 241 242 243 244 245 246 247 248 249 250 251 252 253 254 255 256 257 258 259 260 261 262 263 264 265 266 267 268 269 270 271 272 273 # -------------------------------------------------------------------------# -- Function ALTERNATIVE3A -----------------------------------------------# (Distribution based on Density (grid) of Energy Consumption) # Creates a data frame with 2*kk columns, containing kk random X,Y coords # -------------------------------------------------------------------------f_alternative3A <- function(kk) { # creates matrix of results m <- matrix(data=0,nrow=length(ab[,1]),ncol=2*kk+4) m[,1] <- ab$RECNUM m[,2] <- ab$ID m[,3:4] <- coords # for each polygon (munic or district) for (p in LinkMap) { # get the number of points to be sorted inside this polygon totalpoints_p <- Interview$Total[Interview$LINKMAP == p] # get the SURVEY DATA : vector of energy consumption from the # interviews inside this polygon SurveyData <- ab$ENERGY[ab$LINKMAP == p] SurveyIndex <- (1:length(ab[,1]))[ab$LINKMAP == p] # open text file of grid namegrid <- paste("malhas/malha_",p,".txt",sep="") pontos <- read.csv(file=namegrid,na.strings="0") # select only points with positive energy consumption (value of energy bill) pontos$NLUZ[is.na(pontos$NLUZ)] <- 0 pontos$ENERGY[is.na(pontos$ENERGY)] <- 0 pontos <- pontos[pontos$ENERGY > 0,] # (xp,yp) is the coordinate of the centroid of each cell in the grid xp <- pontos$Xcentr yp <- pontos$Ycentr zp <- pontos$ENERGY # energy consumption # for each Sk in Survey Data for (k in SurveyIndex) { Sk <- ab$ENERGY[k] # qpk store the absolute difference in consumption betweek Sk and # each point in the grid (zp) qpk <- abs(zp - Sk) # convert the qpk to a maximised value qpk <- (max(qpk)+1) - qpk # construct proportional measure of fitness for energy consumption qpk <- qpk/sum(qpk) # build empty rectangular matrix from grid xgk <- seq(min(xp),max(xp),100) ygk <- seq(min(yp),max(yp),100) mgk <- matrix(0,nrow=length(xgk),ncol=length(ygk)) # store qpk in the rectangular matrix mgk for (i in 1:length(xp)) { xi <- xp[i] yi <- yp[i] zi <- qpk[i] # # # # # 331 274 275 276 277 278 279 280 281 282 283 284 285 286 287 288 289 290 291 292 293 294 295 296 297 298 299 300 301 302 303 304 305 posxi <- (1:length(xgk))[xgk==xi] posyi <- (1:length(ygk))[ygk==yi] mgk[posxi,posyi] <- zi } # create pixel image object (SPATSTAT package) from matrix imagempk <- im(mgk,xcol=ygk,yrow=xgk) # generate random points inside the polygon (function rpoint - SPATSTAT) # for each kk iteration for (j in seq(5,(2*kk+4),2)) { # sample 1 point (per kk) inside the polygon # based on the surface of fitness (energy consumption) rpontok <- rpoint(1,imagempk) # update vector of new coordinates m[k,j] <- rpontok$y m[k,j+1] <- rpontok$x } } #k } #p df <- as.data.frame(m) colnames(df) <- c("RECNUM","ID","Xsede","Ysede", paste(c("X","Y"),rep(1:kk,each=2),sep="")) # return coordinates return (df) } 332 306 307 308 309 310 311 312 313 314 315 316 317 318 319 320 321 322 323 324 325 326 327 328 329 330 331 332 333 334 335 336 337 338 339 340 341 342 343 344 345 346 347 348 349 350 351 352 353 354 355 356 357 358 359 360 361 362 363 364 365 366 367 368 369 370 371 372 373 # -------------------------------------------------------------------------# -- Function ALTERNATIVE3B -----------------------------------------------# (Distribution based on Density (grid) of Energy Consumption) # (Considers only Top-5 quadricules for probability density surface) # Creates a data frame with 2*kk columns, containing kk random X,Y coords # -------------------------------------------------------------------------f_alternative3B <- function(kk) { # creates matrix of results m <- matrix(data=0,nrow=length(ab[,1]),ncol=2*kk+4) m[,1] <- ab$RECNUM m[,2] <- ab$ID m[,3:4] <- coords # for each polygon (munic or district) for (p in LinkMap) { # get the number of points to be sorted inside this polygon totalpoints_p <- Interview$Total[Interview$LINKMAP == p] # get the SURVEY DATA : vector of energy consumption from the # interviews inside this polygon SurveyData <- ab$ENERGY[ab$LINKMAP == p] SurveyIndex <- (1:length(ab[,1]))[ab$LINKMAP == p] # open text file of grid namegrid <- paste("malhas/malha_",p,".txt",sep="") pontos <- read.csv(file=namegrid,na.strings="0") # select only points with positive energy consumption (value of energy bill) pontos$NLUZ[is.na(pontos$NLUZ)] <- 0 pontos$ENERGY[is.na(pontos$ENERGY)] <- 0 pontos <- pontos[pontos$ENERGY > 0,] # (xp,yp) is the coordinate of the centroid of each cell in the grid xp <- pontos$Xcentr yp <- pontos$Ycentr zp <- pontos$ENERGY # energy consumption # for each Sk in Survey Data for (k in SurveyIndex) { Sk <- ab$ENERGY[k] # delta store the absolute difference in consumption betweek Sk and # each point in the grid (zp) delta <- abs(zp - Sk) # converts delta to a maximised value and # qpk stores the proportional measure of fitness for energy consumption qpk <- (max(delta)+1) - delta # maintains only the Top-5 customers whose consumption is closest to Sk totalselecao <- max(5,length(delta[delta == min(delta)])) index_Top5 <- (1:length(delta))[delta %in% (sort(delta,decreasing=FALSE))[1:totalselecao]] qpk[setdiff(1:length(delta),index_Top5)] <- 0 # standardizes qpk qpk <- qpk/sum(qpk) # build empty rectangular matrix from grid xgk <- seq(min(xp),max(xp),100) ygk <- seq(min(yp),max(yp),100) mgk <- matrix(0,nrow=length(xgk),ncol=length(ygk)) # # # # # # 333 374 375 376 377 378 379 380 381 382 383 384 385 386 387 388 389 390 391 392 393 394 395 396 397 398 399 400 401 402 403 404 405 406 407 408 409 410 411 412 # store qpk in the rectangular matrix mgk for (i in 1:length(xp)) { xi <- xp[i] yi <- yp[i] zi <- qpk[i] posxi <- (1:length(xgk))[xgk==xi] posyi <- (1:length(ygk))[ygk==yi] mgk[posxi,posyi] <- zi } # create pixel image object (SPATSTAT package) from matrix imagempk <- im(mgk,xcol=ygk,yrow=xgk) # generate random points inside the polygon (function rpoint - SPATSTAT) # for each kk iteration for (j in seq(5,(2*kk+4),2)) { # sample 1 point (per kk) inside the polygon # based on the surface of fitness (energy consumption) rpontok <- rpoint(1,imagempk) # update vector of new coordinates m[k,j] <- rpontok$y m[k,j+1] <- rpontok$x } } #k } #p df <- as.data.frame(m) colnames(df) <- c("RECNUM","ID","Xsede","Ysede", paste(c("X","Y"),rep(1:kk,each=2),sep="")) # return coordinates return (df) } 334 413 414 415 416 417 418 419 420 421 422 423 424 425 426 427 428 429 430 431 432 433 434 435 436 437 438 439 440 441 442 443 444 445 446 447 448 449 450 451 452 453 454 455 456 457 458 459 460 461 462 463 464 465 466 467 468 469 470 471 472 473 474 475 476 477 478 479 480 # -------------------------------------------------------------------------# -- Function ALTERNATIVE4A -----------------------------------------------# (Distribution based on Fitness of Customers' Power Data (points)) # Creates a data frame with 2*kk columns, containing kk random X,Y coords # -------------------------------------------------------------------------f_alternative4A <- function(kk) { # creates matrix of results m <- matrix(data=0,nrow=length(ab[,1]),ncol=2*kk+4) m[,1] <- ab$RECNUM m[,2] <- ab$ID m[,3:4] <- coords # for each polygon (munic or district) for (p in LinkMap) { # get the SURVEY DATA : vector of energy consumption from the # interviews inside this polygon SurveyData <- ab$ENERGY[ab$LINKMAP == p] SurveyIndex <- (1:length(ab[,1]))[ab$LINKMAP == p] # get the POWER DATA : vector of energy consumption from the # power distribution company's customer located inside the polygon namearqpower <- paste("clientes/cli",p,".txt",sep="") PowerData <- read.csv(file=namearqpower) colnames(PowerData) <- c("X","Y","ENERGY") # select only customers with positive energy consumption PowerData <- PowerData[PowerData$ENERGY > 0,] P <- PowerData$ENERGY # for each Sk in Survey Data for (k in SurveyIndex) { Sk <- ab$ENERGY[k] # qpk stores the absolute difference in consumption betweek Sk and # each customer in PowerData qpk <- abs(P - Sk) # convert the qpk to a maximised value qpk <- (max(qpk)+1) - qpk # construct proportional measure of fitness for energy consumption qpk <- qpk/sum(qpk) for (j in seq(5,(2*kk+4),2)) { # sample 1 point (per kk) inside the polygon # based on the surface of fitness (energy comsumption) indicecli <- sample(1:length(qpk),1,replace=FALSE,prob=qpk) # update vector of new coordinates m[k,j] <- PowerData[indicecli,1] m[k,j+1] <- PowerData[indicecli,2] } } #k } #p df <- as.data.frame(m) colnames(df) <- c("RECNUM","ID","Xsede","Ysede", paste(c("X","Y"),rep(1:kk,each=2),sep="")) # return coordinates return (df) } # # # # # 335 481 482 483 484 485 486 487 488 489 490 491 492 493 494 495 496 497 498 499 500 501 502 503 504 505 506 507 508 509 510 511 512 513 514 515 516 517 518 519 520 521 522 523 524 525 526 527 528 529 530 531 532 533 534 535 536 537 538 539 540 541 542 543 544 545 546 547 548 # -------------------------------------------------------------------------# -- Function ALTERNATIVE4B -----------------------------------------------# (Distribution based on Fitness of Customers' Power Data (points)) # (Considers only Top-5 customers in the selection of points) # Creates a data frame with 2*kk columns, containing kk random X,Y coords # -------------------------------------------------------------------------f_alternative4B <- function(kk) { # creates matrix of results m <- matrix(data=0,nrow=length(ab[,1]),ncol=2*kk+4) m[,1] <- ab$RECNUM m[,2] <- ab$ID m[,3:4] <- coords # for each polygon (munic or district) for (p in LinkMap) { # get the SURVEY DATA : vector of energy consumption from the # interviews inside this polygon SurveyData <- ab$ENERGY[ab$LINKMAP == p] SurveyIndex <- (1:length(ab[,1]))[ab$LINKMAP == p] # get the POWER DATA : vector of energy consumption from the # power distribution company's customer located inside the polygon namearqpower <- paste("clientes/cli",p,".txt",sep="") PowerData <- read.csv(file=namearqpower) colnames(PowerData) <- c("X","Y","ENERGY") # select only customers with positive energy consumption PowerData <- PowerData[PowerData$ENERGY > 0,] P <- PowerData$ENERGY # for each Sk in Survey Data for (k in SurveyIndex) { Sk <- ab$ENERGY[k] # delta stores the absolute difference in consumption betweek Sk and # each customer in PowerData delta <- abs(P - Sk) # converts delta to a maximised value and # qpk stores the proportional measure of fitness for energy consumption qpk <- (max(delta)+1) - delta # maintains only the Top-5 customers whose consumption is closest to Sk totalselecao <- max(5,length(delta[delta == min(delta)])) index_Top5 <- (1:length(delta))[delta %in% (sort(delta,decreasing=FALSE))[1:totalselecao]] qpk[setdiff(1:length(delta),index_Top5)] <- 0 # standardizes qpk qpk <- qpk/sum(qpk) for (j in seq(5,(2*kk+4),2)) { # sample 1 point (per kk) inside the polygon # based on the surface of fitness (energy comsumption) indicecli <- sample(1:length(qpk),1,replace=FALSE,prob=qpk) # update vector of new coordinates m[k,j] <- PowerData[indicecli,1] m[k,j+1] <- PowerData[indicecli,2] } } #k } #p # # # # # # 336 549 550 551 552 553 554 555 556 557 558 559 560 561 562 563 564 565 566 567 568 569 570 571 572 573 574 575 576 577 578 579 580 581 582 583 584 585 586 587 588 589 590 591 592 593 594 595 596 597 df <- as.data.frame(m) colnames(df) <- c("RECNUM","ID","Xsede","Ysede", paste(c("X","Y"),rep(1:kk,each=2),sep="")) # return coordinates return (df) } # -------------------------------------------------------------------------# -- Function ALTERNATIVE5 ------------------------------------------------# (Spatially random distributed points inside multiple polygons # set of "urban and not special" census sectors) # Creates a data frame with 2*k columns, containing k random X,Y coords # -------------------------------------------------------------------------f_alternative5 <- function(k) { # creates matrix of results m <- matrix(data=0,nrow=length(ab[,1]),ncol=2*k+4) m[,1] <- ab$RECNUM m[,2] <- ab$ID for (j in seq(3,(2*k+4),2)) m[,j:(j+1)] <- coords # for each polygon (munic or district) for (p in LinkMap) { # get the spatial description of the polygon and the number of points owin_p <- f_polygon_to_owin(districts_urban$Shapes[[p-96]]) totalpoints_p <- Interview$Total[Interview$LINKMAP == p] # generate random points inside the polygon (runifpoint - SPATSTAT) # for each k iteration for (j in seq(5,(2*k+4),2)) { random_points <- runifpoint(totalpoints_p,win=owin_p) m[ab$LINKMAP == p,j:(j+1)] <- cbind(random_points$x,random_points$y) } } #p df <- as.data.frame(m) colnames(df) <- c("RECNUM","ID","Xsede","Ysede", paste(c("X","Y"),rep(1:k,each=2),sep="")) # return coordinates return (df) } # # # # # # 337 598 599 600 601 602 603 604 605 606 607 608 609 610 611 612 613 614 615 616 617 618 619 620 621 622 623 624 625 626 627 628 629 630 631 632 633 634 635 636 637 638 639 640 641 642 643 644 645 646 647 648 649 650 651 652 653 654 655 656 657 658 659 660 661 662 663 664 665 # -------------------------------------------------------------------------# -- Function ALTERNATIVE6 ------------------------------------------------# Follows ABRADEE’s Survey Sample Planning: # Sort census sectors then randomize points inside # -------------------------------------------------------------------------f_alternative6 <- function(k) { # creates matrix of results m <- matrix(data=0,nrow=length(ab[,1]),ncol=2*k+4) m[,1] <- ab$RECNUM m[,2] <- ab$ID for (j in seq(3,(2*k+4),2)) m[,j:(j+1)] <- coords # for each polygon (munic or district) for (p in LinkMap) { for (j in seq(5,(2*k+4),2)) { # select quantity of census sectors and interviews to raffle partitions_p <- f_calculate_partitions(p) # raffle (select as a sample) the census sectors total_cs_p <- (base_cs_urban$CS)[ base_cs_urban$LINKMAP == p] sampled_cs <- sample(total_cs_p,length(partitions_p)) total_points_output <- Interview$Total[Interview$LINKMAP == p] pontos_saida <- matrix(data=0,nrow=total_points_output,ncol=2) position <- 1 # for each census sector in the selected list randomize points inside for (i in 1:length(partitions_p)) { sc_i <- sampled_cs[i] polygon_cs_i <- cs_urban$Shapes[[cs_urban$att.data$RECNUM[ cs_urban$att.data$CS == sc_i]]] # select (as a sample) points inside census sectors # if it is a single part polygon if (polygon_cs_i$nParts == 1) { random_points <- csr(polygon_cs_i$verts,partitions_p[i]) pontos_saida[position: (position+partitions_p[i]-1),1:2] <- random_points } # else if it is a multipart polygon else { owin_polygon_cs_i <- f_polygon_to_owin(polygon_cs_i) random_points <- runifpoint(partitions_p[i],win=owin_polygon_cs_i, giveup=100000) pontos_saida[position:(position+partitions_p[i]-1),1:2] 0,] # Database (in CSV) of original partitions for each Sao Paulo's district tab_part_sc <- read.csv("bases/partitions cs_ABRADEE 2009.csv") # Summarize total of interviews per polygon LinkMap <- as.numeric(levels(factor(ab$LINKMAP))) Interview <- as.data.frame(cbind(LinkMap, tapply(ab$LINKMAP,factor(ab$LINKMAP),length))) colnames(Interview) <- c("LINKMAP","Total") # coords contain each district's foundation point (sede) coords <- cbind(ab$Xsede,ab$Ysede) 339 725 726 727 728 729 730 731 732 733 734 735 736 737 738 739 740 741 742 743 744 745 746 747 748 749 750 751 752 753 754 755 756 757 758 759 760 761 762 763 764 765 766 767 768 769 # number of iteractions (repetitions) of coordinate generation Iterations <- 1000 # Generate randomic allocation of coordinates (for each alternative) # and write output tables in CSV format results.alt1.coords.ab <- f_alternative1(Iterations) write.csv(results.alt1.coords.ab, file="points_alternatives/alt1_abradee_2009.csv", quote=FALSE,row.names=FALSE) results.alt2.coords.ab <- f_alternative2(Iterations) write.csv(results.alt2.coords.ab, file="points_alternatives/alt2_abradee_2009.csv", quote=FALSE,row.names=FALSE) results.alt3A.coords.ab <- f_alternative3A(Iterations) write.csv(results.alt3A.coords.ab, file="points_alternatives/alt3A_abradee_2009.csv", quote=FALSE,row.names=FALSE) results.alt3B.coords.ab <- f_alternative3B(Iterations) write.csv(results.alt3B.coords.ab, file="points_alternatives/alt3B_abradee_2009.csv", quote=FALSE,row.names=FALSE) results.alt4A.coords.ab <- f_alternative4A(Iterations) write.csv(results.alt4A.coords.ab, file="points_alternatives/alt4A_abradee_2009.csv", quote=FALSE,row.names=FALSE) results.alt4B.coords.ab <- f_alternative4B(Iterations) write.csv(results.alt4B.coords.ab, file="points_alternatives/alt4B_abradee_2009.csv", quote=FALSE,row.names=FALSE) results.alt5.coords.ab <- f_alternative5(Iterations) write.csv(results.alt5.coords.ab, file="points_alternatives/alt5_abradee_2009.csv", quote=FALSE,row.names=FALSE) results.alt6.coords.ab <- f_alternative6(Iterations) write.csv(results.alt6.coords.ab, file="points_alternatives/alt6_abradee_2009.csv", quote=FALSE,row.names=FALSE) 340 B.2 – Aplicação da Técnica GWR sobre as Amostras Realocadas 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 ############################################################################## ############################################################################## ## ======================================================================== ## ## == Application of GWR for Point Allocation Alternatives == ## ## == for ABRADEE's Survey == ## ## ======================================================================== ## ## ## ## Eduardo de Rezende Francisco - FGV-EAESP / University of Otago ## ## ## ## Code in R (www.r-project.com) - Applied in R 2.9.1 ## ## ## ## Doctorate Thesis: ## ## INDICADORES DE RENDA BASEADOS EM CONSUMO DE ENERGIA ## ## ELÉTRICA: ABORDAGENS DOMICILIAR E REGIONAL ## ## NA PERSPECTIVA DA ESTATÍSTICA ESPACIAL ## ## ## ## First version: 08 October 2007 ## ## Revision in documentation: 14 November 2009 ## ## ## ############################################################################## ############################################################################## # -------------------------------------------------------------------------# -- Function CALCULA_R2_GWR ----------------------------------------------# Calculate R2 of GWR models considering case weights # -------------------------------------------------------------------------f_calculate_r2_gwr <- function(modelo_gwr,base) { sum_square_glo <- sum((((base$INCOME - sum(base$INCOME*base$WEIGHT)))^2) *base$WEIGHT) modelo_gwr.prev <- modelo_gwr$est[,1] + modelo_gwr$est[,2]*base$ENERGY modelo_gwr.res <- base$INCOME - modelo_gwr.prev r2 <- 1 - (sum((modelo_gwr.res^2)*base$WEIGHT)/sum_square_glo) return(r2) } ############################################################################## ### ==================== ##################################################### ### === MAIN PROGRAM === ##################################################### ### ==================== ##################################################### ############################################################################## # load GWR code from Chris Brunsdon setwd("c:/DOUTORADO - Working Area/R_GWR") source("gwr4_1.R") # change working directory setwd("c:/DOUTORADO - Working Area/Bases/abradee") # Read ABRADEE's survey database ab <- read.csv("bases/ABRADEE 200X.csv") # Valid for 2004 and 2006-2009 # Remove interviews with weight = 0 ab <- ab[ab$WEIGHT >0,] Iterations <- 1000 # Follow files of alternative coordinates Alternatives <- c("1","2","3A","3B","4A","4B","5","6") # # # # 341 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 for (alt in Alternatives) { # read alternative file tab.alt.coords <- read.csv(paste("points_alternatives/alt",alt, "_abradee_2009.csv",sep=""), sep=",",dec=".") # Table for results of GWR Models with bandwidth from AIC minimisation tab.results.gwr_variavel <- as.data.frame(matrix(data=0, nrow=Iterations,ncol=4)) colnames(tab.results.gwr_variavel) <- c("ID","bw","k","R2") # Table for results of GWR Models for fixed bandwidth # (with k minimum = 26 for ABRADEE's survey 2009) tab.results.gwr_fixmin <- as.data.frame(matrix(data=0, nrow=Iterations,ncol=4)) colnames(tab.results.gwr_fixmin) <- c("ID","bw","k","R2") # Table for results of GWR Models for fixed bandwidth # (with k = 175 suggested by AIC minimisation for original model # [coordinates of foundation point ("sede")] for ABRADEE's Survey 2009) tab.results.gwr_fixaic <- as.data.frame(matrix(data=0, nrow=Iterations,ncol=4)) colnames(tab.results.gwr_fixaic) <- c("ID","bw","k","R2") # Table for results of GWR Models for fixed bandwidth # (with k = 105 suggested by AIC minimisation for original model # [real coordinates] for ABRADEE's Survey 2009) tab.results.gwr_fixreal <- as.data.frame(matrix(data=0, nrow=Iterations,ncol=4)) colnames(tab.results.gwr_fixreal) <- c("ID","bw","k","R2") # Follow set of coordinates in the file for (i in 1:Iterations) { pos <- 5+(2*(i-1)) this_coords <- tab.alt.coords[,pos:(pos+1)] ################################################################### ## GWR Model with bandwidth from AIC minimisation ## gwr.ab <- gwr.from.aic(ab$ENERGY,ab$INCOME,this_coords,use.adaptive=TRUE) tab.results.gwr_variavel$ID[i] <- i tab.results.gwr_variavel$bw[i] <- gwr.ab$adaptive tab.results.gwr_variavel$k[i] <- round(gwr.ab$adaptive * length(ab[,1])) tab.results.gwr_variavel$R2[i] <- f_calcula_r2_gwr(gwr.ab,ab) ################################################################### ## GWR Model with fixed bandwidth for minimum k ## (k = 26 para Pesquisa ABRADEE 2009) ## bw <- 26/length(ab[,1]) gwr.ab2 <- gwr(ab$ENERGY,ab$INCOME,this_coords,adaptive=bw) tab.results.gwr_fixmin$ID[i] <- i tab.results.gwr_fixmin$bw[i] <- gwr.ab2$adaptive tab.results.gwr_fixmin$k[i] <- round(gwr.ab2$adaptive * length(ab[,1])) tab.results.gwr_fixmin$R2[i] <- f_calcula_r2_gwr(gwr.ab2,ab) ################################################################### ## GWR Model with fixed bandwidth for k suggested by ## AIC minimisation for original model (coordinates "Sede") (k = 175) ## bw <- 175/length(ab[,1]) gwr.ab3 <- gwr(ab$ENERGY,ab$INCOME,this_coords,adaptive=bw) tab.results.gwr_fixaic$ID[i] <- i tab.results.gwr_fixaic$bw[i] <- gwr.ab3$adaptive tab.results.gwr_fixaic$k[i] <- round(gwr.ab3$adaptive * length(ab[,1])) tab.results.gwr_fixaic$R2[i] <- f_calcula_r2_gwr(gwr.ab3,ab) 342 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 ################################################################### ## GWR Model with fixed bandwidth for k suggested by ## AIC minimisation for original model (real coordinates) (k = 105) ## bw <- 105/length(ab[,1]) gwr.ab4 <- gwr(ab$ENERGY,ab$INCOME,this_coords,adaptive=bw) tab.results.gwr_fixreal$ID[i] <- i tab.results.gwr_fixreal$bw[i] <- gwr.ab4$adaptive tab.results.gwr_fixreal$k[i] <- round(gwr.ab4$adaptive * length(ab[,1])) tab.results.gwr_fixreal$R2[i] <- f_calcula_r2_gwr(gwr.ab4,ab) } #i # Save files with models' results write.csv(tab.results.gwr_variavel, file=paste("output_alternatives/results_gwr_varaic_alt",alt, "_abradee_2009.csv",sep=""), quote=FALSE,row.names=FALSE) write.csv(tab.results.gwr_fixmin, file=paste("output_alternatives/results_gwr_fixmin_alt",alt, "_abradee_2009.csv",sep=""), quote=FALSE,row.names=FALSE) write.csv(tab.results.gwr_fixaic, file=paste("output_alternatives/results_gwr_fixaic_alt",alt, "_abradee_2009.csv",sep=""), quote=FALSE,row.names=FALSE) write.csv(tab.results.gwr_fixreal, file=paste("output_alternatives/results_gwr_fixreal_alt",alt, "_abradee_2009.csv",sep=""), quote=FALSE,row.names=FALSE) } #alt 343 ANEXO A – CRITÉRIO DE CLASSIFICAÇÃO ECONÔMICA BRASIL O Anexo A desta tese traz os documentos que descrevem a formulação e aplicação em campo do Critério de Classificação Econômica Brasil (CCEB), em suas versões: (A.1) Inicial, criada pela ANEP em 1996 e mantida pela ABEP a partir de 2004 (pontuação variável de 0 a 34 e cortes em sete classes), e (A.2) Atual, revisada pela ABEP em 2008 (pontuação variável de 0 a 46 e cortes em oito classes – a classe C foi dividida em C1 e C2). 344 A.1 – CCEB criado em 1996 e em vigor até 2007 345 346 347 A.2 – CCEB em vigor a partir de 2008 348 349 350 ANEXO B – QUESTIONÁRIO DA AMOSTRA DO CENSO DEMOGRÁFICO 2000 O Anexo B desta tese traz o questionário da Amostra do Censo Demográfico 2000, realizado no período de 1º de Agosto a 30 de Novembro de 2000. No município de São Paulo foram visitados, para a pesquisa da Amostra, 303.669 domicílios, que representam o universo de 3.032.905. 351 352 353 354 355 356 357 358 359 360 361 362 363 364 365 366 367 ANEXO C – QUESTIONÁRIO DA PESQUISA ABRADEE O Anexo C desta tese traz o questionário completo da Pesquisa ABRADEE da 11ª. Rodada da Pesquisa de Satisfação do Cliente Residencial Urbano da ABRADEE, aplicada em 2009. Esse questionário é bastante similar aos questionários aplicados nas rodadas anteriores da pesquisa – em especial, às demais rodadas utilizadas nesta tese (2004, 2006, 2007 e 2008). O questionário foi aplicado pelo Instituto Vox Populi até 2008 e pelo Instituto Innovare em 2009. Foram entrevistados 1050, 1350, 1200, 1200 e 1200 domicílios em toda área de concessão da AES Eletropaulo, quantidades respectivas aos anos 2004, 2006, 2007, 2008 e 2009. Para este estudo, foram utilizados 662, 717, 670, 654 e 677 casos (para os mesmos anos), que completavam os requisitos de estar situados no município de São Paulo, fornecer a informação de renda domiciliar em reais e ter o valor da conta de luz coletado. Vale mencionar a inclusão da pergunta específica sobre o código da instalação do cliente da AES Eletropaulo na rodada de 2009: Pergunta 18, em destaque na folha 3 do questionário, a seguir. O resultado dessa pergunta foi utilizado na aplicação piloto da localização geográfico do domicílio entrevistado e comparação dos resultados dessa aplicação específica com os da aplicação a partir das alternativas de alocação de pontos nos distritos, conforme descrito no Capítulo 4. 368 369 370 371 372 373 374 375 376 377 378 379 380 381