Raspagem de Dados
Enquanto o governo não liberar seus dados seguindo os padrões de dados abertos, precisaremos extraí-los dos sites e portais governamentais. Estes são projetos pequenos que são na maior parte mais fáceis de executar e podem ser feitos em pouco tempo.
Sites raspáveis
Escolha um para fazer ou adicione outros à lista. Coloque uma URL de exemplo e o tipo de dado que ela contém. Se houver mais informações sobre o formato dos dados e como melhor raspá-los, crie uma página separada no wiki e coloque o link na lista abaixo.
- Histórico de Votação da Câmara;
- Informação biográfica de deputados federais. Exemplo: http://www.camara.gov.br/Internet/Deputado/dep_Detalhe.asp?id=522696, obtido a partir de http://www2.camara.gov.br/deputados;
- Gastos do Governo Federal http://www.portaltransparencia.gov.br/;
- Processo legislativo (biografias, históricos de votação, etc.) das Câmaras Municipais;
- Pauta de votação da Câmara e outras informações do Plenário: http://www2.camara.gov.br/plenario
- Textos completos e informação de tramitação de Projetos de Lei e outras proposições: http://www2.camara.gov.br/proposicoes
- Processo Legislativo da ALESP (Assembléia Legislativa do Estado de São Paulo): http://www.al.sp.gov.br/portal/site/Internet/menuitem.67bf1b8630875b95176679cd560041ca/?vgnextoid=f1d380f3e6e57110VgnVCM100000590014acRCRD
- Transparência Brasil - Projeto Excelências - http://www.excelencias.org.br/
- Viagens Oficiais da Camara - http://www2.camara.gov.br/transparencia/missaooficial.html
- Projeto LexML - http://projeto.lexml.gov.br/ - que se propoe a reunir informações em formato aberto sobre documentos legislativos e jurídicos. No que acho mais importante para esse primeiro momento, que é o texto integral das proposições, ainda tem muito poucas proposições. E as que eu vi, estavam em PDF, talvez pq a fonte é a mesma :(
- SIT - Serviço de Integração Tecnológica da Câmara dos Deputados - http://www2.camara.gov.br/sitcamara - : É um sistema de webservices que automatiza a coleta de informações como a tramitação de propostas, pauta de sessões do plenário, pauta de reuniões de comissões, informações sobre os deputados, e composição de comissões e lideranças. Pode ser acessado por entidades governamentais ou de caráter público, empresas públicas e entidades de classe. Talvez teremos que arrumar um parceiro que se encaixe nesses requisitos. Abaixo os webservices disponíveis com uma sucinta descrição de cada:
- ObterAndamento? => Retorna o andamento de uma proposição a partir de uma data específica
- ObterPauta? => Dados o ID, número identificador do orgão, e as datas inicial e final, retorna a pauta do período especificado.
- ObterOrgaos? => Retorna todos os orgãos com respectivos IDs e descrições.
- ObterDeputados? => Retorna todos os deputados atualmente em exercício.
- ObterMembrosComissao? => Retorna os membros de determinada comissao.
- ObterLideresBancadas? => Retorna os líderes e vice-líderes das bancadas dos partidos.
Outras fontes estão listadas aqui: http://esfera.mobi/datagovbr/
Formatos
Em princípio, use o formato mais simples possível para salvar os dados raspados, e guarde tudo quanto é informação e meta-informação você conseguir. O formato simples torna a tarefa mais factível e o uso posterior mais flexível, e é bom salvar tudo porque nunca se sabe o que pode ser útil para uma futura aplicação que vai usar os dados.
Alguma discussão sobre o assunto: http://dataspora.com/blog/xml-and-big-data/ http://groups.google.com/group/sunlightlabs/browse_thread/thread/da9118b9fe566c
Scripts
Adicione à lista abaixo os scripts de raspagem que já foram completados. Se possível, crie uma página separada no wiki para cada um, explicando o formato de saída e outras informações relevantes.
- Histórico de votação da câmara (zuado no momento, vou refazê-lo): http://github.com/obvio171/openparliament/blob/master/data/scraping_votes.rb;
- Metadados (ID, matrícula, etc.) de deputados federais: http://github.com/obvio171/openparliament/blob/master/data/scraping_legislators.rb
Tutoriais e Ferramentas
Existem zilhões de ferramentas que podem ser usadas para fazer a raspagem. Os links abaixo podem ser úteis. Por favor contribuam com o que souberem.
