Raspagem de Dados

Enquanto o governo não liberar seus dados seguindo os  padrões de dados abertos, precisaremos extraí-los dos sites e portais governamentais. Estes são projetos pequenos que são na maior parte mais fáceis de executar e podem ser feitos em pouco tempo.

Sites raspáveis

Escolha um para fazer ou adicione outros à lista. Coloque uma URL de exemplo e o tipo de dado que ela contém. Se houver mais informações sobre o formato dos dados e como melhor raspá-los, crie uma página separada no wiki e coloque o link na lista abaixo.

Outras fontes estão listadas aqui:  http://esfera.mobi/datagovbr/

Formatos

Em princípio, use o formato mais simples possível para salvar os dados raspados, e guarde tudo quanto é informação e meta-informação você conseguir. O formato simples torna a tarefa mais factível e o uso posterior mais flexível, e é bom salvar tudo porque nunca se sabe o que pode ser útil para uma futura aplicação que vai usar os dados.

Alguma discussão sobre o assunto:  http://dataspora.com/blog/xml-and-big-data/  http://groups.google.com/group/sunlightlabs/browse_thread/thread/da9118b9fe566c

Scripts

Adicione à lista abaixo os scripts de raspagem que já foram completados. Se possível, crie uma página separada no wiki para cada um, explicando o formato de saída e outras informações relevantes.

Tutoriais e Ferramentas

Existem zilhões de ferramentas que podem ser usadas para fazer a raspagem. Os links abaixo podem ser úteis. Por favor contribuam com o que souberem.

Exemplos