terça-feira, 7 de setembro de 2010

feedparser e tratando metadados

Gerar metadados é uma etapa fundamental para permitir que novos serviços de remixagem de dados possam ser desenvolvidos. No entanto, conseguir ler esses metadados e tratá-los de forma a termos possibilidades de agregar campos, processá-los, rodar diferentes algoritmos de filtragem, como filtragem colaborativa, por exemplo, é um passo a mais que precisa ser dado.

Tenho brincado ultimamente com algumas formas de tratar esses dados. Uma das mais formas mais fáceis que tenho encontrado e bem úteis tem sido rodar algumas experiências em Python. Nunca fui um usuário Python, sendo que minha experiência com programação sempre foi mais na linha do software básico, rodando C/C++, Pascal e por aí vai. Tenho gostado do Python, pela simplicidade e facilidade com que algumas provas de conceito podem ser construídas. Agilidade na hora de exploração de uma ideia é a diferença, muitas vezes, entre o que pode te fazer continuar e o que pode te fazer desanimar.

Uma boa biblioteca que comecei a testar hoje para dar conta de coletar e fazer alguns testes com metadados é a Universal Feed Parser. É uma lib simples, ágil e que dá para testar uma série de coisas importantes para o momento em que estou:

  • qual a estrutura de um conjunto de metadados;
  • como separar os campos;
  • que tipologia os diferentes vocabulários geram (Atom, RSS, DublinCore, SIOC, etc...).
A documentação do módulo também é bem bacana, dando alguns exemplos simples e que facilitam testar nos nossos próprios feeds. Instalar a lib é bem simples, só colocar o arquivo .py no diretório do Python e começar a testar no interpretador de comandos. 

Fiz alguns testes com feeds do meu blog, do metareciclagem e com a api para websemântica que o Felipe instalou hoje no Drupal do MetaReciclagem. 

Promissor! ;-)

Nenhum comentário: