O scraper foi atualizado para seguir o novo site do Casa dos Dados. Agora, há um limite de 200 resultados por busca devido às novas limitações do site. Para obter uma quantidade maior de resultados, utilize a opção "Repetir".
⚠️ Devido a mudanças no site Casa dos Dados, que agora usa uma proteção da Cloudflare para bloquear scrapers e crawlers, tivemos que mudar nossa abordagem. Agora, usamos o Playwright para buscar os primeiros filtros.
Scraper com interface amigável para pegar os dados do site casadosdados utlizando funções assincronas retornando 1000 resultados em aproximadamente 1 minuto.
O projeto ainda está em desenvolvimento e as próximas atualizações serão feitas:
- Requests assíncronos
- Interface amigável
- Salvar filtros
- Salvar em outros formatos(.csv etc)
- Gerar instalador
- Gerar executável portável
Antes de começar, verifique se você atendeu aos seguintes requisitos:
- Você tem
Python 3.11
ou a versão mais recente instalada - Você tem uma máquina
Windows 10
ou superior
Para instalar, siga estas etapas:
- Visite a página de releases do repositório
- Escolha a versão mais recente
- Escolha a versão portável ou a instalável(essa versão abre mais rápido)
- Abra e utilize normalmente
Windows:
1. Clone este repositório:
git clone https://github.com/guilhermecugler/Scraper-Casa-dos-Dados.git
2. Navegue até a pasta clonada
3. Instale as dependências:
pip install -r .\requirements.txt
Para usar, siga estas etapas:
1. Vá até a pasta do projeto onde contém o casadosdados.py
2. Execute com: python .\casadosdados.py
Para contribuir, siga estas etapas:
- Bifurque este repositório.
- Crie um branch:
git checkout -b <nome_branch>
. - Faça suas alterações e confirme-as:
git commit -m '<mensagem_commit>'
- Envie para o branch original:
git push origin <ScraperCasaDosDados> / <local>
- Crie a solicitação de pull.
Como alternativa, consulte a documentação do GitHub em como criar uma solicitação pull.
O projeto está a ser mantido por mim e pelo timotheeMM.
Se estiver contribuindo com o projeto, adicione seu nome de usuário do GitHub ao arquivo CONTRIBUTORS.md.
Esse projeto está sob licença GNU General Public License v3.0. Veja LICENÇA para mais detalhes.