-
-
Notifications
You must be signed in to change notification settings - Fork 416
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Habilita Zyte Smart Proxy em Florianópolis-SC #1039
Conversation
rennerocha
commented
Nov 21, 2023
- Spider fufnciona localmente, mas não funciona na Scrapy Cloud. Habilitando o Smart Proxy para evitar problemas de geolocalização
- Ajuste de URL inicial para usar HTTPS ao invẽs de HTTP
- Substituir mẽtodos antigos (extract() e extract_first()) por get() e getall(), considerados o padrão do Scrapy
Boa, @rennerocha. Valeu! Confirmei que o raspador está coletando localmente (florianopolis_local.csv | florianopolis_local.txt), mas não consegui confirmar que com a modificação para incluir o smartproxy funciona também -- vi no dashboard que realmente os jobs não estão coletando mais itens. Estou recebendo warning sobre o user-agent no header e também a validação da chave. O arquivo de log completo é este: florianopolis_viazyte.txt, mas a seguir tem uns trechos do log destacando as chaves.
Aparentemente, a Zyte está migrando o SmartProxy todo pra dentro da Zyte API (https://docs.zyte.com/zyte-api/migration/zyte/smartproxy.html#spm-migrate) e não estou mais tendo certeza de como usar. Quanto ao Quanto ao erro mesmo, minha chave individual está certa. @ogecece poderia confirmar se a chave do Smart Proxy também?
|
Demorei um pouco pra entender o real problema... acho que é o caso de forçar o Vou testar aqui |
- Spider fufnciona localmente, mas não funciona na Scrapy Cloud. Habilitando o Smart Proxy para evitar problemas de geolocalização - Ajuste de URL inicial para usar HTTPS ao invẽs de HTTP - Substituir mẽtodos antigos (extract() e extract_first()) por get() e getall(), considerados o padrão do Scrapy
2ecea53
to
55093f1
Compare
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
Enfim. Compliquei os testes aqui mais do que precisava, porém, tá tudo ok.
Testei aqui a branch no scrapy cloud e rodou normal, com e sem proxy. Acho que o problema estava no file_urls
como uma tupla mais do que qualquer coisa.
Vou mesclar sem o proxy então.
Tô na dúvida pq o log que a @trevineju executou estava usando |
sim, pq em uma parte das orientações de migração tinha que era pra mudar. |