¿Cómo limita scraperwiki el tiempo de ejecución?

¿Cómo decide scraperwiki detener una ejecución programada? ¿Se basa en el tiempo de ejecución real o el tiempo de CPU? O tal vez algo más.

Rastreo un sitio para el cual Mechanize requiere 30s para cargar cada página pero uso muy poca CPU para procesar las páginas, así que me pregunto si la lentitud del servidor es un problema importante.

Mejor respuesta
Tiempo de CPU, no de reloj de pared. Está basado en la función de Linux setrlimit.

Cada ejecución del raspador tiene un límite de aproximadamente 80 segundos de tiempo de procesamiento. Después de eso, en Python y Ruby obtendrás una excepción “Se excedió el tiempo de CPU de ScraperWiki”. En PHP terminará “terminado por SIGXCPU”.

En muchos casos, esto sucede cuando usted está raspando un sitio por primera vez, alcanzando la acumulación de datos existentes. La mejor manera de manejarlo es hacer que su raspador haga un trozo a la vez usando las funciones save_var y get_var (ver http://scraperwiki.com/docs/python/python_help_documentation/) para recordar su lugar.

Eso también te permite recuperarte más fácilmente de otros errores de análisis.

Por favor indique la dirección original:¿Cómo limita scraperwiki el tiempo de ejecución? - Código de registro