Software dedicado a la extracción de millones de datos históricos almacenados en Wayback Machine, sobre los trabajos solicitados y realizados en Estados Unidos durante la pandemia por medio del sitio web care.com.
- Clonar el repositorio.
- Copiar el archivo
.env.example
y pegarlo en la carpeta raiz con el nombre.env
. - Añadir el tipo de dato a extraer (offer o job) al lado del texto
DATA_TYPES_EXTRACTION=
. Ejemplo:DATA_TYPES_EXTRACTION=offer
- El repositorio está desarrollado para ser ejecutado en la versión lts/gallium de NodeJs, por lo que no se asegura una óptima ejecución en otras versiones.
- En caso de querer utilizar la versión específica de NodeJs con la que el software fue desarrollado, se recomienda seguir los siguientes pasos:
- Instalar nvm
- Ejecutar el comando
nvm install
- Ejecutar el comando
nvm use
npm ci
npm run start
output: ./dist/src/output
- En caso de añadir y/o eliminar ofertas de trabajo o solicitudes de trabajo, se debe editar el
.txt
respectivo (job.txt
uoffer.txt
) que se encuentra dentro del directorio./src/public
. - En caso de añadir y/o eliminar las áreas de extracción, se debe editar el fichero
local_area.txt
que se encuentra dentro del directorio./src/public
.
- El software utiliza los archivos
*.txt
almacenados en el directorio./src/public
para generar todas las posibles combinaciones de links. La estructura del link es la siguiente:https://www.care.com/<offer o job>/<area>
. Ejemplo: https://www.care.com/child-care/alabaster-al - Una vez que el programa genera la lista de todas las combinaciones de links posibles; cada uno de estos es pasado por la API de TimeTravel, la cual retorna una lista de todos los links históricos que han sido almacenados en archive.org
- Para cada uno de los links históricos, la información es extraída para luego generar su
.csv
respectivo.