Software de extracción de datos para proyecto FONDECYT

From automation to home production via the gig economy: a novel gender-based análisis

Software dedicado a la extracción de millones de datos históricos almacenados en Wayback Machine, sobre los trabajos solicitados y realizados en Estados Unidos durante la pandemia por medio del sitio web care.com.

Instrucciones

Clonar el repositorio.
Copiar el archivo .env.example y pegarlo en la carpeta raiz con el nombre .env.
Añadir el tipo de dato a extraer (offer o job) al lado del texto DATA_TYPES_EXTRACTION=. Ejemplo: DATA_TYPES_EXTRACTION=offer
El repositorio está desarrollado para ser ejecutado en la versión lts/gallium de NodeJs, por lo que no se asegura una óptima ejecución en otras versiones.
En caso de querer utilizar la versión específica de NodeJs con la que el software fue desarrollado, se recomienda seguir los siguientes pasos:
1. Instalar nvm
2. Ejecutar el comando nvm install
3. Ejecutar el comando nvm use

Ejecución

npm ci
npm run start

output: ./dist/src/output

Configuración

En caso de añadir y/o eliminar ofertas de trabajo o solicitudes de trabajo, se debe editar el .txt respectivo (job.txt u offer.txt) que se encuentra dentro del directorio ./src/public.
En caso de añadir y/o eliminar las áreas de extracción, se debe editar el fichero local_area.txt que se encuentra dentro del directorio ./src/public.

Funcionamiento

El software utiliza los archivos *.txt almacenados en el directorio ./src/public para generar todas las posibles combinaciones de links. La estructura del link es la siguiente: https://www.care.com/<offer o job>/<area>. Ejemplo: https://www.care.com/child-care/alabaster-al
Una vez que el programa genera la lista de todas las combinaciones de links posibles; cada uno de estos es pasado por la API de TimeTravel, la cual retorna una lista de todos los links históricos que han sido almacenados en archive.org
Para cada uno de los links históricos, la información es extraída para luego generar su .csv respectivo.

Name		Name	Last commit message	Last commit date
Latest commit History 232 Commits
src		src
.env.example		.env.example
.eslintrc.json		.eslintrc.json
.gitignore		.gitignore
.nvmrc		.nvmrc
.prettierrc.json		.prettierrc.json
LICENSE		LICENSE
README.md		README.md
package-lock.json		package-lock.json
package.json		package.json
tsconfig.json		tsconfig.json

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Software de extracción de datos para proyecto FONDECYT

From automation to home production via the gig economy: a novel gender-based análisis

Instrucciones

Ejecución

Configuración

Funcionamiento

About

Releases 3

Packages

Languages

License

etejedaw/caredotcom-fondecyt-node

Folders and files

Latest commit

History

Repository files navigation

Software de extracción de datos para proyecto FONDECYT

From automation to home production via the gig economy: a novel gender-based análisis

Instrucciones

Ejecución

Configuración

Funcionamiento

About

Topics

Resources

License

Stars

Watchers

Forks

Releases 3

Packages 0

Languages

Packages