fix FACT2020 task2_ready.xml id assignations #1

filevich · 2023-09-11T02:20:40Z

Introducción

Me encontraba adaptando el archivo FACT2020test_task2_ready.xml para mis experimentos cuando (después de unas cuantas horas) me di cuenta de que algo no estaba bien.

En esencia, estaban mal asignados las "ids" 631, 714, 2173, 2175 y 2183.

Paso a explicar caso por caso.

Casos

Caso 613:

Originalmente se encuentra así:

ese/630 /631 comportamiento,/632 no/633 sé/634

Notar que la "asignación" /631 está hecha para ninguna palabra (cuando este valor de hecho aparece en el archivo task2_ready.csv).

Si nos fijamos en el archivo test_task2.xml vemos que la palabra original a la que se refería era comportamiento.

Este caso lo arreglé fácilmente, como sigue:

ese/630 comportamiento/631 ,/632 no/633 sé/634

Es decir, se asigna correctamente el id 631 y además se agrega un espacio entre comportamiento y , de forma consistente con el patrón de todo el archivo.

Caso 714:

Originalmente se encuentra así:

a/712 ese/713 /714 comportamiento/715 ,/716 no/717

Notar como la asignación 714 está vacía; cuando en el .csv aparece como una palabra correcta.

Si nos fijamos en el archivo test_task2.xml vemos que la palabra original a la que se refería era (también) comportamiento.

Este caso se arregla reasignando el "id" /714 a la palabra comportamiento. Con esto logramos consistencia con el archivo .csv. El problema es que perdemos la "continuidad" de las asignaciones (i.e., salta del 714 al 716). Si queremos mantener la propiedad de "continuidad" entonces necesariamente tenemos que editar todas las ids que le siguen a 714. El problema es que todavía hay más errores sin arreglar...

Caso 2173 y 2175:

Originalmente se encuentra así:

demanda,/2173 por/2174 ataque,/2175 contra/2176

Notar que hay dos ids asignadas a una palabra y a una coma (en conjunto), rompiendo así el patrón de todo el archivo. (Hecho que me implicó unas cuantas horas de debugging...)

Si nos fijamos en el archivo test_task2.xml vemos que las palabras originales a la que se refería eran demanda y ataque.

Entonces:

a demanda le asignamos el id 2173 para que sea consistente tanto con el xml como con el csv
a ataque similar pero con el id 2175

Ahora, para la coma (,) que sigue a demanda tenemos dos opciones:

si le asignamos el id 2174 para que quede "continuo", entonces tenemos que editar todos los ids que vienen después porque ese id ya está en uso (y consecuentemente editar todo el archivo .csv)
la otra opción es asginarle el id 2348 (que es el primer id en desuso; ya que el último id es 2347)

Similar para ataque, (se asigna 2175, y un nuevo id para la , que le sigue)

Caso 2183:

Finalmente, para el último caso (2183) vista,/2183 se repite la misma heurística.

Conclusiones

Con estos cambios:

Los ids reportados por el archivo task2_ready.csv (i.e., la "tabla de verdad") son consistentes con los archivos task2_ready.xml y task2.xml (y todo esto sin haber editado la tabla de verdad, el task2_ready.csv)
El patrón de asignación para palabras y comas es ahora consistente en todo el archivo

El "problema" es que ahora las ids asignadas no son continuas. Queda propuesto como "trabajo futuro"; o lo puden agregar a este merge. (Reasignar las ids implicaría volver a generar un archivo task2_ready.csv corregido).

filevich · 2023-09-13T19:23:10Z

Dejo adjunto este zip con una nueva versión corregida (i.e., con los ids corregidos y continuos) de los archivos FACT2020test_task2_ready.csv y FACT2020test_task2_ready.xml.

En caso de que los cambios del merge sean aceptados, podría hacer otro pull requests con los archivos de este zip y así lanzar una nueva "versión corregida" de la task2. (Notar que, a diferencia de los cambios del merge, en el zip sí se cambia la tabla de verdad task2_ready.csv; por eso no los incluyo directamente todo en este mismo pull req.).

fix id assignations

94c37c9

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

fix FACT2020 task2_ready.xml id assignations #1

fix FACT2020 task2_ready.xml id assignations #1

filevich commented Sep 11, 2023

filevich commented Sep 13, 2023

fix FACT2020 task2_ready.xml id assignations #1

Are you sure you want to change the base?

fix FACT2020 task2_ready.xml id assignations #1

Conversation

filevich commented Sep 11, 2023

Introducción

Casos

Caso 613:

Caso 714:

Caso 2173 y 2175:

Caso 2183:

Conclusiones

filevich commented Sep 13, 2023