Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

fix FACT2020 task2_ready.xml id assignations #1

Open
wants to merge 1 commit into
base: master
Choose a base branch
from

Conversation

filevich
Copy link
Member

Introducción

Me encontraba adaptando el archivo FACT2020test_task2_ready.xml para mis experimentos cuando (después de unas cuantas horas) me di cuenta de que algo no estaba bien.

En esencia, estaban mal asignados las "ids" 631, 714, 2173, 2175 y 2183.

Paso a explicar caso por caso.

Casos

Caso 613:

Originalmente se encuentra así:

ese/630 /631 comportamiento,/632 no/633 sé/634

Notar que la "asignación" /631 está hecha para ninguna palabra (cuando este valor de hecho aparece en el archivo task2_ready.csv).

Si nos fijamos en el archivo test_task2.xml vemos que la palabra original a la que se refería era comportamiento.

Este caso lo arreglé fácilmente, como sigue:

ese/630 comportamiento/631 ,/632 no/633 sé/634

Es decir, se asigna correctamente el id 631 y además se agrega un espacio entre comportamiento y , de forma consistente con el patrón de todo el archivo.

Caso 714:

Originalmente se encuentra así:

a/712 ese/713 /714 comportamiento/715 ,/716 no/717

Notar como la asignación 714 está vacía; cuando en el .csv aparece como una palabra correcta.

Si nos fijamos en el archivo test_task2.xml vemos que la palabra original a la que se refería era (también) comportamiento.

Este caso se arregla reasignando el "id" /714 a la palabra comportamiento. Con esto logramos consistencia con el archivo .csv. El problema es que perdemos la "continuidad" de las asignaciones (i.e., salta del 714 al 716). Si queremos mantener la propiedad de "continuidad" entonces necesariamente tenemos que editar todas las ids que le siguen a 714. El problema es que todavía hay más errores sin arreglar...

Caso 2173 y 2175:

Originalmente se encuentra así:

demanda,/2173 por/2174 ataque,/2175 contra/2176

Notar que hay dos ids asignadas a una palabra y a una coma (en conjunto), rompiendo así el patrón de todo el archivo. (Hecho que me implicó unas cuantas horas de debugging...)

Si nos fijamos en el archivo test_task2.xml vemos que las palabras originales a la que se refería eran demanda y ataque.

Entonces:

  • a demanda le asignamos el id 2173 para que sea consistente tanto con el xml como con el csv
  • a ataque similar pero con el id 2175

Ahora, para la coma (,) que sigue a demanda tenemos dos opciones:

  • si le asignamos el id 2174 para que quede "continuo", entonces tenemos que editar todos los ids que vienen después porque ese id ya está en uso (y consecuentemente editar todo el archivo .csv)
  • la otra opción es asginarle el id 2348 (que es el primer id en desuso; ya que el último id es 2347)

Similar para ataque, (se asigna 2175, y un nuevo id para la , que le sigue)

Caso 2183:

Finalmente, para el último caso (2183) vista,/2183 se repite la misma heurística.

Conclusiones

Con estos cambios:

  1. Los ids reportados por el archivo task2_ready.csv (i.e., la "tabla de verdad") son consistentes con los archivos task2_ready.xml y task2.xml (y todo esto sin haber editado la tabla de verdad, el task2_ready.csv)
  2. El patrón de asignación para palabras y comas es ahora consistente en todo el archivo

El "problema" es que ahora las ids asignadas no son continuas. Queda propuesto como "trabajo futuro"; o lo puden agregar a este merge. (Reasignar las ids implicaría volver a generar un archivo task2_ready.csv corregido).

@filevich
Copy link
Member Author

Dejo adjunto este zip con una nueva versión corregida (i.e., con los ids corregidos y continuos) de los archivos FACT2020test_task2_ready.csv y FACT2020test_task2_ready.xml.

En caso de que los cambios del merge sean aceptados, podría hacer otro pull requests con los archivos de este zip y así lanzar una nueva "versión corregida" de la task2. (Notar que, a diferencia de los cambios del merge, en el zip sí se cambia la tabla de verdad task2_ready.csv; por eso no los incluyo directamente todo en este mismo pull req.).

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

Successfully merging this pull request may close these issues.

1 participant