fix FACT2020 task2_ready.xml id assignations #1
Add this suggestion to a batch that can be applied as a single commit.
This suggestion is invalid because no changes were made to the code.
Suggestions cannot be applied while the pull request is closed.
Suggestions cannot be applied while viewing a subset of changes.
Only one suggestion per line can be applied in a batch.
Add this suggestion to a batch that can be applied as a single commit.
Applying suggestions on deleted lines is not supported.
You must change the existing code in this line in order to create a valid suggestion.
Outdated suggestions cannot be applied.
This suggestion has been applied or marked resolved.
Suggestions cannot be applied from pending reviews.
Suggestions cannot be applied on multi-line comments.
Suggestions cannot be applied while the pull request is queued to merge.
Suggestion cannot be applied right now. Please check back later.
Introducción
Me encontraba adaptando el archivo
FACT2020test_task2_ready.xml
para mis experimentos cuando (después de unas cuantas horas) me di cuenta de que algo no estaba bien.En esencia, estaban mal asignados las "ids" 631, 714, 2173, 2175 y 2183.
Paso a explicar caso por caso.
Casos
Caso 613:
Originalmente se encuentra así:
ese/630 /631 comportamiento,/632 no/633 sé/634
Notar que la "asignación"
/631
está hecha para ninguna palabra (cuando este valor de hecho aparece en el archivotask2_ready.csv
).Si nos fijamos en el archivo
test_task2.xml
vemos que la palabra original a la que se refería eracomportamiento
.Este caso lo arreglé fácilmente, como sigue:
ese/630 comportamiento/631 ,/632 no/633 sé/634
Es decir, se asigna correctamente el id 631 y además se agrega un espacio entre
comportamiento
y,
de forma consistente con el patrón de todo el archivo.Caso 714:
Originalmente se encuentra así:
a/712 ese/713 /714 comportamiento/715 ,/716 no/717
Notar como la asignación 714 está vacía; cuando en el
.csv
aparece como una palabra correcta.Si nos fijamos en el archivo
test_task2.xml
vemos que la palabra original a la que se refería era (también)comportamiento
.Este caso se arregla reasignando el "id"
/714
a la palabracomportamiento
. Con esto logramos consistencia con el archivo.csv
. El problema es que perdemos la "continuidad" de las asignaciones (i.e., salta del 714 al 716). Si queremos mantener la propiedad de "continuidad" entonces necesariamente tenemos que editar todas las ids que le siguen a 714. El problema es que todavía hay más errores sin arreglar...Caso 2173 y 2175:
Originalmente se encuentra así:
demanda,/2173 por/2174 ataque,/2175 contra/2176
Notar que hay dos ids asignadas a una palabra y a una coma (en conjunto), rompiendo así el patrón de todo el archivo. (Hecho que me implicó unas cuantas horas de debugging...)
Si nos fijamos en el archivo
test_task2.xml
vemos que las palabras originales a la que se refería erandemanda
yataque
.Entonces:
demanda
le asignamos el id 2173 para que sea consistente tanto con el xml como con el csvataque
similar pero con el id 2175Ahora, para la coma (
,
) que sigue ademanda
tenemos dos opciones:2174
para que quede "continuo", entonces tenemos que editar todos los ids que vienen después porque ese id ya está en uso (y consecuentemente editar todo el archivo .csv)2348
(que es el primer id en desuso; ya que el último id es 2347)Similar para
ataque,
(se asigna 2175, y un nuevo id para la,
que le sigue)Caso 2183:
Finalmente, para el último caso (2183)
vista,/2183
se repite la misma heurística.Conclusiones
Con estos cambios:
task2_ready.csv
(i.e., la "tabla de verdad") son consistentes con los archivostask2_ready.xml
ytask2.xml
(y todo esto sin haber editado la tabla de verdad, eltask2_ready.csv
)El "problema" es que ahora las ids asignadas no son continuas. Queda propuesto como "trabajo futuro"; o lo puden agregar a este merge. (Reasignar las ids implicaría volver a generar un archivo
task2_ready.csv
corregido).