Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

переименования аффиксов #201

Closed
veramal opened this issue Apr 30, 2021 · 34 comments
Closed

переименования аффиксов #201

veramal opened this issue Apr 30, 2021 · 34 comments

Comments

@veramal
Copy link
Collaborator

veramal commented Apr 30, 2021

Нужно переименовать некоторые аффиксы - в документе, в парсере и таблице поиска.
Общие принципы:

  1. подстрочные символы оставляем только для цифр, маркирующих одноименные слоты (Pl₁ ЛАр, Add₂ ТАА и т.п.). В идеале обычные цифры используем только для обозначения лиц (1sg), но пока есть Dur1.
  2. при указании на конкретный диалект слово dial убираем
    Список будет пополняться, пока такой.
    Abl₂ тЫн > Abl.arch
    Abl₁ ДАң > Abl.dial
    Acc₁ НЫ, Acc₂ Н - в парсере это все Acc без доп.знаков, в таблице должно быть так же. Аналогично диалектные варианты Acc.dial₁ ТЫ, Acc.dial₂ Т
    All.dial САрЫ | СА, All.dial₁ (н)САрЫ, All.dial₂ (н)СА - надо разбить на 2 кучи All.dial САрЫ | (н)САрЫ и All.dial СА | (н)СА. Можно их назвать их All.dial1 и All.dial2, но только не подстрочными цифрами.
    Conv.pas.dial / Convпас А.бАс > Cv.kac Абас (без подстрочных и точки)
    Convₚ (Ы)п > Cv.п
    Conv.a А > Cv.a
    Pres2.dial.kac чадыр | чады > Pres2.kac
    Pres.dial.kyz тур | ту > Pres.kyz
    Pres.dial.sh чар > Pres.sh
    Dur₁.dial.kac Ат > Dur1.kac Ат (не подстрочная цифра)
    Dur₁.dial.sag ит > Dur₁.dial.sag ит (не подстрочная цифра)
    Dur1ᵢ и, Dur1ᵢᵣ ир > в идеале надо бы в парсере объединить в Dur1, в поиске оставить возможность искать по отдельности. Но т.к. объединены Iter АдЫ | АдЫр, Pres2 чАдЫр | чАдЫ, Fut Ар | А и др., пусть и Dur1 будет такой же.
@tuffnatty
Copy link
Owner

  1. подстрочные символы оставляем только для цифр, маркирующих одноименные слоты (Pl₁ ЛАр, Add₂ ТАА и т.п.). В идеале обычные цифры используем только для обозначения лиц (1sg), но пока есть Dur1.

Соответственно, NF₀ -> NF.0 ?

Abl₁ ДАң > Abl.dial

То есть обычного Abl не остается, только диалектный?

Convₚ (Ы)п > Cv.п
Conv.a А > Cv.a

Мне не очень нравится использование кириллицы в тегах. Технически работать пока что будет, но отчего-то не нравится.

Dur₁.dial.sag ит > Dur₁.dial.sag ит (не подстрочная цифра)

Наверное, Dur1.sag , без .dial?

tuffnatty added a commit that referenced this issue May 1, 2021
@tuffnatty
Copy link
Owner

Переименовал пока как есть

@veramal
Copy link
Collaborator Author

veramal commented May 2, 2021

С аблативом ошиблась - есть обычный ДАң, а есть диалектный нАң.
Dur1.sag без .dial, да.
Конвербы - ну пусть будет латиницей, Cv.p.
NF₀ -> NF0 тогда уж, без точки. Но лучше просто NF - объединить с вариантом Ып под одним тегом, как и и ир, допустим. Опять же, в поиске хорошо бы оставить 2 варианта, а в самом парсере один - если так можно.

@adybo
Copy link
Collaborator

adybo commented May 2, 2021 via email

@veramal
Copy link
Collaborator Author

veramal commented May 2, 2021 via email

@tuffnatty
Copy link
Owner

С аблативом ошиблась - есть обычный ДАң, а есть диалектный нАң.

Стало совсем непонятно. Есть обычный ДАң, поссессивный нАң, диалектный обычный нАң и диалектный посессивный нАң?

NF₀ -> NF0 тогда уж, без точки. Но лучше просто NF - объединить с вариантом Ып под одним тегом, как и и ир, допустим.

Это можно.

Опять же, в поиске хорошо бы оставить 2 варианта, а в самом парсере один - если так можно.

Это нельзя.

Как лучше?

@veramal
Copy link
Collaborator Author

veramal commented May 3, 2021 via email

@tuffnatty
Copy link
Owner

Нет, посессивный один.

ок

Лучше, конечно, как можно - как нельзя все равно нельзя.

Можно - оставить отдельно NF0 и NF и в парсере, и в поиске, либо объединить их и в парсере, и в поиске.

@veramal
Copy link
Collaborator Author

veramal commented May 7, 2021 via email

@veramal
Copy link
Collaborator Author

veramal commented May 7, 2021 via email

@veramal
Copy link
Collaborator Author

veramal commented May 7, 2021 via email

@veramal
Copy link
Collaborator Author

veramal commented May 7, 2021 via email

@adybo
Copy link
Collaborator

adybo commented May 8, 2021 via email

@veramal
Copy link
Collaborator Author

veramal commented Jun 1, 2021

Так, сейчас все вышесказанное сделано, кроме окончаний серии mix.
Из неудобных цифр остается проблема Perf0, Dur1 и Pres2. Возможно, стоит дать им всем один номер, поскольку в обоих случаях это вторая форма (вдобавок к дефолтной).
Есть также мысль точку, использующуюся некумулятивно, а следующее слово писать с большой буквы. Однако и сейчас различие есть: после кумулятивной точки слово пишется с большой буквы (Neg.Fut), а после некумулятивной - с маленькой (Distr.dial). Может, так и оставить?

@veramal
Copy link
Collaborator Author

veramal commented Jun 11, 2021

Решили выбрать для дополнительных форм цифру 1, некумулятивную точку убрать. Убрать цифру 3 из глосс частиц в конце словоформы, потому что это их дефолтное место (аналогично Pl вместо Pl2). И еще некоторые мелочи. Таким образом, надо переназвать следующее:
Perf0 -> Perf1
Pres2 -> Pres1
NF.Neg -> Neg.NF (это все же не склейка с отрицанием ПА, которое перед временем, а отдельная позиция для отрицания)
NF.Neg.sh -> Neg.NFSh
Dur1.sag -> Dur1Sag
Dur1.kac -> Dur1Kac
Dur.dial -> DurDial
Prosp.dial -> ProspDial
Distr.dial -> DistrDial
Pres.dial -> PresDial
PresPt.dial -> PresPtDial
Pres2.kac -> Pres1Kac
Pres.kyz -> PresKyz
Pres.sh -> PresSh
Cv.a -> CvA
Cv.p -> CvP
Cv.pas -> CvKac (потому что диалектная форма должна отсылать к диалекту, ср. Neg.NFSh)
Acc.dial -> AccDial
Dat.dial -> DatDial
Gen.dial -> GenDial
Instr.dial -> InstrDial
All.dial1 -> AllDial1
All.dial2 -> AllDial2
Delib.dial -> DelibDial
1pl.dial -> 1plDial
2pl.dial -> 2plDial
1sg.dial -> 1sgDial
Imp.1pl.dial -> Imp.1plDial
(про прочие императивные окончания еще думаем)
Ass₃ - > Ass

@veramal
Copy link
Collaborator Author

veramal commented Jun 11, 2021

И еще Abl.arch -> AblArch

tuffnatty added a commit that referenced this issue May 24, 2022
tuffnatty added a commit that referenced this issue May 24, 2022
@veramal
Copy link
Collaborator Author

veramal commented May 26, 2022

в таблице поиска нумерация слотов начинается с 0, а должна с 1 (т.к. 0 - это основа).

Это сейчас так и надо исправить.

И хорошо бы уменьшить количество личных окончаний: т.к. варианты mix совпадают либо с br, либо с full, лучше их убрать, а выбор варианта описать правилами (mix = 1sg.br + др.лица в полных формах). В реальности во многих формах первое лицо варьирует, поэтому получается лишняя омонимия (одно и то же слово типа парғазың получает 2 разбора, в одном из которых 2sg.mix, в другом - 2sg(.full)). Могу убрать из таблицы формы mix, если все согласны, что можно без них.

Это тоже уже пора. Зачеркнула в таблице окончания .mix.

(про прочие императивные окончания еще думаем)

Нашла в письмах такое предложение: Imp.1.Incl заменить на ImpIncl, Imp.1pl.Incl заменить на ImpIncl.Pl. Исправила в таблице.

Еще в некоторый момент переименовали Affirm в Vis (визибилитив), поправила название позиции 18 в таблице.

@veramal
Copy link
Collaborator Author

veramal commented May 26, 2022

Вернула вид (Ы)м (вместо м) показателю 1sg.br, т.к. если убрать серию mix, формы типа парарым 'уйду' анализироваться не будут.
Зачеркнула также 1sg.br ПЫс, поскольку он совпадает с 1sg ПЫс, а мы теперь хотим помечать краткую серию окончаний только в тех случаях, когда показатели отличаются от полной серии.

@tuffnatty
Copy link
Owner

Зачеркнула также 1sg.br ПЫс, поскольку он совпадает с 1sg ПЫс, а мы теперь хотим помечать краткую серию окончаний только в тех случаях, когда показатели отличаются от полной серии.

не sg, а pl?

@veramal
Copy link
Collaborator Author

veramal commented May 26, 2022 via email

@tuffnatty
Copy link
Owner

Нуждается в обновлении ограничение 20, перестали разбираться:
адибыс < ада+а+быс (Fut А+1pl)
азырихчатхам < азыра+ах+чат+ха+м (Past+1sg)
килчам < кил+0̸+ча+м (PresDial ча+1sg)
килчадым < кил+0̸+чады+м (Pres1Kac+1sg)
нанадырым < нан+адыр+ым (Gener(полн.)+1sg)
парам < пар+а+м (Fut А+1sg)
и др.

@veramal
Copy link
Collaborator Author

veramal commented May 26, 2022

В правиле 20 все верно написано: "Cмешанный набор форм (1sg.br + др.лица в полных формах) присоединяется к аффиксам: Pres чА ..." и т.д. Надо научить парсер склеивать парадигму из указанных форм.

@tuffnatty
Copy link
Owner

Не стал учить, просто переименовал 1sg.mix в 1sg.br, а остальные .mix - без .mix, а правила оставил старые.

tuffnatty added a commit that referenced this issue May 26, 2022
@veramal
Copy link
Collaborator Author

veramal commented May 26, 2022

По старым правилам часто выходило два разбора: через full (которые непомечены) и через mix. Если сейчас не будет по 2 одинаковых разбора выдаваться, то ладно.

@adybo
Copy link
Collaborator

adybo commented May 26, 2022 via email

@veramal
Copy link
Collaborator Author

veramal commented May 26, 2022 via email

@adybo
Copy link
Collaborator

adybo commented May 26, 2022 via email

@tuffnatty
Copy link
Owner

Можно закрывать?

@veramal
Copy link
Collaborator Author

veramal commented Oct 2, 2022 via email

@tuffnatty
Copy link
Owner

Поправил, дубли убрались

@veramal
Copy link
Collaborator Author

veramal commented Oct 3, 2022

Хорошо.

@veramal veramal closed this as completed Oct 3, 2022
@veramal
Copy link
Collaborator Author

veramal commented Oct 4, 2022

Убилось лишнее по дороге: 1pl.br ПЫс был ошибочно зачеркнут, в результате сейчас не разбираются полдыбыс и ползабыс. В документе исправила. Поправь в корпусе, пожалуйста.

@veramal veramal reopened this Oct 4, 2022
@veramal
Copy link
Collaborator Author

veramal commented Oct 11, 2022 via email

@veramal
Copy link
Collaborator Author

veramal commented Jan 26, 2025

Проблема с окончаниями 1pl перенесена в топик #224. Отслаьное вроде решилось

@veramal veramal closed this as completed Jan 26, 2025
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants