Суть проекта заключается в Extractive Summarization, был использован алгоритм TextRank, LexRank и контекстные эмбединги по предложению (sentence_transformers). Основной ноутбук
Я использовал новостные данные и скачал их по этой ссылке:
Исходное summary - это вариант от автора.
TextRank summary или LextRank summary - это мой вариант.
Исходное summary:
московская погода придет в себя, отставит истерику в виде аномальных ливней или резкого похолодания и вернется к климатической норме. последние выходные весны будут вообще больше напоминать разгар июля. правда, после этого наступит краткий период «летней печальки»: немного похолодает и пройдут кратковременные дожди.
TextRank summary:
температура воздуха ночью +11…+16°с, днем +22…+27°с. ветер восточный, 3–8 м/с. атмосферный фон по-прежнему повышенный — 749 мм рт. ст. во вторник, 31 мая, москва окажется на границе взаимодействия антициклона на северо-востоке и циклона на западе. температура воздуха начнет повышаться, а вероятность дождей заметно понизится, и, как осторожно предполагают синоптики, в этот день осадков не будет вовсе. температура воздуха ночью +8…+13°с, днем +18…+23°с. давление продолжает стремительно падать и в этот день составит 736 мм рт. ст. в воскресенье, 5 июня, атмосферное давление немного подрастет — до 739 мм рт. ст. из-за этого в облачных полях появится больше прояснений, но без коротких локальных дождей все же не обойдется.
LextRank summary:
Температура воздуха ночью +8…+13°С, днем +18…+23°С. Давление продолжает стремительно падать и в этот день составит 736 мм рт. ст. В воскресенье, 5 июня, атмосферное давление немного подрастет — до 739 мм рт. ст. Из-за этого в облачных полях появится больше прояснений, но без коротких локальных дождей все же не обойдется. Температура воздуха начнет повышаться, а вероятность дождей заметно понизится, и, как осторожно предполагают синоптики, в этот день осадков не будет вовсе. Антициклон будет отвечать за высокое — 750 мм рт. ст. — давление, а циклон благодаря «приспешникам» — облачным полям — за пасмурную погоду и ограниченный прогрев воздуха.
Полный текст можете посмотреть в файле text.txt
Сравнение на первых 100 предложениях. Данное сравнение было реализовано в ноутбуке FindBestModel.ipynb
Модель | median BLUE | Time |
---|---|---|
USE | 0.29 | 6:28 |
XLM-R | 0.27 | 11:29 |
DistilBERT | 0.25 | 6:10 |
Модель | median BLUE | Time |
---|---|---|
USE | 0.28 | 6:36 |
XLM-R | 0.27 | 11:09 |
DistilBERT | 0.26 | 6:35 |
- Я использую перебор всех предложений, это кажется избыточным вариантом.
- В summary могут появиться предложения, которые ссылаются на те предложения, которые в summary не попали.
- Сложность оценивания модели: иногда summary не совпадает с исходным, но все равно хорошо описывает идею текста.
- Попробовать другие контекстные эмбединги.
- Попробовать другие методы extractive summarization.
- Протестировать T5 для Abstractive summarization
- Сравнить результаты
- Уйти от перебора всех предложений.