Автоматический синонимайзер. Его настоящее и будущее. Часть 2

Автоматический синонимайзер. Его настоящее и будущее. Часть 2

Опубликованно: 04.06.2008 | Написал: Алексей | Комментариев: 0
В Части 1 я выявил две причины не читаемости текстов, повторюсь:
1. Неосознанность при замене слов. Пример: окончание – син. завершение. Хорошо если это «окончание матча», а если «окончание слова»?
2. Великий и могучий русский язык, со своими словоформами. Род, падеж, число, окончания, суффиксы, корни и т.д.
Где выход и какие перспективы? Самое вкусное я оставил на десерт.
п.2 решению поддается, при должном владении программированием, можно научить комп менять окончания у слов (word делает это «на хорошо»). В большинстве случаев будет работать корректно. Но, что делать с п.1?
Моя идея. Пришла мне в голову, ничего подобного не встречал, но не исключено что не я первый додумался до этого. Если она не нова, пишите в комментарии.
Расстановка баллов. Возьмем любое предложение.
«На днях в книжные магазины Бразилии поступила книга писателя Фернандо Мораиса «Маг».»
Возьмем слово «поступила». Синонимы: устроилась, зачислилась, определилась, попала, приткнулась. Теперь расставим балы следующим образом, по близости позиции слов к слову «поступила».
«На днях (0.125) в книжные(0.25) магазины(0.5) Бразилии(1) поступила книга (1) писателя(0.5) Фернандо(0.25) Мораиса(0.125) «Маг(0.06)».»
Частота встречаемости.

Зачем мы это делали? Представьте себе огромную таблицу, из слов русского языка, на определенную тему:

По горизонтали и вертикали идут слова. На пересечении слов мы проставляем баллы. Если слово «поступила» встречается рядом с: днях, книжные, магазины и т.д., то скорее всего оно подходит по контексту. За это мы ставим баллы. В этом и вся соль. Мы определяем связь слов.
При обращении к базе синонимов мы получаем их список. Потом каждое слово из списка проверяется по таблице встречаемости, со словами из предложения. Что мы имеем в результате, в идеале?
Устроилась 0
Зачислилась 1
Определилась 0
Попала 5.3 (может быть любое число)
Приткнулась 0

Подставляем слово «попала», и кричим «ура!».
Тут все дело упирается в подбор исходного материала, статейной базы. Надо научить комп, чтобы заполнить базу. Зато в будущем, можно использовать и пополнять ее.
Как вариант такой базы, XML запросы для поисковиков, у яндекса есть такая возможность. Можете посмотреть XML-игры. Они работают по схожему принципу. Вводите название предмета, а в результате получаете его свойство, например цвет. Опять же все основано на частоте встречаемости двух слов в контексте. Минус этого варианта в его «муссорности» и отсутствии единой тематики.
Старался объяснить, как можно доходчивее. Интересно услышать ваше мнение. Что вы скажете по данному методу? Стоит ли браться за реализацию?
Автор: Дробенков Алексей

К сожалению комментарии отключены.


0461c373

Буду рад пообщаться посредством почты. Спасибо.