Форум по Delphi программированию - Показать сообщение отдельно - Определить лексическое слово в русском предложение по контексту

ziro · #2 09.12.2009, 15:27

Для начала берём следующие соображения:
1. Смысл слова должен быть определён в текущем предложении. Т. е., например, смысл слова "коса":
Имеем: "Длинная коса" - смысл 1: коса, как вид прически. Смысл 2: коса как вид отмели на реках или других водоёмах.
Т. е. здесь смысл следует искать в других предложениях, которые расположены где-то рядом с текущим. Будем считать такие случаи пока вне рассмотрения.
2. Смысл слова в предложении зависит от слов, расположенных рядом в этом же предложении. Здесь можно применить статистический подход. Т. е. берём текст какой-то небольшой книги и запускаем поиск предложений, в которых упоминается слово "Коса". Затем для каждого найденного предложения выписываем значения слова "Коса". Затем вычисляем "весовые" коэффициенты относительно каждого отдельного смысла для каждого из слов, которые встречаются рядом со словом "Коса".
Затем когда мы будем анализировать какое-то предложение со словом "Коса" мы выберем из этого предложения все остальные слова и проведём сравнение весов каждого из них для каждого из смыслов - тот смысл для которого суммарно получится наибольший вес - этот смысл и будет выбран для слова "коса" в данном предложении.
Таким образом нам надо разработать модель данных словаря. Такой словарь о каждом из слов будет содержать такие данные:
1. Набор различных форм слова: "Коса", "Косы", "Косой", "Косами" ...
2. Набор "смежных" слов, которые статистически часто встречаются рядом со словом "Коса".
3. Для каждого смежного слова должен быть готовый весовой коэффициент. Возмжоно даже для отдельного смежного слова будут введены отдельные весовые коэффициенты для каждой отдельной формы исходного слова: "Коса", "Косы" и пр...
4. Можно усложнить модель и добавить перекрёстные статистические связи (корреляции) не только между основным словом и смежными, но и между самими смежными словами.