Распознавание текста
Доброго времени суток, форумчане.
Задача следующая: Необходимо релизовать конечный автомат, который будет работать с текстом. Автомат разбирает текст на отдельные предложения и заносит их в базу. Затем уже в каждом предложении автомат должен выделить каждое слово и занести его в базу.
При этом всем если встречается сокращение вида "г."(либо (м/р ну и т.п.) то мы должны определить это слово как сокращение и занести в отдельную базу.
Хотелось бы услышать предложения по реализации подобного КА, т.е. алгоритмы выделения предложений, слов в них, принимая во внимание возможность наличия сокращений.
|