Разработка частного словаря.
Очень нужна помощ знающих. Я с хешами и аски никак. Чет ниче не понял вообще.
Рассмотрим задачу составление частного словаря(то есть определения, сколько раз то или иное слово встречается в данном файле). Слова и текущие частоты помещаются в некоторую структуру данных (например, ассоциативный массив). Далее, при считывании очередного слова программа должна найти его в структуре данных и увеличить соответствующий ему счетчик. Даже в случае выбора очень эффективного представления, все равно придется производить поиск в том или ином виде. Можно ли ускорить работу программы?
Можно. Для этого существуют хеш таблицы. Для начала напишем(желательно быстро работающую) хеш-функцию, по некоторому правилу сопоставляющую строке Целое число в интервале от 0 до Н-1. Теперь представьте, что элементами массива размера Н являются списки строк: КАРТИНКО
Каждая строка, помещаемая в хеш-таблицу записывается в список, расположенный в массиве по индексу, равному ее хеш-коду.
Таким образом в идеале(если каждый список содержит лишь один элемент) придется лишь вычислить хеш код строки строки и обраститься к соответствующему элементу массива. В реальности может потребоваться поиск строки по списку.
Задание заключется в том, чтобы разобработать хорошую хеш-функцию для строк, состоящих из ACII- символов. Хеш-функция возвращает хеш-код в интервале от 0 до Н-1 ( для произвольно задаваемого Н). Затем функцию обязательно следует протестировать ( на реальных текстовых файлах) для разных значений Н и отразить результаты тестирования в отчете. Хеш-коды должны быть распределены равномерно ( если же один код выдается в десять раз чаще другого, это плохой знак)
|