![]() |
|
|
Регистрация | << Правила форума >> | FAQ | Пользователи | Календарь | Поиск | Сообщения за сегодня | Все разделы прочитаны |
![]() |
|
Опции темы | Поиск в этой теме | Опции просмотра |
#1
|
|||
|
|||
![]() Очень нужна помощ знающих. Я с хешами и аски никак. Чет ниче не понял вообще.
Рассмотрим задачу составление частного словаря(то есть определения, сколько раз то или иное слово встречается в данном файле). Слова и текущие частоты помещаются в некоторую структуру данных (например, ассоциативный массив). Далее, при считывании очередного слова программа должна найти его в структуре данных и увеличить соответствующий ему счетчик. Даже в случае выбора очень эффективного представления, все равно придется производить поиск в том или ином виде. Можно ли ускорить работу программы? Можно. Для этого существуют хеш таблицы. Для начала напишем(желательно быстро работающую) хеш-функцию, по некоторому правилу сопоставляющую строке Целое число в интервале от 0 до Н-1. Теперь представьте, что элементами массива размера Н являются списки строк: КАРТИНКО Каждая строка, помещаемая в хеш-таблицу записывается в список, расположенный в массиве по индексу, равному ее хеш-коду. Таким образом в идеале(если каждый список содержит лишь один элемент) придется лишь вычислить хеш код строки строки и обраститься к соответствующему элементу массива. В реальности может потребоваться поиск строки по списку. Задание заключется в том, чтобы разобработать хорошую хеш-функцию для строк, состоящих из ACII- символов. Хеш-функция возвращает хеш-код в интервале от 0 до Н-1 ( для произвольно задаваемого Н). Затем функцию обязательно следует протестировать ( на реальных текстовых файлах) для разных значений Н и отразить результаты тестирования в отчете. Хеш-коды должны быть распределены равномерно ( если же один код выдается в десять раз чаще другого, это плохой знак) |
#2
|
||||
|
||||
![]() Во первых нужно решить нужны ли хеш функции в данном случае.
Так как их использование явно не увеличит скорость обработки данных, но увеличит безопасность. Хотя если вы не шифруете траффик аськи, то та безопасность ничего не даст, та и + история сохраняеться в аське. |
#3
|
|||
|
|||
![]() Нужно как нибудь сделать задачу. (но естественно не дворовым перебором) чтобы она счиатала каждое слово и сколько оно повторяется в тексте. Хеш функции это они из методов.
|
#4
|
||||
|
||||
![]() Если так, то посчитаем:
в языке более 120 тыс. слов. 32*32=1024; Теперь: 1. все буквы переводим в нижний регистр. 2.представляем первым(не обязательно, лучше 1-я+3-я) двум буквам каждого слова 2 цифры-индекса. 3. составляем 2 таблицы в которых будем хранить номер соответственно начала и конца диапазона в котором находиться искомое слово. Тем самым сужаем диапазон поиска. 4. Ищем в выделенном диапазоне стандартным поиском. (как правило это будет не очень большой диапазон.) 5.+ придеться решить некоторые мелкие проблеммы, которые возникнут ( например, если слово длиной 1-н символ и т.д.) |