Не думаю, что получится сильно оптимизировать, т.к. там и так алгоритмически все нормально. Можно попробовать разбить задачу на несколько потоков, отсортировав файл образца и прверку выносить в поток, который работает только с кусочком. Только может оказаться, что подготовка к этому и синххронизация сожрут весь выигрыш.
|