Вообще, если для очень быстроты, то надо переходить к WinAPI.
получаешь контекст, битмап, а дальше сам шуруешь по памяти на ассемблере. Тогда будет быстро. Сканлайн, естественно, достаточно медленная штука. Хотя, через него проще писать и для начала можешь реализовать через него, что бы отладить сам алгоритм.
|