Вообще, если для очень быстроты, то надо переходить к WinAPI. 
получаешь контекст, битмап, а дальше сам шуруешь по памяти на ассемблере. Тогда будет быстро. Сканлайн, естественно, достаточно медленная штука. Хотя, через него проще писать и для начала можешь реализовать через него, что бы отладить сам алгоритм. 
		
	
		
		
		
		
		
	
		
		
	
	
	 |