Допустим, у вас 8 ядер. Тогда сколько потоков не создавай, параллельно больше 8 не будет работать. А вот запустить на графическом процессоре (допустим, библиотека CUDA) можно намного больше параллельных потоков. Правда, т.к. центральный процессор быстрее, то выигрыш ощущается только на больших объёмах данных (при этом, естественно, теряется время на перекачку данных CPU <-> GPU)
|