Я бы делал так. (для DirectX). В буфер вершин лучше лишний раз не лазить. Т.е. занести один раз координаты всех вершин стандартного кубика. Далее к объекту привязываем матрицу сдвига и заодно матрицу масштабирования, вот их и меняем в зависимости от мыши. И ещё определиться с порядком перемножения этих двух матриц. (Скорее всего, первая масштабирует, причём учитывает и относительные пропорции, и перевод мышиных координат в мм, а вторая выполняет сдвиг)
|