Código
ZeroMemory: xor al, al ;valor a escribir (0) mov ecx, dword ptr [esp+8] ;cantidad de veces mov edi, dword ptr [esp+4] ;buffer rep stosb ret
El codigo de Arcangel_0x7C5 es mas rapido que el tuyo por trabajar con DWORDs y no con BYTEs. Puede que sea mas rapido que este tambien (depende de la cantidad de BYTEs a escribir) ... pero una combinacion de rep stosd y mov (para los bytes que sobren del ultimo DWORD que no sea completo) es lo que usa la RTL de VC++ normalmente.

