En cuanto a sus implementaciones, su arquitectura básica la puedes ver mejor en Wikipedia

Si te refieres al proceso concreto de convertir una cámara y unos puntos en el espacio (entre otros) a su representación en 2D, pues bueno, son poco más que ecuaciones trigonométricas y matriciales. Si hablamos de cosas sencillas, es poco más que eso; si hablamos de todas sus capacidades (iluminación, texturas...), pues cabe decir que no es algo sencillo del todo. La verdad es que en este aspecto vas a encontrar más información en Google de la que se te va a poder escribir por aquí.
Bueno, es una pregunta muy genérica, así que si quieres tratar algún tema más concreto, puedes comentarlo :p