El Navegador Web tiene su propio reproductor de audio, video, imágenes, etc. Como ya puso Daniel, se puede hacer con HTML5 o con algún otro método.
De todas maneras PowerPoint hace lo mismo, él tiene su propio reproductor de audio, video, imágenes, etc. A parte lo que yo entendí es que quieres un archivo sólido (único) que en sí mismo contenga los recursos de audio, video, imágenes, etc, HTML5 no hace esto, sino que se llama al recurso que debe ubicarse en una localización para ser llamado y cargado, salvo lo codifiques como Base64, por ejemplo:
https://jsbin.com/zacuvikabu/edit?html,outputPara crear el Base64 a partir de un archivo de audio:
https://base64.online/encoders/encode-audio-to-base64