Es debido al algoritmo de compresión.
Si comprimo la palabra hola a números con un algoritmo hipotético que pase las letras a su orden alfabético y que añada una letra indicando las veces que se repite la secuencia:
h o l a
a 8 15 12 1
Hola pesa 4 bytes.
a815121 pesa 7 bytes (a indica que solo aparece 1 vez la secuencia)
Si en cambio la palabra es holahola
h o l a h o l a
b 8 15 12 1
holahola pesa 8 bytes.
b815121 pesa 7 bytes (b indica que aparece 2 veces la secuencia)
Esto significa, que aunque este algoritmo fuese la releche para comprimir imágenes, hay veces, que es peor usarlo que no usarlo y eso es probablemente lo que te sucede al convertir imágenes ya comprimidas en jpg a avif. Si pruebas con una imagen raw de cámara, una imagen mucho mas grande o simplemente pruebas con múltiples imágenes aleatorias, verás que en algunos casos avif es mejor y en otros lo es jpg/png. Depende de la data y los algoritmos.