No parece muy dificil,espero que no lo sea...
Para desarrollar un algoritmo desde cero que capture la imagen, trate los píxeles y los compare para evaluarlos según "X" criterios (en este caso identificar un botón de "Aceptar"), necesitas conocimientos intermedios de análisis de imagen, aparte de programación. Esto no es "hacer click y listo". Por ese motivo yo te sugiero recurrir a una librería especializada, una que haya sido desarrollada por profesionales en la materia que lleven años dedicándose al análisis/procesamiento de imagen (existen muchas librerías de ese estilo).
algun lenguaje que sea conveniente
Por orden de dificultad para un principiante, al menos en los lenguajes AutoHotkey, VB.NET o C# y en C++ tienes librerías gratuitas (de terceros) de reconocimiento y comparación y análisis de imagen en general. elige el lenguaje que prefieras, pero primero deberás aprender lo básico del lenguaje en cuestión. Yo te recomendaría VB.NET o C# (cualquiera de los dos, son "lo mismo" en esencia) ya que son con el que aprendí a hacerlo y existen multitud de formas distintas que puedes aprovechar. El único lenguaje de scripting que mencioné fue AutoHotkey, pero en otros como Ruby o Python también podrías llevarlo a cabo con la librería OpenCV por ejemplo. En realidad con practicamente cualquier lenguaje podrías...
Dicho esto, si no te apetece trabajar duro, entonces siempre puedes recurrir a un software de macros que disponga de esa característica que necesitas, como por ejemplo
JitBit Macro Recorder, en el cual es muy sencillo buscar una imagen en la pantalla y posicionar el ratón en unas coordenadas relativas a dicha imagen para hacer click o desencadenar otra acción distinta.
¡Saludos!