Foro de elhacker.net

Programación => Programación General => Mensaje iniciado por: Tachikomaia en 30 Noviembre 2023, 11:27 am



Título: ¿Es muy difícil hacer un buscador estilo Google?
Publicado por: Tachikomaia en 30 Noviembre 2023, 11:27 am
Me resulta molesto que si pongo descargar X me aparezcan páginas en que no se puede descargar (quizá no veo la opción, pero es mala señal porque en otras se ve clarito) o que si pongo hacer X Word 2013 me aparezcan cosas de ahora que no me sirven. Si pongo las palabras clave entre comillas se soluciona, pero no debería ser necesario: Los 1eros resultados deberían ser los más acordes a las palabras puestas, no los que más fama tienen según no sé quién, y las páginas que mienten sobre lo que se puede hacer en ellas deberían bajar en los resultados.

También, existía un complemento que bloqueaba páginas indeseadas, no aparecían en la lista de resultados, pero dejó de funcionar y me aburrí de buscar algo similar. Sería bueno que al usar el buscador este mirara una lista de páginas en un archivo, indicadas por el usuario, para no ponerlas en los resultados. Es mas, ojalá uno pudiera dar un dislike y que en el futuro esa página se muestre más abajo, por ejemplo cuando busco algo XXX no es que tenga toooda la paciencia del mundo como para andar haciendo scroll para encontrar páginas nuevas, y me suelen aparecer como 3 resultados de las mismas, así que suelo mirar siempre las mismas, no porque sean mejores sino porque aparecen 1ero no se sabe por qué.

Supongo que debe ser muy difícil, yo no estoy como para ponerme a hacer algo así, pero ya que me pasa lo que comenté, quisiera info, por curiosidad.


Título: Re: ¿Es muy difícil hacer un buscador estilo Google?
Publicado por: D3s0rd3n en 30 Noviembre 2023, 22:05 pm
Respuesta corta: programarlo es fácil lo difícil está en la logica y administración.

En si Google es una spider o también se le conoce como crawler. Lo que hace es meterse a todas las páginas que encuentra y guardar su contenido en su cache cosa que no es muy compleja y de hecho hay muchas spiders ya hechas en prácticamente todos los lenguajes que se te puedan ocurrir.

Yo me di la tarea de hacer un buscador para el protocolo géminis y me arrepentí. Tienes que tomar en cuenta que el contenido en línea es muy dinámico y para que sea efectivo tu buscador se tiene que estar actualizando constantemente. Y aquí o lo tienes 24/7 actualizando su cache (y dependiendo de tu ancho de banda ni eso es suficiente) o esperar a que recorra todo cada vez que lo uses. Y el problema también es que mucho contenido cambia de nombre o de lugar pero si tú cache no está actualizado se te llena de links rotos rápidamente. Aparte de tener que lidiar con la semantica por qué no siempre el contenido va a contener textualmente tu búsqueda.

En fin el gran problema de Google es que es muy avaricioso y muchas páginas pagan por aparecer en los primeros resultados. Aparte la mayoría de la páginas fraudulentas se optimizan para Google. Por eso yo prefiero los buscadores alternativos como duckduckgo más que nada.