| 
	
		|  Autor | Tema: Robots, arañas de buscadores  (Leído 17,477 veces) |  
	| 
			| 
					
						| Azielito 
								no es 
								Colaborador
								      Desconectado 
								Mensajes: 9.188
								
								 
								>.<
								
								
								
								
								
								     | 
 
 
 |  
						| 
								|  |  
								| « Última modificación: 11 Septiembre 2004, 05:15 am por .o_0 Azielito 0_o. » |  En línea | 
 
 |  |  |  | 
			| 
					
						| Azielito 
								no es 
								Colaborador
								      Desconectado 
								Mensajes: 9.188
								
								 
								>.<
								
								
								
								
								
								     | 
								|  | robots.txt « Respuesta #1 en: 11 Septiembre 2004, 04:03 am » |  | 
 
 
ROBOTS.TXT Es un archivo de texto que se debe de poner en el directorio raiz de tu página web, en este se espesifica que directorios no quieres que indexen los buscadores (no solo google) tu página. Lo primero que hacen los robots cuando "llegan" a una web es buscar este archivo (robots.txt), en caso de no existir este archivo indexta toda la pagina. La forma de utilizarlo es simple, tenemos dos riectivas que son las siguientes: # El nombre del robotUser-agent: googlebot
 # El directorio en cuestion
 Disallow: /imagenes/
Tenemos el comodin asterisco (*) que es para decirle que vale para todos los buscadores, por ejemplo # Especificamos que es para todos los robotsUser-agent: *
 # El directorio en cuestion
 Disallow: /imagenes/
Para verificar si esta bien niestro archivo, tenemos esta herramienta:http://www.searchengineworld.com/cgi-bin/robotcheck.cgiEn esta web encontraras un tutorial sobre robotx.txt 
 
 |  
						| 
								|  |  
								| « Última modificación: 11 Septiembre 2004, 04:27 am por .o_0 Azielito 0_o. » |  En línea | 
 
 |  |  |  | 
			| 
					
						| Azielito 
								no es 
								Colaborador
								      Desconectado 
								Mensajes: 9.188
								
								 
								>.<
								
								
								
								
								
								     | 
 
Robots Meta Tags Otra forma de evitar que nos indexe es usando los "Meta Tags", cabe destacar que estos deben de estar incrustados dentro de los tags "<head>" y "</head>". Un ejemplo practico sobre esto es el siguiente <html><head>
 <META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">
 <title>Titulo</title>
 </head>
 <body>
 cuerpo de nuestro documento
 </body>
 </html>
De esta forma no indexara el archivo en cuestion   Opciones Tenemos cuatro directivas que podemos usar en los Meta tags, en "CONTENT" podemos usar:index,noindex,follow,nofollow  Separado por comas. Ahora, podemos conbinarlos... La directiva INDEX le dice al robot que va a incluir el indice. La directiva FOLLOW sirve para especificar que se indexaran los vinculos relacionados en la página. Hay también, dos directivas globales que pueden especificar ambas acciones: ALL=INDEX, FOLLOW, Y NONE=NOINDEX, NOFOLLOW. Ejemplo: <META NAME="ROBOTS" CONTENT="INDEX,FOLLOW"><META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW">
 <META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW">
 <META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">
 |  
						| 
								|  |  
								|  |  En línea | 
 
 |  |  |  | 
			| 
					
						| Azielito 
								no es 
								Colaborador
								      Desconectado 
								Mensajes: 9.188
								
								 
								>.<
								
								
								
								
								
								     | 
								|  | Ejemplos « Respuesta #3 en: 11 Septiembre 2004, 04:36 am » |  | 
 
 
Todos los robots van al dominioPara que no indexen nadaPara evitar que se indexen los directorios "imagenes" y "cgi-bin"Para evitar lo de los robots registrados hasta ahoraUser-agent: *Disallow: /cgi-bin/
 Disallow: /images/
User-agent: Mozilla/3.0 (compatible;miner;mailto:miner@miner.com.br)Disallow:
 
 User-agent: WebFerret
 Disallow:
 
 User-agent: Due to a deficiency in Java it's not currently possible
 to set the User-agent.
 Disallow:
 
 User-agent: no
 Disallow:
 
 User-agent: 'Ahoy! The Homepage Finder'
 Disallow:
 
 User-agent: Arachnophilia
 Disallow:
 
 User-agent: ArchitextSpider
 Disallow:
 
 User-agent: ASpider/0.09
 Disallow:
 
 User-agent: AURESYS/1.0
 Disallow:
 
 User-agent: BackRub/*.*
 Disallow:
 
 User-agent: Big Brother
 Disallow:
 
 User-agent: BlackWidow
 Disallow:
 
 User-agent: BSpider/1.0 libwww-perl/0.40
 Disallow:
 
 User-agent: CACTVS Chemistry Spider
 Disallow:
 
 User-agent: Digimarc CGIReader/1.0
 Disallow:
 
 User-agent: Checkbot/x.xx LWP/5.x
 Disallow:
 
 User-agent: CMC/0.01
 Disallow:
 
 User-agent: combine/0.0
 Disallow:
 
 User-agent: conceptbot/0.3
 Disallow:
 
 User-agent: Crescent Internet ToolPak HTTP OLE Control v.1.0
 Disallow:
 
 User-agent: root/0.1
 Disallow:
 
 User-agent: CS-HKUST-IndexServer/1.0
 Disallow:
 
 User-agent: CyberSpyder/2.1
 Disallow:
 
 User-agent: Deweb/1.01
 Disallow:
 
 User-agent: DragonBot/1.0 libwww/5.0
 Disallow:
 
 User-agent: EIT-Link-Verifier-Robot/0.2
 Disallow:
 
 User-agent: Emacs-w3/v[0-9\.]+
 Disallow:
 
 User-agent: EmailSiphon
 Disallow:
 
 User-agent: EMC Spider
 Disallow:
 
 User-agent: explorersearch
 Disallow:
 
 User-agent: Explorer
 Disallow:
 
 User-agent: ExtractorPro
 Disallow:
 
 User-agent: FelixIDE/1.0
 Disallow:
 
 User-agent: Hazel's Ferret Web hopper,
 Disallow:
 
 User-agent: ESIRover v1.0
 Disallow:
 
 User-agent: fido/0.9 Harvest/1.4.pl2
 Disallow:
 
 User-agent: Hämähäkki/0.2
 Disallow:
 
 User-agent: KIT-Fireball/2.0 libwww/5.0a
 Disallow:
 
 User-agent: Fish-Search-Robot
 Disallow:
 
 User-agent: Mozilla/2.0 (compatible fouineur v2.0;
 fouineur.9bit.qc.ca)
 Disallow:
 
 User-agent: Robot du CRIM 1.0a
 Disallow:
 
 User-agent: Freecrawl
 Disallow:
 
 User-agent: FunnelWeb-1.0
 Disallow:
 
 User-agent: gcreep/1.0
 Disallow:
 
 User-agent: ???
 Disallow:
 
 User-agent: GetURL.rexx v1.05
 Disallow:
 
 User-agent: Golem/1.1
 Disallow:
 
 User-agent: Gromit/1.0
 Disallow:
 
 User-agent: Gulliver/1.1
 Disallow:
 
 User-agent: yes
 Disallow:
 
 User-agent: AITCSRobot/1.1
 Disallow:
 
 User-agent: wired-digital-newsbot/1.5
 Disallow:
 
 User-agent: htdig/3.0b3
 Disallow:
 
 User-agent: HTMLgobble v2.2
 Disallow:
 
 User-agent: no
 Disallow:
 
 User-agent: IBM_Planetwide,
 Disallow:
 
 User-agent: gestaltIconoclast/1.0 libwww-FM/2.17
 Disallow:
 
 User-agent: INGRID/0.1
 Disallow:
 
 User-agent: IncyWincy/1.0b1
 Disallow:
 
 User-agent: Informant
 Disallow:
 
 User-agent: InfoSeek Robot 1.0
 Disallow:
 
 User-agent: Infoseek Sidewinder
 Disallow:
 
 User-agent: InfoSpiders/0.1
 Disallow:
 
 User-agent: inspectorwww/1.0
 http://www.greenpac.com/inspectorwww.html
 Disallow:
 
 User-agent: 'IAGENT/1.0'
 Disallow:
 
 User-agent: IsraeliSearch/1.0
 Disallow:
 
 User-agent: JCrawler/0.2
 Disallow:
 
 User-agent: Jeeves v0.05alpha (PERL, LWP, lglb@doc.ic.ac.uk)
 Disallow:
 
 User-agent: Jobot/0.1alpha libwww-perl/4.0
 Disallow:
 
 User-agent: JoeBot,
 Disallow:
 
 User-agent: JubiiRobot
 Disallow:
 
 User-agent: jumpstation
 Disallow:
 
 User-agent: Katipo/1.0
 Disallow:
 
 User-agent: KDD-Explorer/0.1
 Disallow:
 
 User-agent: KO_Yappo_Robot/1.0.4(http://yappo.com/info/robot.html)
 Disallow:
 
 User-agent: LabelGrab/1.1
 Disallow:
 
 User-agent: LinkWalker
 Disallow:
 
 User-agent: logo.gif crawler
 Disallow:
 
 User-agent: Lycos/x.x
 Disallow:
 
 User-agent: Lycos_Spider_(T-Rex)
 Disallow:
 
 User-agent: Magpie/1.0
 Disallow:
 
 User-agent: MediaFox/x.y
 Disallow:
 
 User-agent: MerzScope
 Disallow:
 
 User-agent: NEC-MeshExplorer
 Disallow:
 
 User-agent: MOMspider/1.00 libwww-perl/0.40
 Disallow:
 
 User-agent: Monster/vX.X.X -$TYPE ($OSTYPE)
 Disallow:
 
 User-agent: Motor/0.2
 Disallow:
 
 User-agent: MuscatFerret
 Disallow:
 
 User-agent: MwdSearch/0.1
 Disallow:
 
 User-agent: NetCarta CyberPilot Pro
 Disallow:
 
 User-agent: NetMechanic
 Disallow:
 
 User-agent: NetScoop/1.0 libwww/5.0a
 Disallow:
 
 User-agent: NHSEWalker/3.0
 Disallow:
 
 User-agent: Nomad-V2.x
 Disallow:
 
 User-agent: NorthStar
 Disallow:
 
 User-agent: Occam/1.0
 Disallow:
 
 User-agent: HKU WWW Robot,
 Disallow:
 
 User-agent: Orbsearch/1.0
 Disallow:
 
 User-agent: PackRat/1.0
 Disallow:
 
 User-agent: Patric/0.01a
 Disallow:
 
 User-agent: Peregrinator-Mathematics/0.7
 Disallow:
 
 User-agent: Duppies
 Disallow:
 
 User-agent: Pioneer
 Disallow:
 
 User-agent: PGP-KA/1.2
 Disallow:
 
 User-agent: Resume Robot
 Disallow:
 
 User-agent: Road Runner: ImageScape Robot (lim@cs.leidenuniv.nl)
 Disallow:
 
 User-agent: Robbie/0.1
 Disallow:
 
 User-agent: ComputingSite Robi/1.0 (robi@computingsite.com)
 Disallow:
 
 User-agent: Roverbot
 Disallow:
 
 User-agent: SafetyNet Robot 0.1,
 Disallow:
 
 User-agent: Scooter/1.0
 Disallow:
 
 User-agent: not available
 Disallow:
 
 User-agent: Senrigan/xxxxxx
 Disallow:
 
 User-agent: SG-Scout
 Disallow:
 
 User-agent: Shai'Hulud
 Disallow:
 
 User-agent: SimBot/1.0
 Disallow:
 
 User-agent: Open Text Site Crawler V1.0
 Disallow:
 
 User-agent: SiteTech-Rover
 Disallow:
 
 User-agent: Slurp/2.0
 Disallow:
 
 User-agent: ESISmartSpider/2.0
 Disallow:
 
 User-agent: Snooper/b97_01
 Disallow:
 
 User-agent: Solbot/1.0 LWP/5.07
 Disallow:
 
 User-agent: Spanner/1.0 (Linux 2.0.27 i586)
 Disallow:
 
 User-agent: no
 Disallow:
 
 User-agent: Mozilla/3.0 (Black Widow v1.1.0; Linux 2.0.27; Dec 31
 1997 12:25:00
 Disallow:
 
 User-agent: Tarantula/1.0
 Disallow:
 
 User-agent: tarspider
 Disallow:
 
 User-agent: dlw3robot/x.y (in TclX by http://hplyot.obspm.fr/~dl/)
 Disallow:
 
 User-agent: Templeton/
 Disallow:
 
 User-agent: TitIn/0.2
 Disallow:
 
 User-agent: TITAN/0.1
 Disallow:
 
 User-agent: UCSD-Crawler
 Disallow:
 
 User-agent: urlck/1.2.3
 Disallow:
 
 User-agent: Valkyrie/1.0 libwww-perl/0.40
 Disallow:
 
 User-agent: Victoria/1.0
 Disallow:
 
 User-agent: vision-search/3.0'
 Disallow:
 
 User-agent: VWbot_K/4.2
 Disallow:
 
 User-agent: w3index
 Disallow:
 
 User-agent: W3M2/x.xxx
 Disallow:
 
 User-agent: WWWWanderer v3.0
 Disallow:
 
 User-agent: WebCopy/
 Disallow:
 
 User-agent: WebCrawler/3.0 Robot libwww/5.0a
 Disallow:
 
 User-agent: WebFetcher/0.8,
 Disallow:
 
 User-agent: weblayers/0.0
 Disallow:
 
 User-agent: WebLinker/0.0 libwww-perl/0.1
 Disallow:
 
 User-agent: no
 Disallow:
 
 User-agent: WebMoose/0.0.0000
 Disallow:
 
 User-agent: Digimarc WebReader/1.2
 Disallow:
 
 User-agent: webs@recruit.co.jp
 Disallow:
 
 User-agent: webvac/1.0
 Disallow:
 
 User-agent: webwalk
 Disallow:
 
 User-agent: WebWalker/1.10
 Disallow:
 
 User-agent: WebWatch
 Disallow:
 
 User-agent: Wget/1.4.0
 Disallow:
 
 User-agent: w3mir
 Disallow:
 
 User-agent: no
 Disallow:
 
 User-agent: WWWC/0.25 (Win95)
 Disallow:
 
 User-agent: none
 Disallow:
 
 User-agent: XGET/0.7
 Disallow:
 
 User-agent: Nederland.zoek
 Disallow:
 
 User-agent: BizBot04 kirk.overleaf.com
 Disallow:
 
 User-agent: HappyBot (gserver.kw.net)
 Disallow:
 
 User-agent: CaliforniaBrownSpider
 Disallow:
 
 User-agent: EI*Net/0.1 libwww/0.1
 Disallow:
 
 User-agent: Ibot/1.0 libwww-perl/0.40
 Disallow:
 
 User-agent: Merritt/1.0
 Disallow:
 
 User-agent: StatFetcher/1.0
 Disallow:
 
 User-agent: TeacherSoft/1.0 libwww/2.17
 Disallow:
 
 User-agent: WWW Collector
 Disallow:
 
 User-agent: processor/0.0ALPHA libwww-perl/0.20
 Disallow:
 
 User-agent: wobot/1.0 from 206.214.202.45
 Disallow:
 
 User-agent: Libertech-Rover www.libertech.com?
 Disallow:
 
 User-agent: WhoWhere Robot
 Disallow:
 
 User-agent: ITI Spider
 Disallow:
 
 User-agent: w3index
 Disallow:
 
 User-agent: MyCNNSpider
 Disallow:
 
 User-agent: SummyCrawler
 Disallow:
 
 User-agent: OGspider
 Disallow:
 
 User-agent: linklooker
 Disallow:
 
 User-agent: CyberSpyder (amant@www.cyberspyder.com)
 Disallow:
 
 User-agent: SlowBot
 Disallow:
 
 User-agent: heraSpider
 Disallow:
 
 User-agent: Surfbot
 Disallow:
 
 User-agent: Bizbot003
 Disallow:
 
 User-agent: WebWalker
 Disallow:
 
 User-agent: SandBot
 Disallow:
 
 User-agent: EnigmaBot
 Disallow:
 
 User-agent: spyder3.microsys.com
 Disallow:
 
 User-agent: www.freeloader.com.
 Disallow:
 
 User-agent: Googlebot
 Disallow:
 
 User-agent: METAGOPHER
 Disallow:
 
 |  
						| 
								|  |  
								|  |  En línea | 
 
 |  |  |  | 
			| 
					
						| Azielito 
								no es 
								Colaborador
								      Desconectado 
								Mensajes: 9.188
								
								 
								>.<
								
								
								
								
								
								     | 
 
1.- De donde sacaste esto?Mas que en algun otro sitio, me base en este tutotial:Robots Google2.- Tu hiciste todo esto? no del todo, como dije antes, me base en un tutorial.Creditos: Privacy Policy (C) Copy & Copyright 1996-2002 PHD Software Systems all rights reserved3.- Para que puede servir esto?
 Esto de evitar que nos indexen una sección o la web por completo, la utilidad que le veo es cuando estas trabaando en una carpeta temporal la siguiente versión de tu web o cosas por el estilo   4.- Como funciona un robot? Primeramente entra a la pagina del indice, los robots "pioneros" solo indexaban la página de inicio, los de ahora tiene la capacidad de entrar y "navegar" dentrode nuestro sitio y, van agregando la informacion a la base de datos. Se dice que ahora ya no miran solamente en los meta tags sino en el contenido   |  
						| 
								|  |  
								| « Última modificación: 11 Septiembre 2004, 05:15 am por .o_0 Azielito 0_o. » |  En línea | 
 
 |  |  |  |  |  
 
	
 
 
				
					
						| Mensajes similares |  
						|  | Asunto | Iniciado por | Respuestas | Vistas | Último mensaje |  
						|   |   | Efectos de las drogas en las arañas Foro Libre
 | .:WindHack:. | 6 | 4,874 |  19 Diciembre 2010, 22:19 pm por crazykenny
 |  
						|   |   | que significa en firefox robots  follow ? Desarrollo Web
 | limalimon1 | 1 | 2,838 |  14 Agosto 2012, 22:58 pm por el-brujo
 |  
						|   |   | Arañas, medusas... la tecnología más puntera toma a la naturaleza como modelo Noticias
 | wolfbcn | 0 | 1,811 |  14 Julio 2014, 02:17 am por wolfbcn
 |  
						|   |   | Así funcionan las nuevas arañas que pretenden indexar la Deep Web Noticias
 | wolfbcn | 0 | 2,318 |  1 Febrero 2017, 22:10 pm por wolfbcn
 |  
						|   |   | Por qué no deberías matar arañas. Foro Libre
 | @XSStringManolo | 3 | 2,213 |  16 Julio 2019, 07:17 am por @XSStringManolo
 |    |