Igual te interesa parsearte una pagina de libros.
bookdepository por ejemplo tiene como 14 millones de titulos. Con un simple crawler te sacas unos cuantos, ademas que la pagina lo pone bastante facil con sus <metas>. Por ejemplo, esto saca todos los que están en español (en teoría) junto a su ISBN y autor de mas antiguo a mas nuevo en formato CSV.
<?php
function writeFile
($file, $content){ return file_put_contents($file, $content, FILE_APPEND
); }
$url = 'http://www.bookdepository.com/search?searchLang=404&searchRefined=1&searchSortBy=pubdate_low_high&page=';
$pages = 35578;
$file = 'libros.csv';
for($page=1; $page <= $pages; ++$page){
$html = getPage($url.$page);
$doc = new DOMDocument();
$doc->preserveWhiteSpace = false;
$doc->loadHTML($html);
$xpath = new DomXpath($doc);
$find = $xpath->query('//*[@class="book-item"]');
foreach($find as $div){
$metas = $div->getElementsByTagName('meta');
foreach($metas as $meta){
$temp[$meta->getAttribute('itemprop')] = $meta->getAttribute('content');
}
$books[] = $temp;
}
$write = '';
foreach($books as $book){
$write .= implode(',',$book).PHP_EOL
; }
writeFile($file, $write);
unset($html,$doc,$xpath,$find,$books,$div,$write);
echo 'Page ',$page,' of ',$pages,' done.',PHP_EOL;
}
echo 'Done.';
Aquí te dejo el archivo que acumule mientras hacia el script.. Es de la pagina 1 a la 616.. que son 18451 libros.. en 5 min xD
https://www.dropbox.com/s/lg3qhqeqlw24tpi/libros.csv?dl=1PD: También tienes a Amazon.. que te ofrece una API en condiciones.
Saludos