Leer un archivo word con php

Hola, busque un poco de info acerca de eso y no encontre nada. Si se abre el documento .doc con (por ejemplo) el bloc de notas, no se entiende mucho; y creo que estaria dificil (pero no imposible) sacar la info de ahi.

Se me ocurre que los archivos sean guardados en formato XML, la opcion la tiene el Word. Para hacer la prueba cree un archivo con un par de lineas y este es el resultado que obtuve:

Código:

<?xml version="1.0" encoding="UTF-8" standalone="yes"?>
<?mso-application progid="Word.Document"?>
<w:wordDocument xmlns:w="http://schemas.microsoft.com/office/word/2003/wordml" xmlns:v="urn:schemas-microsoft-com:vml" xmlns:w10="urn:schemas-microsoft-com:office:word" xmlns:sl="http://schemas.microsoft.com/schemaLibrary/2003/core" xmlns:aml="http://schemas.microsoft.com/aml/2001/core" xmlns:wx="http://schemas.microsoft.com/office/word/2003/auxHint" xmlns:o="urn:schemas-microsoft-com:office:office" xmlns:dt="uuid:C2F41010-65B3-11d1-A29F-00AA00C14882" xmlns:wsp="http://schemas.microsoft.com/office/word/2003/wordml/sp2" w:macrosPresent="no" w:embeddedObjPresent="no" w:ocxPresent="no" xml:space="preserve"><w:ignoreElements w:val="http://schemas.microsoft.com/office/word/2003/wordml/sp2"/><o:DocumentProperties><o:Title>Titulo de la noticias</o:Title><o:Author>Kubical ORG, S.A.</o:Author><o:LastAuthor>Kubical ORG, S.A.</o:LastAuthor><o:Revision>1</o:Revision><o:TotalTime>1</o:TotalTime><o:Created>2009-03-31T15:04:00Z</o:Created><o:LastSaved>2009-03-31T15:05:00Z</o:LastSaved><o:Pages>1</o:Pages><o:Words>14</o:Words><o:Characters>83</o:Characters><o:Company>Kubical ORG, S.A.</o:Company><o:Lines>1</o:Lines><o:Paragraphs>1</o:Paragraphs><o:CharactersWithSpaces>96</o:CharactersWithSpaces><o:Version>11.8106</o:Version></o:DocumentProperties><w:fonts><w:defaultFonts w:ascii="Times New Roman" w:fareast="Times New Roman" w:h-ansi="Times New Roman" w:cs="Times New Roman"/></w:fonts><w:styles><w:versionOfBuiltInStylenames w:val="4"/><w:latentStyles w:defLockedState="off" w:latentStyleCount="156"/><w:style w:type="paragraph" w:default="on" w:styleId="Normal"><w:name w:val="Normal"/><w:rPr><wx:font wx:val="Times New Roman"/><w:sz w:val="24"/><w:sz-cs w:val="24"/><w:lang w:val="ES" w:fareast="ES" w:bidi="AR-SA"/></w:rPr></w:style><w:style w:type="character" w:default="on" w:styleId="Fuentedeprrafopredeter"><w:name w:val="Default Paragraph Font"/><wx:uiName wx:val="Fuente de párrafo predeter."/><w:semiHidden/></w:style><w:style w:type="table" w:default="on" w:styleId="Tablanormal"><w:name w:val="Normal Table"/><wx:uiName wx:val="Tabla normal"/><w:semiHidden/><w:rPr><wx:font wx:val="Times New Roman"/></w:rPr><w:tblPr><w:tblInd w:w="0" w:type="dxa"/><w:tblCellMar><w:top w:w="0" w:type="dxa"/><w:left w:w="108" w:type="dxa"/><w:bottom w:w="0" w:type="dxa"/><w:right w:w="108" w:type="dxa"/></w:tblCellMar></w:tblPr></w:style><w:style w:type="list" w:default="on" w:styleId="Sinlista"><w:name w:val="No List"/><wx:uiName wx:val="Sin lista"/><w:semiHidden/></w:style></w:styles><w:docPr><w:view w:val="print"/><w:zoom w:percent="100"/><w:doNotEmbedSystemFonts/><w:attachedTemplate w:val=""/><w:defaultTabStop w:val="708"/><w:hyphenationZone w:val="425"/><w:punctuationKerning/><w:characterSpacingControl w:val="DontCompress"/><w:optimizeForBrowser/><w:validateAgainstSchema/><w:saveInvalidXML w:val="off"/><w:ignoreMixedContent w:val="off"/><w:alwaysShowPlaceholderText w:val="off"/><w:compat><w:breakWrappedTables/><w:snapToGridInCell/><w:wrapTextWithPunct/><w:useAsianBreakRules/><w:dontGrowAutofit/></w:compat><wsp:rsids><wsp:rsidRoot wsp:val="00DA4EF8"/><wsp:rsid wsp:val="00DA4EF8"/></wsp:rsids></w:docPr><w:body><wx:sect><w:p wsp:rsidR="00DA4EF8" wsp:rsidRPr="00DA4EF8" wsp:rsidRDefault="00DA4EF8"><w:r wsp:rsidRPr="00DA4EF8"><w:t>Titulo de la noticias</w:t></w:r></w:p><w:p wsp:rsidR="00DA4EF8" wsp:rsidRPr="00DA4EF8" wsp:rsidRDefault="00DA4EF8"><w:r><w:t>Prueba documento de word</w:t></w:r></w:p><w:p wsp:rsidR="00DA4EF8" wsp:rsidRPr="00DA4EF8" wsp:rsidRDefault="00DA4EF8"/><w:p wsp:rsidR="00DA4EF8" wsp:rsidRPr="00DA4EF8" wsp:rsidRDefault="00DA4EF8"><w:r wsp:rsidRPr="00DA4EF8"><w:t>Autor:</w:t></w:r></w:p><w:p wsp:rsidR="00DA4EF8" wsp:rsidRDefault="00DA4EF8"><w:r><w:t>Juan Carlos Rojas</w:t></w:r></w:p><w:p wsp:rsidR="00DA4EF8" wsp:rsidRDefault="00DA4EF8"/><w:p wsp:rsidR="00DA4EF8" wsp:rsidRDefault="00DA4EF8"/><w:p wsp:rsidR="00DA4EF8" wsp:rsidRDefault="00DA4EF8"><w:r><w:t>Contenido:</w:t></w:r></w:p><w:p wsp:rsidR="00DA4EF8" wsp:rsidRPr="00DA4EF8" wsp:rsidRDefault="00DA4EF8"><w:r><w:t>Hola mundo</w:t></w:r></w:p><w:sectPr wsp:rsidR="00DA4EF8" wsp:rsidRPr="00DA4EF8"><w:pgSz w:w="11906" w:h="16838"/><w:pgMar w:top="1417" w:right="1701" w:bottom="1417" w:left="1701" w:header="708" w:footer="708" w:gutter="0"/><w:cols w:space="708"/><w:docGrid w:line-pitch="360"/></w:sectPr></wx:sect></w:body></w:wordDocument>

Me parece que mucho de lo que hay en el documento es "basura" o cosas que realmente no nos interesan. Usted puede abrir el XML con PHP y a partir de una sección especifica comenzar a leer la informacion, por ejemplo, descarta todo lo que no le interesa, y deja la info que necesita. He visto que en el documento XML de Word las lineas de contenido se almacenar de igual forma o similar a esta:

Código:

<w:p wsp:rsidR="00DA4EF8" wsp:rsidRPr="00DA4EF8" wsp:rsidRDefault="00DA4EF8"><w:r><w:t>Hola mundo</w:t></w:r></w:p>

En caso de que quiera intentarlo... creo que seria mas facil interpretar el formato XML que un .doc.

Edito:
Algo de esto podria servirle:
http://view.samurajdata.se/
http://www.ajaxdocumentviewer.com/sampledemo/sampledocuments.asp
http://www.scribd.com/