<html><body style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; ">We've noticed these too for several hundred of these. &nbsp;There are two ways to treat this:<div><br></div><div>1. &nbsp;Use the "skip list" and skip those in question during filter media.</div><div><br></div><div>2. &nbsp;We are noticing problems with Acrobat 8 and Acrobat 9 in that those versions are</div><div>adding internal taggings that the PDFBox.jar cannot handle. &nbsp;So far, we have done a</div><div>"save as" and changed the settings to almost strip the document of internal tagging</div><div>and other features. &nbsp;Next week (after the Thanksgiving Holiday) we will continue</div><div>our experimentation and study of this issue to document it for our staff so that they</div><div>can make sure all PDFs will extract correctly.</div><div><br></div><div>--Jeff</div><div><br></div><div><br></div><div><br><div apple-content-edited="true"> <span class="Apple-styl!
 e-span" s
parate; color: rgb(0, 0, 0); font-family: Helvetica; font-size: medium; font-style: normal; font-variant: normal; font-weight: normal; letter-spacing: normal; line-height: normal; orphans: 2; text-align: auto; text-indent: 0px; text-transform: none; white-space: normal; widows: 2; word-spacing: 0px; -webkit-border-horizontal-spacing: 0px; -webkit-border-vertical-spacing: 0px; -webkit-text-decorations-in-effect: none; -webkit-text-size-adjust: auto; -webkit-text-stroke-width: 0px; "><div style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; "><span class="Apple-style-span" style="border-collapse: separate; color: rgb(0, 0, 0); font-family: Helvetica; font-size: 14px; font-style: normal; font-variant: normal; font-weight: normal; letter-spacing: normal; line-height: normal; orphans: 2; text-indent: 0px; text-transform: none; white-space: normal; widows: 2; word-spacing: 0px; -webkit-border-horizontal-spacing: 0px; -webkit-border-vertica!
 l-spacing
ations-in-effect: none; -webkit-text-size-adjust: auto; -webkit-text-stroke-width: 0px; "><div style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; "><div><span class="Apple-style-span" style="font-size: 12px; "><div><span class="Apple-style-span" style="font-size: medium; "><font class="Apple-style-span" size="3"><span class="Apple-style-span" style="font-size: 12px; "><div>Jeffrey Trimble</div><div>System LIbrarian</div><div>William F. &nbsp;Maag Library</div><div>Youngstown State University</div><div>330.941.2483 (Office)</div><div><a href="mailto:jtrimble@cc.ysu.edu">jtrimble@cc.ysu.edu</a></div><div><a href="http://www.maag.ysu.edu">http://www.maag.ysu.edu</a></div><div><a href="http://digital.maag.ysu.edu">http://digital.maag.ysu.edu</a></div><div>"I must not fear. &nbsp;Fear is the mind-killer.</div><div>I will permit it to pass over me and through me..."</div><div>--Litany against fear....</div></span></font></span></div></sp!
 an></div>
> </div><br><div><div>On Nov 25, 2009, at 5:31 AM, Louw Venter wrote:</div><br class="Apple-interchange-newline"><blockquote type="cite"><div style="MARGIN: 4px 4px 1px; FONT: 10pt Microsoft Sans Serif"> <div>Anyone have any ideas please?</div> <div>&nbsp;</div> <div><p><font face="Arial">Vrywaringsklousule / Disclaimer: </font><u><a href="http://www.nwu.ac.za/it/gov-man/disclaimer.html"><font color="#0000ff" face="Arial">http://www.nwu.ac.za/it/gov-man/disclaimer.html </font></a></u></p><br><br>&gt;&gt;&gt; On 03 November 2009 at 12:40 PM, "Louw Venter" &lt;<a href="mailto:Louw.Venter@nwu.ac.za">Louw.Venter@nwu.ac.za</a>&gt; wrote:<br></div> <div style="BORDER-LEFT: #050505 1px solid; BACKGROUND-COLOR: #ebebeb; MARGIN: 0px 0px 0px 15px; PADDING-LEFT: 7px"> <div>Hello&nbsp;all,</div> <div>&nbsp;</div> <div>I made a bit of a mess. </div> <div>A while back I uploaded some PDF documents to DSpace and ran Filter media to extract the text. Recently the creators of the pdf files s!
 ent me a 
 numbers etc to replace the existing ones already on the server. So I simply removed the items and added new bitstreams.</div> <div>Now when I run the filter media process again the text doesn't get extracted - could this be because the checksums don't match or because the original&nbsp;was located in one assetstore and the new one in another?</div> <div>&nbsp;</div> <div>Thank you in advance for any help in this regard,</div> <div>&nbsp;</div> <div>&nbsp;</div> <div>ERROR filtering, skipping bitstream:</div> <div>&nbsp;</div> <div>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; Item Handle: 10394/1886<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; Bundle Name: ORIGINAL<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; File Size: 287223<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; Checksum: 6de2597a7cabd6ca3a995c355d9301f1 (MD5)<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; Asset Store: 1<br>java.lang.NullPointerException<br>java.lang.NullPointerException<br>&nbsp;&nbsp;&nbsp;&nbsp;&!
 nbsp;&nbs
model.PDPageNode.getAllKids(PDPageNode.java:194)<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at org.pdfbox.pdmodel.PDPageNode.getAllKids(PDPageNode.java:182)<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at org.pdfbox.pdmodel.PDDocumentCatalog.getAllPages(PDDocumentCatalog.java:226)<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at org.pdfbox.util.PDFTextStripper.writeText(PDFTextStripper.java:216)<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at org.dspace.app.mediafilter.PDFFilter.getDestinationStream(PDFFilter.java:141)<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at org.dspace.app.mediafilter.MediaFilterManager.processBitstream(MediaFilterManager.java:668)<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at org.dspace.app.mediafilter.MediaFilterManager.filterBitstream(MediaFilterManager.java:570)<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at org.dspace.app.mediafilter.MediaFilterManager.filterItem(MediaFilterManager.java:520)<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbs!
 p; at org
ediaFilterManager.applyFiltersItem(MediaFilterManager.java:488)<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at org.dspace.app.mediafilter.MediaFilterManager.applyFiltersAllItems(MediaFilterManager.java:427)<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at org.dspace.app.mediafilter.MediaFilterManager.main(MediaFilterManager.java:359)</div> <div>&nbsp;</div> <div>&nbsp;</div> <div>Louw Venter</div></div></div> _______________________________________________<br>Dspace-general mailing list<br><a href="mailto:Dspace-general@mit.edu">Dspace-general@mit.edu</a><br>http://mailman.mit.edu/mailman/listinfo/dspace-general<br></blockquote></div><br></div></body></html>