<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">
<html>
<head>
  <meta content="text/html;charset=ISO-8859-1" http-equiv="Content-Type">
  <title></title>
</head>
<body bgcolor="#ffffff" text="#000000">
<meta content="text/html;charset=ISO-8859-1" http-equiv="Content-Type">
<title></title>
Hi Anny,<br>
<br>
I saw your posting regarding have problems with full text searching
capabilities with PDF's that you upload to collections.<br>
We also had this problem and have discovered that in our case it is
related to the PDF's themselves. Not all PDF's have Optical Character
Recognition. If it has not been OCR'd then media filter cannot extract
the text file &amp; it will not be full text searchable.<br>
Our media filter is set up to run every night and that coupled with
trying to ensure that all PDF's we upload are OCR'd has solved our
problems.<br>
Ensuring OCR can be difficult as we have found out (Ex. settings for
scanning straight to PDF with the OCR function does not guarantee that
the text file will actually be attached to the PDF when uploaded,
documents that are scanned crookedly do not OCR well &amp; many PDF's
sent to us we need to ORC ourselves) so we shoot for about 80% accuracy
in our text files.<br>
I hope this relates to your problem and helps.<br>
Rowena<br>
<br>
<a class="moz-txt-link-abbreviated"
 href="mailto:dspace-general-request@mit.edu">dspace-general-request@mit.edu</a>
wrote:<br>
<blockquote cite="midmailman.295.1177517312.7642.dspace-general@mit.edu"
 type="cite">
  <pre wrap="">Send Dspace-general mailing list submissions to
        <a
 class="moz-txt-link-abbreviated" href="mailto:dspace-general@mit.edu">dspace-general@mit.edu</a>

To subscribe or unsubscribe via the World Wide Web, visit
        <a
 class="moz-txt-link-freetext"
 href="http://mailman.mit.edu/mailman/listinfo/dspace-general">http://mailman.mit.edu/mailman/listinfo/dspace-general</a>
or, via email, send a message with subject or body 'help' to
        <a
 class="moz-txt-link-abbreviated"
 href="mailto:dspace-general-request@mit.edu">dspace-general-request@mit.edu</a>

You can reach the person managing the list at
        <a
 class="moz-txt-link-abbreviated"
 href="mailto:dspace-general-owner@mit.edu">dspace-general-owner@mit.edu</a>

When replying, please edit your Subject line so it is more specific
than "Re: Contents of Dspace-general digest..."


Today's Topics:

   1. How enable full-text searching.(Newbie) (Anny Bridge)
   2. Re: How enable full-text searching.(Newbie) (Stuart Lewis [sdl])
   3. Re: How enable full-text searching.(Newbie) (Anny Bridge)
   4. Re: How enable full-text searching.(Newbie) (Stuart Lewis [sdl])
   5. DStat Release 3 (Jaco Fourie)


----------------------------------------------------------------------

Message: 1
Date: Wed, 25 Apr 2007 16:18:08 +0800
From: "Anny Bridge" <a
 class="moz-txt-link-rfc2396E" href="mailto:anybridge@gmail.com">&lt;anybridge@gmail.com&gt;</a>
Subject: [Dspace-general] How enable full-text searching.(Newbie)
To: <a
 class="moz-txt-link-abbreviated" href="mailto:dspace-general@mit.edu">dspace-general@mit.edu</a>
Message-ID:
        <a
 class="moz-txt-link-rfc2396E"
 href="mailto:41255c260704250118q1b95e7cfp6255002769208ea2@mail.gmail.com">&lt;41255c260704250118q1b95e7cfp6255002769208ea2@mail.gmail.com&gt;</a>
Content-Type: text/plain; charset="utf-8"

Hi ,

I add a pdf file to a collection.Then try  full-text searching,it failed.

Is it necessary to run bin/index-all manually to support full text
searching? Or is it ok by simply altering the dspace.cfg file?

Thanks in Advance,

Anny
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <a
 class="moz-txt-link-freetext"
 href="http://mailman.mit.edu/pipermail/dspace-general/attachments/20070425/e59a8e3e/attachment-0001.htm">http://mailman.mit.edu/pipermail/dspace-general/attachments/20070425/e59a8e3e/attachment-0001.htm</a>

------------------------------

Message: 2
Date: Wed, 25 Apr 2007 09:31:10 +0100
From: "Stuart Lewis [sdl]" <a
 class="moz-txt-link-rfc2396E" href="mailto:sdl@aber.ac.uk">&lt;sdl@aber.ac.uk&gt;</a>
Subject: Re: [Dspace-general] How enable full-text searching.(Newbie)
To: Anny Bridge <a
 class="moz-txt-link-rfc2396E" href="mailto:anybridge@gmail.com">&lt;anybridge@gmail.com&gt;</a>, <a
 class="moz-txt-link-rfc2396E" href="mailto:dspace-general@mit.edu">&lt;dspace-general@mit.edu&gt;</a>
Message-ID: <a
 class="moz-txt-link-rfc2396E"
 href="mailto:C254D05E.158F1%sdl@aber.ac.uk">&lt;C254D05E.158F1%sdl@aber.ac.uk&gt;</a>
Content-Type: text/plain;        charset="US-ASCII"

Hi Anny,

  </pre>
  <blockquote type="cite">
    <pre wrap="">I add a pdf file to a collection. Then try full-text searching, it failed.

Is it necessary to run bin/index-all manually to support full text searching?
Or is it ok by simply altering the dspace.cfg file?
    </pre>
  </blockquote>
  <pre wrap=""><!---->
You need to run bin/filter-media to extract the text from the pdf document.

Thanks,


Stuart
_________________________________________________________________

Datblygydd Cymwysiadau'r We            Web Applications Developer
Gwasanaethau Gwybodaeth                      Information Services
Prifysgol Cymru Aberystwyth       University of Wales Aberystwyth

            E-bost / E-mail: <a
 class="moz-txt-link-abbreviated" href="mailto:Stuart.Lewis@aber.ac.uk">Stuart.Lewis@aber.ac.uk</a>
                 Ffon / Tel: (01970) 622860
_________________________________________________________________



------------------------------

Message: 3
Date: Wed, 25 Apr 2007 16:40:06 +0800
From: "Anny Bridge" <a
 class="moz-txt-link-rfc2396E" href="mailto:anybridge@gmail.com">&lt;anybridge@gmail.com&gt;</a>
Subject: Re: [Dspace-general] How enable full-text searching.(Newbie)
To: "Stuart Lewis [sdl]" <a
 class="moz-txt-link-rfc2396E" href="mailto:sdl@aber.ac.uk">&lt;sdl@aber.ac.uk&gt;</a>
Cc: <a
 class="moz-txt-link-abbreviated" href="mailto:dspace-general@mit.edu">dspace-general@mit.edu</a>
Message-ID:
        <a
 class="moz-txt-link-rfc2396E"
 href="mailto:41255c260704250140t74326aer8db4ad684f2523b9@mail.gmail.com">&lt;41255c260704250140t74326aer8db4ad684f2523b9@mail.gmail.com&gt;</a>
Content-Type: text/plain; charset="utf-8"

Hi Stuart,

Does it mean i have to run bin/filter-media manually every time when I add a
pdf  file?

Is it possible by altering the Media Filter plugins (through PluginManager)
in the dspace.cfg file?

Thanks for your help.

Anny.

On 4/25/07, Stuart Lewis [sdl] <a
 class="moz-txt-link-rfc2396E" href="mailto:sdl@aber.ac.uk">&lt;sdl@aber.ac.uk&gt;</a> wrote:
  </pre>
  <blockquote type="cite">
    <pre wrap="">Hi Anny,

    </pre>
    <blockquote type="cite">
      <pre wrap="">I add a pdf file to a collection. Then try full-text searching, it
      </pre>
    </blockquote>
    <pre wrap="">failed.
    </pre>
    <blockquote type="cite">
      <pre wrap="">Is it necessary to run bin/index-all manually to support full text
      </pre>
    </blockquote>
    <pre wrap="">searching?
    </pre>
    <blockquote type="cite">
      <pre wrap="">Or is it ok by simply altering the dspace.cfg file?
      </pre>
    </blockquote>
    <pre wrap="">You need to run bin/filter-media to extract the text from the pdf
document.

Thanks,


Stuart
_________________________________________________________________

Datblygydd Cymwysiadau'r We            Web Applications Developer
Gwasanaethau Gwybodaeth                      Information Services
Prifysgol Cymru Aberystwyth       University of Wales Aberystwyth

            E-bost / E-mail: <a
 class="moz-txt-link-abbreviated" href="mailto:Stuart.Lewis@aber.ac.uk">Stuart.Lewis@aber.ac.uk</a>
                 Ffon / Tel: (01970) 622860
_________________________________________________________________


    </pre>
  </blockquote>
  <pre wrap=""><!---->-------------- next part --------------
An HTML attachment was scrubbed...
URL: <a
 class="moz-txt-link-freetext"
 href="http://mailman.mit.edu/pipermail/dspace-general/attachments/20070425/0f9790da/attachment-0001.htm">http://mailman.mit.edu/pipermail/dspace-general/attachments/20070425/0f9790da/attachment-0001.htm</a>

------------------------------

Message: 4
Date: Wed, 25 Apr 2007 09:49:30 +0100
From: "Stuart Lewis [sdl]" <a
 class="moz-txt-link-rfc2396E" href="mailto:sdl@aber.ac.uk">&lt;sdl@aber.ac.uk&gt;</a>
Subject: Re: [Dspace-general] How enable full-text searching.(Newbie)
To: Anny Bridge <a
 class="moz-txt-link-rfc2396E" href="mailto:anybridge@gmail.com">&lt;anybridge@gmail.com&gt;</a>,
        <a
 class="moz-txt-link-rfc2396E"
 href="mailto:dspace-tech@lists.sourceforge.net">"dspace-tech@lists.sourceforge.net"</a>
        <a
 class="moz-txt-link-rfc2396E"
 href="mailto:dspace-tech@lists.sourceforge.net">&lt;dspace-tech@lists.sourceforge.net&gt;</a>
Cc: <a
 class="moz-txt-link-abbreviated" href="mailto:dspace-general@mit.edu">dspace-general@mit.edu</a>
Message-ID: <a
 class="moz-txt-link-rfc2396E"
 href="mailto:C254D4AA.158F9%sdl@aber.ac.uk">&lt;C254D4AA.158F9%sdl@aber.ac.uk&gt;</a>
Content-Type: text/plain;        charset="US-ASCII"

Hi Anny,

  </pre>
  <blockquote type="cite">
    <pre wrap="">Does it mean i have to run bin/filter-media manually every time when I add a
pdf  file? 
    </pre>
  </blockquote>
  <pre wrap=""><!---->
People tend to run this periodically, for example once a night. This can be
enabled via a cron job or scheduled task (unix or windows). See:

<a class="moz-txt-link-freetext"
 href="http://www.dspace.org/technology/system-docs/install.html#advancedinstall">http://www.dspace.org/technology/system-docs/install.html#advancedinstall</a>
 
  </pre>
  <blockquote type="cite">
    <pre wrap="">Is it possible by altering the Media Filter plugins (through PluginManager) in
the dspace.cfg file?
    </pre>
  </blockquote>
  <pre wrap=""><!---->
Those settings are used to enable or disable different filters. For example,
you might decide that you want to enable full text searching of PDF files,
but not MS Word documents, in which case you can edit the settings. Or, you
might decide to write a filter to extract text from a different file format,
and you can add that there.

Thanks,


Stuart

P.S. - I have copied this to the dspace-tech (
<a class="moz-txt-link-freetext"
 href="https://lists.sourceforge.net/lists/listinfo/dspace-tech">https://lists.sourceforge.net/lists/listinfo/dspace-tech</a>) email list as it
is probably better suited there
_________________________________________________________________

Datblygydd Cymwysiadau'r We            Web Applications Developer
Gwasanaethau Gwybodaeth                      Information Services
Prifysgol Cymru Aberystwyth       University of Wales Aberystwyth

            E-bost / E-mail: <a
 class="moz-txt-link-abbreviated" href="mailto:Stuart.Lewis@aber.ac.uk">Stuart.Lewis@aber.ac.uk</a>
                 Ffon / Tel: (01970) 622860
_________________________________________________________________



------------------------------

Message: 5
Date: Wed, 25 Apr 2007 11:08:00 +0200
From: "Jaco Fourie" <a
 class="moz-txt-link-rfc2396E" href="mailto:JFourie@csir.co.za">&lt;JFourie@csir.co.za&gt;</a>
Subject: [Dspace-general] DStat Release 3
To: <a
 class="moz-txt-link-rfc2396E" href="mailto:dspace-general@mit.edu">&lt;dspace-general@mit.edu&gt;</a>
Message-ID: <a
 class="moz-txt-link-rfc2396E"
 href="mailto:462F3690020000310001E39A@cs-emo.csir.co.za">&lt;462F3690020000310001E39A@cs-emo.csir.co.za&gt;</a>
Content-Type: text/plain; charset="us-ascii"

I get this error when I run the analyser. Is it out of date?
 
D:\DSpace\bin&gt;dsrun ac.ed.dspace.stats.LogAnalyser -start 2006-01-01
-end 2006-1
2-31 -out 2007-aggregation.dat
Using DSpace installation in: D:\DSpace
Exception in thread "main" org.postgresql.util.PSQLException: ERROR:
relation "d
ctyperegistry" does not exist

  </pre>
</blockquote>
<br>
<pre class="moz-signature" cols="72">-- 
Rowena Wake
Institutional Repository Administrator
Libraries and Cultural Resources
University of Calgary 
Phone: (403) 210-6753
Email: <a
 class="moz-txt-link-abbreviated" href="mailto:rwake@ucalgary.ca">rwake@ucalgary.ca</a>
</pre>
</body>
</html>