TYPO3-Testaccount
Testen Sie die aktuellste TYPO3-Version kostenlos und unverbindlich für einen Monat!

Jetzt testen!

Schulungen

jetzt buchen

indizierung von jpgs funzt von pdfs nicht warum?


Autor Nachricht
Verfasst am: 26. 01. 2012 [13:45]
martinibianco007
Themenersteller
Dabei seit: 14.10.2009
Beiträge: 59

hi community,

ich habe die indexed search eigentlich gut zum laufen gebracht,
leider habe ich probleme bei der indizierung:

unter info -> indexsuche
werden dokumente und jpgs angezeigt, warum keine pdfs?

WICHTIG ich möchte nur pdfs indizieren aber keine jpgs.

HINWEIS ich will nicht in der pdf Dokumenten suchen, sondern ledigl dass
das pdf gefunden wird wenn der dateiname des pdfs oder pdf
in der suche eingefügt wird.

meine konfig:
TYPOSCRIPT
config.index_enable = 1
config.index_externals = 1
config.sys_language_uid = 0
config.language = de
 
plugin.tx_indexedsearch {
  templateFile = fileadmin/template/extended_search.html
  _DEFAULT_PI_VARS.lang = 0
 
  show {
    rules = 0
    parsetimes = 1
    L2sections = 0
    L1sections = 1
    # ausgeblendete seiten werden nicht durchsucht = 0 LxAlltypes
    LxALLtypes = 0    
    clearSearchBox = 0
    clearSearchBox.enableSubSearchCheckBox = 0
    # muss auf 1 gesetzt werden um jpg anzuzeigen
    forbiddenRecords = 1
    alwaysShowPageLinks = 1
    advancedSearchLink = 1
    resultNumber = 0
    mediaList = 0
 
    #mediaList? ind verwindung mit forbiddenRecors????
  }
 
  blind {  
    #suche nach:
    type = 0
    #defOp = 0
    #ist im html-template ausgeblendet gesamte seite
    section = 0
    #kategorie alle gemischt
    freeIndexUid = -1
    #all media
    media = -1    
    order = rank_flag
    group = flat
    #lang = 0
    #desc = 1
    results = 10
  }
 
 
  _LOCAL_LANG.de.rules_header = Suchtipps
  _LOCAL_LANG.de.rules_text (
   Nur Wörter mit 2 oder mehr Zeichen werden akzeptiert. Maximal 200 Zeichen insgesamt.
   Leerzeichen werden zur Trennung von Worten verwendet, "" kann für die Suche nach ganzen Zeichenfolgen benutzt werden.
   Alle Suchwörter werden zu Kleinschreibung konvertiert.
  )
 
}
 
 
lib.mySearch < plugin.tx_macinasearchbox_pi1
lib.mySearch{
  pidSearchpage = 71
  templateFile = fileadmin/template/such_template.htm
}



Profil
Verfasst am: 26. 01. 2012 [21:46]
fahn
Dabei seit: 18.11.2009
Beiträge: 41
Hallo,
ich weiß gerade nicht ob das die Lösung ist, aber unter den Einstellungen bei der Extention gibt die Möglichkeit den Pfad zu den pdftools anzugeben! Evtl. fehlt dir das Paket auf dem Server? Oder es liegt nicht dort ?!

HTML
The indexer uses the applications 'pdftotext' and 'pdfinfo' for extracting content from PDF files. These applications must be installed in this path. Otherwise leave the field empty.


Gruß,
Stefan
Profil
Verfasst am: 27. 01. 2012 [09:45]
martinibianco007
Themenersteller
Dabei seit: 14.10.2009
Beiträge: 59

Danke für die Antwort, so viel ich weiß ist dieser path aber nur relevant
wenn man inhalte aus den pdfs parsen will und ich möchte ja "nur" dass
mir die indexed_search so wie jpgs pdfs ausspuckt nicht die inhalte der pdfs.

Vielleicht soll ich die Frage umformulieren:

Ist es mit der indexed_search überhaupt möglich pdf dateien in den suchergebnissen anzeigen zu lassen?

Oder kann man "nur" die Inhalte der pdfs durchsuchen?


z.B. ich suche nach Preisliste
dann sollte die Datei preisliste.pdf gefunden werden
oder ich suche pdf
dann listet mir die suche alle pdf der seite auf.
Profil
Verfasst am: 27. 01. 2012 [11:13]
LuP
Dabei seit: 12.04.2007
Beiträge: 270
martinibianco007 schrieb:

Ist es mit der indexed_search überhaupt möglich pdf dateien in den suchergebnissen anzeigen zu lassen?

nein würde ich sagen, weil sämtliche HTML- und PHP-Tags entfernt werden. Sieh mal im Quellcode nach splitHTMLContent().

Somit würde aus:
HTML
<a href="http://www.domain.tld/news.html">News</a>

nur noch

News

martinibianco007 schrieb:

Oder kann man "nur" die Inhalte der pdfs durchsuchen?

denke schon.

VG,
LuP
Profil
Verfasst am: 27. 01. 2012 [16:10]
martinibianco007
Themenersteller
Dabei seit: 14.10.2009
Beiträge: 59
verstehe

d.h vom img tag holt es sich einfach den teil aus dem src
und parst diesen und die restlichen inhalte werden
durch durchsucht und die html-tags entfernt.

gibt es denn eine einfache möglichkeit pdfs trotzdem
zu finden?

oder macht es mehr sinn dass pdfs auch im inhalt
durchsucht werden?
Profil
Verfasst am: 27. 01. 2012 [16:34]
LuP
Dabei seit: 12.04.2007
Beiträge: 270
martinibianco007 schrieb:

d.h vom img tag holt es sich einfach den teil aus dem src und parst diesen und die restlichen inhalte werden durch durchsucht und die html-tags entfernt.

ja, genau

martinibianco007 schrieb:

gibt es denn eine einfache möglichkeit pdfs trotzdem zu finden?

ich denke nicht

martinibianco007 schrieb:

oder macht es mehr sinn dass pdfs auch im inhalt durchsucht werden?

aus meiner Sicht die einzige Lösung

VG,
LuP
Profil
Verfasst am: 28. 01. 2012 [09:51]
martinibianco007
Themenersteller
Dabei seit: 14.10.2009
Beiträge: 59

wenn man aus dem img tag den src teil parsen kann
ist es sicherlich auch möglich bei allen links das href attribut auf .pdf dateien zu parsen.

hat jemand erfahrung mit der umschreibung der indizierungsfunktion
der indexed_search.

bzw. gibt es gründe warum man das besser bleiben lassen sollte?
Profil
Verfasst am: 28. 01. 2012 [10:47]
LuP
Dabei seit: 12.04.2007
Beiträge: 270
Hallo,

martinibianco007 schrieb:

wenn man aus dem img tag den src teil parsen kann ist es sicherlich auch möglich bei allen links das href attribut auf .pdf dateien zu parsen.

indexed_search stellt den passenden Parser dafür bereit. Er braucht nur zu wissen, wo die geeigneten Anwendungen liegen, wie von Stefan bereits beschrieben ist. Dafür trägt man dann im EM den Pfad ein, z.B pdftools = /usr/bin/. Aber damit wäre wir wieder bei der Lösung, die Du ungern haben möchtest.

VG,
LuP
Profil
Verfasst am: 01. 02. 2012 [15:28]
martinibianco007
Themenersteller
Dabei seit: 14.10.2009
Beiträge: 59
danke LuP nun hab ichs aufgegeben.

einfe frage habe ich noch, wenn ich die pdf suche einrichte
auf was muss ich achten welche zusätzlichen extensions benötige ich?

wenn das dann funktioniert und in einem pdf z.b ein satz ("gefundener Satz"icon_wink.gif
gefunden wird. wie wird das dann in den suchergebnissen angezeigt?

wenn es so wie ein normales suchergebnis angezeigt wird komme ich über den
Link dann zwar auf die Seite aber ich weiß dann immer noch nicht
dass der gesuchte Satz im pdf ist.
oder zeigt mir das die suche explizit an?
Profil
Verfasst am: 01. 02. 2012 [16:27]
LuP
Dabei seit: 12.04.2007
Beiträge: 270
Hallo,

da ich mittlerweile nur noch auf Solr setze, werde ich Dir nur grob antworten können. Anleitungen zu indexed_search und crawler sind aber genügend im Netz zu finden.

martinibianco007 schrieb:

wenn ich die pdf suche einrichte auf was muss ich achten welche zusätzlichen extensions benötige ich?

Jedenfalls brauchst Du den crawler. Dann noch die notwendigen Applikationen OS-seitig installieren. Hier würde man xpdf-utils benötigen. Wenn Du Debian nutzst:

apt-get install xpdf-utils

Und wie gesagt, in den EM-Konfigurationen den Pfad zu den Applikationen setzen.

Path to PDF parsers: /usr/bin/

martinibianco007 schrieb:

wenn das dann funktioniert und in einem pdf z.b ein satz ("gefundener Satz) gefunden wird. wie wird das dann in den suchergebnissen angezeigt?

Eine Suche nach "lorem" müsste so etwas ähnliches im Quelltext der Suchergebnisse liefern:
HTML
<a href="http://www.domain.tld/fileadmin/files/lorem_ipsum.pdf">lorem_ipsum.pdf</a>
<p>Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua</p>

martinibianco007 schrieb:

wenn es so wie ein normales suchergebnis angezeigt wird komme ich über den Link dann zwar auf die Seite aber ich weiß dann immer noch nicht dass der gesuchte Satz im pdf ist.
oder zeigt mir das die suche explizit an?

Der Link verweist nicht mehr auf eine Seite sondern direkt auf die externe Datei, hier "lorem_ipsum.pdf". Beim Anklicken würde man die Datei direkt herunterladen.
HTML
<a href="http://www.domain.tld/fileadmin/files/lorem_ipsum.pdf">lorem_ipsum.pdf</a>

VG,
LuP




[Dieser Beitrag wurde 1mal bearbeitet, zuletzt am 01.02.2012 um 16:30.]
Profil