indizierung von jpgs funzt von pdfs nicht warum?
| Autor | Nachricht |
|---|---|
|
Verfasst am: 26. 01. 2012 [13:45]
|
|
|
martinibianco007
Themenersteller
Dabei seit: 14.10.2009
Beiträge: 59
|
hi community, ich habe die indexed search eigentlich gut zum laufen gebracht, leider habe ich probleme bei der indizierung: unter info -> indexsuche werden dokumente und jpgs angezeigt, warum keine pdfs? WICHTIG ich möchte nur pdfs indizieren aber keine jpgs. HINWEIS ich will nicht in der pdf Dokumenten suchen, sondern ledigl dass das pdf gefunden wird wenn der dateiname des pdfs oder pdf in der suche eingefügt wird. meine konfig: TYPOSCRIPT config.index_enable = 1 config.index_externals = 1 config.sys_language_uid = 0 config.language = de plugin.tx_indexedsearch { templateFile = fileadmin/template/extended_search.html _DEFAULT_PI_VARS.lang = 0 show { rules = 0 parsetimes = 1 L2sections = 0 L1sections = 1 # ausgeblendete seiten werden nicht durchsucht = 0 LxAlltypes LxALLtypes = 0 clearSearchBox = 0 clearSearchBox.enableSubSearchCheckBox = 0 # muss auf 1 gesetzt werden um jpg anzuzeigen forbiddenRecords = 1 alwaysShowPageLinks = 1 advancedSearchLink = 1 resultNumber = 0 mediaList = 0 #mediaList? ind verwindung mit forbiddenRecors???? } blind { #suche nach: type = 0 #defOp = 0 #ist im html-template ausgeblendet gesamte seite section = 0 #kategorie alle gemischt freeIndexUid = -1 #all media media = -1 order = rank_flag group = flat #lang = 0 #desc = 1 results = 10 } _LOCAL_LANG.de.rules_header = Suchtipps _LOCAL_LANG.de.rules_text ( Nur Wörter mit 2 oder mehr Zeichen werden akzeptiert. Maximal 200 Zeichen insgesamt. Leerzeichen werden zur Trennung von Worten verwendet, "" kann für die Suche nach ganzen Zeichenfolgen benutzt werden. Alle Suchwörter werden zu Kleinschreibung konvertiert. ) } lib.mySearch < plugin.tx_macinasearchbox_pi1 lib.mySearch{ pidSearchpage = 71 templateFile = fileadmin/template/such_template.htm } |
|
Verfasst am: 26. 01. 2012 [21:46]
|
|
|
fahn
Dabei seit: 18.11.2009
Beiträge: 41
|
Hallo, ich weiß gerade nicht ob das die Lösung ist, aber unter den Einstellungen bei der Extention gibt die Möglichkeit den Pfad zu den pdftools anzugeben! Evtl. fehlt dir das Paket auf dem Server? Oder es liegt nicht dort ?! HTML The indexer uses the applications 'pdftotext' and 'pdfinfo' for extracting content from PDF files. These applications must be installed in this path. Otherwise leave the field empty. Gruß, Stefan |
|
Verfasst am: 27. 01. 2012 [09:45]
|
|
|
martinibianco007
Themenersteller
Dabei seit: 14.10.2009
Beiträge: 59
|
Danke für die Antwort, so viel ich weiß ist dieser path aber nur relevant wenn man inhalte aus den pdfs parsen will und ich möchte ja "nur" dass mir die indexed_search so wie jpgs pdfs ausspuckt nicht die inhalte der pdfs. Vielleicht soll ich die Frage umformulieren: Ist es mit der indexed_search überhaupt möglich pdf dateien in den suchergebnissen anzeigen zu lassen? Oder kann man "nur" die Inhalte der pdfs durchsuchen? z.B. ich suche nach Preisliste dann sollte die Datei preisliste.pdf gefunden werden oder ich suche pdf dann listet mir die suche alle pdf der seite auf. |
|
Verfasst am: 27. 01. 2012 [11:13]
|
|
|
LuP
Dabei seit: 12.04.2007
Beiträge: 270
|
martinibianco007 schrieb: Ist es mit der indexed_search überhaupt möglich pdf dateien in den suchergebnissen anzeigen zu lassen? nein würde ich sagen, weil sämtliche HTML- und PHP-Tags entfernt werden. Sieh mal im Quellcode nach splitHTMLContent(). Somit würde aus: HTML <a href="http://www.domain.tld/news.html">News</a> nur noch News martinibianco007 schrieb: Oder kann man "nur" die Inhalte der pdfs durchsuchen? denke schon. VG, LuP |
|
Verfasst am: 27. 01. 2012 [16:10]
|
|
|
martinibianco007
Themenersteller
Dabei seit: 14.10.2009
Beiträge: 59
|
verstehe d.h vom img tag holt es sich einfach den teil aus dem src und parst diesen und die restlichen inhalte werden durch durchsucht und die html-tags entfernt. gibt es denn eine einfache möglichkeit pdfs trotzdem zu finden? oder macht es mehr sinn dass pdfs auch im inhalt durchsucht werden? |
|
Verfasst am: 27. 01. 2012 [16:34]
|
|
|
LuP
Dabei seit: 12.04.2007
Beiträge: 270
|
martinibianco007 schrieb: d.h vom img tag holt es sich einfach den teil aus dem src und parst diesen und die restlichen inhalte werden durch durchsucht und die html-tags entfernt. ja, genau martinibianco007 schrieb: gibt es denn eine einfache möglichkeit pdfs trotzdem zu finden? ich denke nicht martinibianco007 schrieb: oder macht es mehr sinn dass pdfs auch im inhalt durchsucht werden? aus meiner Sicht die einzige Lösung VG, LuP |
|
Verfasst am: 28. 01. 2012 [09:51]
|
|
|
martinibianco007
Themenersteller
Dabei seit: 14.10.2009
Beiträge: 59
|
wenn man aus dem img tag den src teil parsen kann ist es sicherlich auch möglich bei allen links das href attribut auf .pdf dateien zu parsen. hat jemand erfahrung mit der umschreibung der indizierungsfunktion der indexed_search. bzw. gibt es gründe warum man das besser bleiben lassen sollte? |
|
Verfasst am: 28. 01. 2012 [10:47]
|
|
|
LuP
Dabei seit: 12.04.2007
Beiträge: 270
|
Hallo, martinibianco007 schrieb: wenn man aus dem img tag den src teil parsen kann ist es sicherlich auch möglich bei allen links das href attribut auf .pdf dateien zu parsen. indexed_search stellt den passenden Parser dafür bereit. Er braucht nur zu wissen, wo die geeigneten Anwendungen liegen, wie von Stefan bereits beschrieben ist. Dafür trägt man dann im EM den Pfad ein, z.B pdftools = /usr/bin/. Aber damit wäre wir wieder bei der Lösung, die Du ungern haben möchtest. VG, LuP |
|
Verfasst am: 01. 02. 2012 [15:28]
|
|
|
martinibianco007
Themenersteller
Dabei seit: 14.10.2009
Beiträge: 59
|
danke LuP nun hab ichs aufgegeben. einfe frage habe ich noch, wenn ich die pdf suche einrichte auf was muss ich achten welche zusätzlichen extensions benötige ich? wenn das dann funktioniert und in einem pdf z.b ein satz ("gefundener Satz" gefunden wird. wie wird das dann in den suchergebnissen angezeigt? wenn es so wie ein normales suchergebnis angezeigt wird komme ich über den Link dann zwar auf die Seite aber ich weiß dann immer noch nicht dass der gesuchte Satz im pdf ist. oder zeigt mir das die suche explizit an? |
|
Verfasst am: 01. 02. 2012 [16:27]
|
|
|
LuP
Dabei seit: 12.04.2007
Beiträge: 270
|
Hallo, da ich mittlerweile nur noch auf Solr setze, werde ich Dir nur grob antworten können. Anleitungen zu indexed_search und crawler sind aber genügend im Netz zu finden. martinibianco007 schrieb: wenn ich die pdf suche einrichte auf was muss ich achten welche zusätzlichen extensions benötige ich? Jedenfalls brauchst Du den crawler. Dann noch die notwendigen Applikationen OS-seitig installieren. Hier würde man xpdf-utils benötigen. Wenn Du Debian nutzst: apt-get install xpdf-utils Und wie gesagt, in den EM-Konfigurationen den Pfad zu den Applikationen setzen. Path to PDF parsers: /usr/bin/ martinibianco007 schrieb: wenn das dann funktioniert und in einem pdf z.b ein satz ("gefundener Satz) gefunden wird. wie wird das dann in den suchergebnissen angezeigt? Eine Suche nach "lorem" müsste so etwas ähnliches im Quelltext der Suchergebnisse liefern: HTML <a href="http://www.domain.tld/fileadmin/files/lorem_ipsum.pdf">lorem_ipsum.pdf</a> <p>Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua</p> martinibianco007 schrieb: wenn es so wie ein normales suchergebnis angezeigt wird komme ich über den Link dann zwar auf die Seite aber ich weiß dann immer noch nicht dass der gesuchte Satz im pdf ist. oder zeigt mir das die suche explizit an? Der Link verweist nicht mehr auf eine Seite sondern direkt auf die externe Datei, hier "lorem_ipsum.pdf". Beim Anklicken würde man die Datei direkt herunterladen. HTML <a href="http://www.domain.tld/fileadmin/files/lorem_ipsum.pdf">lorem_ipsum.pdf</a> VG, LuP [Dieser Beitrag wurde 1mal bearbeitet, zuletzt am 01.02.2012 um 16:30.] |



