Lösung: externe Dateien (pdf,doc) werden nicht durchsucht

  • gunther gunther
    Padawan
    0 x
    39 Beiträge
    0 Hilfreiche Beiträge
    11. 11. 2008, 18:29

    TYPO3 4.2.3
    indexed_search 2.11.0

    Checkliste für externe Dateien:

    1. normale Seiten werden indiziert, wenn nicht Cache überprüfen, bzw. config.index_externals = 1 und config.index_enable = 1 in die Konfiguration schreiben

    2. die notwendigen Bibliotheken (pdftotext, pdfinfo, catdoc) sollten installiert sein und funktionieren (Test hier:
    [url]http://www.typo3.net/forum/list/list_post//72633/?page=1&sword=pdf#pid268362[/url])

    3. die Verlinkungen auf die Dateien dürfen nicht absolut gesetzt sein, also nicht mit http:// beginnen (kann man über 'config.baseURL' erreichen, evtl. 'config.absRefPrefix' entfernen)

    Dann sollte es funktionieren - ich hatte ewig gesucht und bei es lag letztendlich bei Punkt 3.

    Grüße
    Gunther


  • mamo mamo
    R2-D2
    0 x
    119 Beiträge
    0 Hilfreiche Beiträge
    12. 03. 2009, 17:25

    Hallo gunther
    Leider werden meine PDF-Dateien immer noch nicht indiziert.

    Ich habe dieseelbe Konfiguration wie du:
    Typo3 4.2.3
    indexed_search 2.11.0

    1) Normale Seiten werden indiziert.

    2) Mit dem Test bin ich nicht klar gekommen. Wo genau hast du diesen Einzeiler eingefügt? Wie muss die Anweisung lauten? Was sollte herauskommen?
    Der Pfad zu den Dateien ist auf meinem Server /usr/local/bin

    3) Verlinkung auf die PDF-Dateien: Im Quelltext stehen bei mir relative Angaben, also fileadmin/../xxx.pdf
    In der Taskleiste (am unteren Bildschirmrand) erscheint jedoch die ganze URL, wenn ich mit der Maus über den Link fahre. Ist das falsch?

    Woran könnte es sonst noch liegen?
    Danke für Tipps.

  • Benjamecho Benjamech...
    Sternenflotten-Admiral
    0 x
    202 Beiträge
    0 Hilfreiche Beiträge
    30. 04. 2009, 18:09

    Danke für den Tipp! Ich habe Stunden gesucht und seit ich ... [TS]page.config.absRefPrefix = /[/TS] ... entfernt habe, werden PDF-Files gefunden.

    Ist das ein Bug der indexed_search-Extension?

    Jetzt muss ich vorerst wohl eine BaseURL setzen.

  • tom613 tom613
    T3PO
    0 x
    27 Beiträge
    0 Hilfreiche Beiträge
    19. 05. 2009, 11:05

    Hallo Gunther,

    Bei Punkt 3 komme ich nicht ganz draus: Meinst du im Content-Element sollte die Datei nicht absolut verlinkt sein?

    Zudem: Ich habe die Einstellung von einer wunderbar funktionierenden Seite kopiert alles 50 Mal überprüft und trotzdem nichts...gleicher Hoster, gleiche Einstellungen, ich bin am aufgeben...

    Komischerweise werden andere Filetype indexiert (siehe Attachment...)

    Gruss,
    Tom

    [img]http://www.555webdesign.com/screenshot.png[/img]

  • Raju Raju
    TYPO3-Anwärter
    0 x
    4 Beiträge
    0 Hilfreiche Beiträge
    02. 06. 2009, 10:54

    Ich habe auch dasselbe Problem. Im Server wurde pdftotext version 3.01 installiert. Der Pfad zum pdftotext ist auch richtgesetzt.Punkte 1 bis 3 stimmen auch. Pdf files werden nicht indiziert, jpeg werden jedoch indiziert.

  • Raju Raju
    TYPO3-Anwärter
    0 x
    4 Beiträge
    0 Hilfreiche Beiträge
    02. 06. 2009, 14:06

    Wie kann man eingene Extension indexieren. Momentan kann eine Seite, in der eine eigene Extension eingebunden (hat auch PDFs) ist, trotz manuelle ausfürung des Crawlers nicht indexiert werden. Wisst jemand neue Lösung. Ich habe auch googlet ohne großen Erfolg. Danke für euren Hilfe.

  • repiet repiet
    T3PO
    0 x
    10 Beiträge
    0 Hilfreiche Beiträge
    28. 07. 2009, 11:23

    Nun stehe ich auch vor dem selben Problem. Bei mir werden .txt Dateinen indiziert, aber keine .doc oder .pdf. Seiten werden weiterhin ganz toll indiziert. Im Backend kann ich feststellen, dass .txt Dateinen mit in den Index aufgenommen werden, .pdf und .docs nicht.

    Es ist alles installiert und getestet. Pdftotext liefert mir nach dem test eine tolle Textdatei, es gibt keine absoluten Pfade etc, wie im ersten Post beschrieben.

    Wo kann der Fehler liegen? Habe das ganze auf einem neuen Server installiert und ich bekomme das gleich Problem.

    Gruss,
    Repiet

  • gunther gunther
    Padawan
    0 x
    39 Beiträge
    0 Hilfreiche Beiträge
    13. 12. 2016, 10:53

    TYPO3 4.2.3
    indexed_search 2.11.0

    Checkliste für externe Dateien:

    1. normale Seiten werden indiziert, wenn nicht Cache überprüfen, bzw. config.index_externals = 1 und config.index_enable = 1 in die Konfiguration schreiben

    2. die notwendigen Bibliotheken (pdftotext, pdfinfo, catdoc) sollten installiert sein und funktionieren (Test hier:
    [url]http://www.typo3.net/forum/list/list_post//72633/?page=1&sword=pdf#pid268362[/url])

    3. die Verlinkungen auf die Dateien dürfen nicht absolut gesetzt sein, also nicht mit http:// beginnen (kann man über 'config.baseURL' erreichen, evtl. 'config.absRefPrefix' entfernen)

    Dann sollte es funktionieren - ich hatte ewig gesucht und bei es lag letztendlich bei Punkt 3.

    Grüße
    Gunther

  • mamo mamo
    R2-D2
    0 x
    119 Beiträge
    0 Hilfreiche Beiträge
    13. 12. 2016, 10:53

    Hallo gunther
    Leider werden meine PDF-Dateien immer noch nicht indiziert.

    Ich habe dieseelbe Konfiguration wie du:
    Typo3 4.2.3
    indexed_search 2.11.0

    1) Normale Seiten werden indiziert.

    2) Mit dem Test bin ich nicht klar gekommen. Wo genau hast du diesen Einzeiler eingefügt? Wie muss die Anweisung lauten? Was sollte herauskommen?
    Der Pfad zu den Dateien ist auf meinem Server /usr/local/bin

    3) Verlinkung auf die PDF-Dateien: Im Quelltext stehen bei mir relative Angaben, also fileadmin/../xxx.pdf
    In der Taskleiste (am unteren Bildschirmrand) erscheint jedoch die ganze URL, wenn ich mit der Maus über den Link fahre. Ist das falsch?

    Woran könnte es sonst noch liegen?
    Danke für Tipps.

  • Benjamecho Benjamech...
    Sternenflotten-Admiral
    0 x
    202 Beiträge
    0 Hilfreiche Beiträge
    13. 12. 2016, 10:53

    Danke für den Tipp! Ich habe Stunden gesucht und seit ich ... [TS]page.config.absRefPrefix = /[/TS] ... entfernt habe, werden PDF-Files gefunden.

    Ist das ein Bug der indexed_search-Extension?

    Jetzt muss ich vorerst wohl eine BaseURL setzen.