Howto Typo3 4.3.0 + crawler 3.0.5 + indexed search

  • medienlounge medienlou...
    TYPO3-Anwärter
    0 x
    6 Beiträge
    0 Hilfreiche Beiträge
    09. 03. 2010, 08:01

    Hallo Forum,
    ich versuche eine funktionierende Konfiguration für typo3 mit crawler und indexed search zu finden.
    mein Problem:
    1. Indexed search
    erster Test - disableFrontendIndexing und useCrawlerForExternalFiles nicht angehakt.
    Ergebnis: Über Web -> Info werden Seiten indiziert und auch PDF Dokumente gefunden.
    Dort kann ich mit Klick auf den Dokumentennamen auch die Keywords sehen.
    Daher sollten die pdftotext usw Tools richtig funktionieren und die Dateien richtig parsen.
    Problem ist nun das die Suche keines der Keywords ausgibt.
    Konfiguration im Template:
    [TS]# Konfiguration der Indizierten Suche

    config.index_enable = 1
    config.index_externals = 1[/TS]

    Frage ist nun - muß ich noch bezügl Sprache oder sonstigem konfigurieren?

    der nächste Versuch:
    2. Crawler.
    Hier gibt es einige Anleitungen - vieles sehr veraltert und daher dieser neue Thread.
    Änderungen in der Indexed Search:
    disableFrontendIndexing und useCrawlerForExternalFiles jetzt angehakt
    Crawler installiert und konfiguriert.
    Dann im Backend einen User _cli_crawler anlegen - war früher auch mal _cli_lowlevel.
    Wenn das funktioniert kann man über ssh auf dem Server das Skript
    php /pfad/zum/www/typo3/cli_dispatch.phpsh crawler
    bzw gibt zumindest keine Fehlermeldungen aus.
    Den angeblichen Konfigurationsrecord kann ich zwar über Typo3 anlegen, aber so richtig funktioniert er nicht.
    Daher mein Workaround (empfohlen über wiki.typo3.)
    [TS]tx_crawler.crawlerCfg.paramSets.test =
    tx_crawler.crawlerCfg.paramSets.test {
    cHash = 1
    procInstrFilter = tx_indexedsearch_reindex, tx_indexedsearch_crawler,tx_cachemgm_recache
    baseUrl = http://192.168.1.99/crawler/
    }

    #set up a crawl for users who have group id of 1
    tx_crawler.crawlerCfg.paramSets.grp1 < tx_crawler.crawlerCfg.paramSets.test
    tx_crawler.crawlerCfg.paramSets.grp1{
    userGroups = 1
    }[/TS]
    Hiermit kann ich eine der beiden Konfigurationen auswählen, ich bekomme dann auch über
    Web ->Info den Punkt Crawler, kann mich hier durchklicken und bekomme eine Liste mit den zu crawlenden Seiten, und wenn ich dort bei jeder manuell auf das "refresh icon" klicke, dann "tut sich" da etwas.
    Nur von erfolg ist die Suche auch nicht.

    Bin mittlerweile etwas ratlos und hoffe auf Tipps.

    noch etwas, der Crawler in der Version 3.0.5 hat meines Erachtens nach auch einen Bug:
    http://bugs.typo3.org/view.php?id=13703
    Mit dem angegebenen Workaround scheint es zu funktionieren.

    Nur generell noch keine Vernünftige Such bzw Ergebnisausgabe.

    Letzte Anmerkung:
    habe zur Ausgabe auf einer Seite den Seiteninhalt Search form angelegt, Ziel die selbe Seite.
    Sollte ja auch richtig sein, nachdem er ja manches findet, aber einfach nicht Inhalte von pdf Dokumenten ausgeben will.


  • 1
  • jasperr jasperr
    T3PO
    0 x
    20 Beiträge
    0 Hilfreiche Beiträge
    09. 03. 2010, 15:45

    hi!
    danke für den neuerlichen Versuch einer Erklärung.

    Ich denke, ich konnte soweit alles richtig konfigurieren (habe es über ein Crawlerdatensatz gemacht mit Crawler 3.0.0)

    Allerdings habe ich nun das große Problem, das offensichtlich der Cronjob nicht richtig läuft. Allerdings bin ich im Web immer nur auf Hilfeleistung für Linux-Systeme gestoßen.
    Der Server auf dem die geschichte laufen muss, ist aber ein Windowsserver und ich habe nicht den blassesten Schimmer wie ich das lösen soll...

    Grüße,
    Jasper

    EDIT: Habs nun herausgefunden: man kann es ganz einfach mit einer batchdatei lösen, die von dem Windows-feature "geplante tasks" in gewünschter regelmäßigkeit aufgerufen wird.

    Stellt sich mir nun die frage: Wie ändere ich den CLI-Path, der bei "INFO -> Site Crawler -> Crawling Processes" angezeigt wird? Der erste teil mit dem pfad zur PHP.exe ist klar (im EXT-Manager in den einstellungen zum Crawler). Der Pfad zum script ist mir jedoch schleierhaft...

  • medienlounge medienlou...
    TYPO3-Anwärter
    0 x
    6 Beiträge
    0 Hilfreiche Beiträge
    13. 12. 2016, 10:53

    Hallo Forum,
    ich versuche eine funktionierende Konfiguration für typo3 mit crawler und indexed search zu finden.
    mein Problem:
    1. Indexed search
    erster Test - disableFrontendIndexing und useCrawlerForExternalFiles nicht angehakt.
    Ergebnis: Über Web -> Info werden Seiten indiziert und auch PDF Dokumente gefunden.
    Dort kann ich mit Klick auf den Dokumentennamen auch die Keywords sehen.
    Daher sollten die pdftotext usw Tools richtig funktionieren und die Dateien richtig parsen.
    Problem ist nun das die Suche keines der Keywords ausgibt.
    Konfiguration im Template:
    [TS]# Konfiguration der Indizierten Suche

    config.index_enable = 1
    config.index_externals = 1[/TS]

    Frage ist nun - muß ich noch bezügl Sprache oder sonstigem konfigurieren?

    der nächste Versuch:
    2. Crawler.
    Hier gibt es einige Anleitungen - vieles sehr veraltert und daher dieser neue Thread.
    Änderungen in der Indexed Search:
    disableFrontendIndexing und useCrawlerForExternalFiles jetzt angehakt
    Crawler installiert und konfiguriert.
    Dann im Backend einen User _cli_crawler anlegen - war früher auch mal _cli_lowlevel.
    Wenn das funktioniert kann man über ssh auf dem Server das Skript
    php /pfad/zum/www/typo3/cli_dispatch.phpsh crawler
    bzw gibt zumindest keine Fehlermeldungen aus.
    Den angeblichen Konfigurationsrecord kann ich zwar über Typo3 anlegen, aber so richtig funktioniert er nicht.
    Daher mein Workaround (empfohlen über wiki.typo3.)
    [TS]tx_crawler.crawlerCfg.paramSets.test =
    tx_crawler.crawlerCfg.paramSets.test {
    cHash = 1
    procInstrFilter = tx_indexedsearch_reindex, tx_indexedsearch_crawler,tx_cachemgm_recache
    baseUrl = http://192.168.1.99/crawler/
    }

    #set up a crawl for users who have group id of 1
    tx_crawler.crawlerCfg.paramSets.grp1 < tx_crawler.crawlerCfg.paramSets.test
    tx_crawler.crawlerCfg.paramSets.grp1{
    userGroups = 1
    }[/TS]
    Hiermit kann ich eine der beiden Konfigurationen auswählen, ich bekomme dann auch über
    Web ->Info den Punkt Crawler, kann mich hier durchklicken und bekomme eine Liste mit den zu crawlenden Seiten, und wenn ich dort bei jeder manuell auf das "refresh icon" klicke, dann "tut sich" da etwas.
    Nur von erfolg ist die Suche auch nicht.

    Bin mittlerweile etwas ratlos und hoffe auf Tipps.

    noch etwas, der Crawler in der Version 3.0.5 hat meines Erachtens nach auch einen Bug:
    http://bugs.typo3.org/view.php?id=13703
    Mit dem angegebenen Workaround scheint es zu funktionieren.

    Nur generell noch keine Vernünftige Such bzw Ergebnisausgabe.

    Letzte Anmerkung:
    habe zur Ausgabe auf einer Seite den Seiteninhalt Search form angelegt, Ziel die selbe Seite.
    Sollte ja auch richtig sein, nachdem er ja manches findet, aber einfach nicht Inhalte von pdf Dokumenten ausgeben will.

  • jasperr jasperr
    T3PO
    0 x
    20 Beiträge
    0 Hilfreiche Beiträge
    13. 12. 2016, 10:53

    hi!
    danke für den neuerlichen Versuch einer Erklärung.

    Ich denke, ich konnte soweit alles richtig konfigurieren (habe es über ein Crawlerdatensatz gemacht mit Crawler 3.0.0)

    Allerdings habe ich nun das große Problem, das offensichtlich der Cronjob nicht richtig läuft. Allerdings bin ich im Web immer nur auf Hilfeleistung für Linux-Systeme gestoßen.
    Der Server auf dem die geschichte laufen muss, ist aber ein Windowsserver und ich habe nicht den blassesten Schimmer wie ich das lösen soll...

    Grüße,
    Jasper

    EDIT: Habs nun herausgefunden: man kann es ganz einfach mit einer batchdatei lösen, die von dem Windows-feature "geplante tasks" in gewünschter regelmäßigkeit aufgerufen wird.

    Stellt sich mir nun die frage: Wie ändere ich den CLI-Path, der bei "INFO -> Site Crawler -> Crawling Processes" angezeigt wird? Der erste teil mit dem pfad zur PHP.exe ist klar (im EXT-Manager in den einstellungen zum Crawler). Der Pfad zum script ist mir jedoch schleierhaft...

  • 1