04. 06. 2012, 13:49

Hallo,

ich habe für die Indexierung Site Crawler im Einsatz. Insgesamt habe ich vier Definitionen, normaler Content und News, für normale Besucher und angemeldete Besucher.

Nun habe ich festgestellt, dass Site Crawler scheinbar das Log zerstört, mit dem AWstats seine Statistiken erzeugt. Zu dem Thema habe ich auch einen leider etwas älten Thread gefunden, der aber leider keine Lösung beinhaltet:

[url=]http://lists.typo3.org/pipermail/typo3-english/2011-February/073410.html[/url]

Immerhin habe ich darüber herausgefunden, dass mit den Log-Einträgen was faul ist. Und zwar sollten normalerweise hinter der IP zwei Bindestriche sein, etwa so:

  1. 111.22.33.44 - - [10/Jan/2001:02:14:14 +0200] ...

Wenn aber der Crawler für angemeldete User durchläuft, wird nur noch ein Bindestrich angezeigt:
  1. 111.22.33.44 - [10/Jan/2001:02:14:14 +0200] ...

Auf Terminal-Ebene konnte ich das Log mit sed reparieren, aber für eine regelmäßige Reindizierung ist das ja leider nicht brauchbar.
  1. sed 's/192.186.x.y - /192.186.x.y - - /g' old.log > new.log.neu

Natürlich vorher ein Backup machen und wenn fertig, das neue Log in den ursprünglichen Namen wieder umbenennen.

So muss man wenigstens nicht alle "unbrauchbaren" Zeilen mühevoll entfernen.

Mir ist auch aufgefallen, dass, wenn ein angemeldeter User einen Log-Eintrag erzeugt, der zweite Bindestrich mit dem Usernamen ersetzt ist.

Hat hier vielleicht jemand eine Idee, wie man dieses Problem los wird?

Vielen Dank im Voraus und mit herzlichen Grüßen,

Ralf