agenda:a0312:mitschrift

Flo erzählt von China :)
Treffen VI/2012: Dienstag 14.08.2012 NUR
Flo lädt zu den IT Agenten ein, vorgemerkt für Juli, da in MUC
Froh bringt Redhat für die Softwarearchitekten-Walz ins Spiel
Xing-Gruppe wurde erstellt. Die Moderatoren sorgen für positive Aktivität
Todo für nächstes Mal: Fotoapparat
Todo bis Mai: Knackige Beschreibung was ist WSA?
- http://workshop-softwarearchitektur.de/arch/pitch

Vortrag Lucene (Michi)

viel aus dem Lucene in Action geliehen (http://my.safaribooksonline.com/book/web-development/seo/9781933988177)
Lucene ist sehr bequem, wenig Aufwand nötig
Integration von Lucene in Hibernate: Hibernate Search, nimmt einen die Integration in die eigene Anwendung ab, macht noch weniger Arbeit als Lucene
Warum doppelte Datenhaltung bei Suche in Datenbanken? Warum nicht Fulltext-Index der DB nutzen?
- Bei Oracle funktioniert es aus der Datenbank ganz gut und zuverlässig (CREATE FULLTEXT INDEX)
- Features: Operatoren wie NEAR, Stemming, Flexion, etc. Datenbank ist evtl. nicht so gut
- Das Lucene-.jar kann man leicht mal in der neuesten Version deployen (Ein Upgrade der DB ist wahrscheinlich haariger)
Lucene ist rasend schnell, einlesen und indizieren (angeblich 95GB/h)
Skalierbar: Keine Erfahrung, Michi verwendet synchrone Indizierungsmethode, es existiert aber auch eine asynchrone & eine near Realtime Indizierung
Joe: Den Indexer sollte man aufheben (Objekt in Java), wenn man ihn „loslässt“ und schließt, macht er ein fsync auf die Dateien → slow.
Lucene ist sehr klein (kleines jar)
Lucene gibt es für quasi alle Sprachen, Java, Pyhton, .NET, … etc.
- Dennis: Sind die Ports vollständig und aktuell? Michi: In Python funktioniert's auch sehr gut. (Python bindet Java-Lucene ein)
- Sind aber tatsächlich zum größten Teil echte Ports, nicht nur Konnektoren. http://wiki.apache.org/lucene-java/LuceneImplementations
Mit minimalem Aufwand maximales Ergebnis, spätestens mit Lucene in Action & Codebeispielen bekommt man einen riesigen Werkzeugkasten (den man i.d.R. gar nicht erst braucht)
- z.B. finde raus, was der Query-Analyzer im Detail aus einem Query macht
Joe: zusammen mit Lucene gibt's ein Tool um den Index anzusehen (Luke) - visualizing lucene indexes

Lucene Universe

Solr: complete search engine
- Search server, eher Web-targeted (Restful API, JSON)
- Solr als kompletter Service / Lucene eher als Library zum einbinden.
Tika: http://my.safaribooksonline.com/book/-/9781935182856 (Tika in Action)
- Quote: Apache Tika, an extensible Java-based framework for content analysis and detection
- Viele „Import-Filter“ (liest alle möglichen Datenformate, auch Office, epub, Videometadaten…)
- Alfresco hat Tika im Bauch
Google Enterprise connector
- „Hier ist mein Dateisystem, indiziere das bitte mal“
- Klingt so, als wäre das auf der gleichen Ebene wie Tika (Datenextraktion etc.)
- Man kann als Backend Lucene verwenden anstelle der proprietären Google-Magie
Hibernate Search: Schauen wir nachher noch genauer an
Nutch: http://nutch.apache.org/
- Nutch kann spidern, link-graphen verfolgen und ist auf web-suchen spezialisiert
- Baut auf Solr auf

Indexing API

Siehe Folie
Michi: 2,6 Mio records macht 400MB Indexdaten

Froh meint: Michi braucht Tree Style Tabs: https://addons.mozilla.org/de/firefox/addon/tree-style-tab/

Fragen für später:
- Froh: Indizierung von „nicht Text“, z.B. ein Logbuch eines Sicherheitssystems
  - Es gibt weblog, syslog analyzer für Lucene

Walz, Xing, Lucene, Solr, Hibernate, Oracle, Minimax