Es gibt eine Reihe verschiedener automatischer Klassifikationsverfahren. Aber alle basieren auf 2 Schritten: der Merkmalsbildung ("was soll unterschieden / klassifiziert werden") und dem Klassifikationsverfahren ("wie aufwendig soll das Training und wie gut soll das Klassifikationsergebnis sein").

Merkmalsbildung: Bei bildhaften Geschäftsdokumenten kann man Bildmerkmale (z. B. das Logo) verwenden, aber auch Textsequenzen aus OCR, oder beides. Bei Werkstoffuntersuchungen sind es andere bildgebende Merkmale. Und bei Spracherkennung / Sprecheridentifikation natürlich wieder andere Merkmale. Und bei Textklassifikation natürlich codierte Informationen (z.B. Unicode, ASCII etc.), also Texte.

Gegenwärtig sind Texte aber einfach unser Lieblingsthema.

Klassifikationsverfahren: Auch hier ist es wieder abhängig von der Anwendung, welches Verfahren man einsetzt. Handelt es sich um eine Anwendung, für die ein manuelles regelbasiertes Verfahren ausreicht, das beispielsweise bei einer relativ begrenzten Variantenzahl mit harten Schnitten das Gewünschte erfasst und alle anderen Feinheiten verpasst (oder diese nur mir viel höherem Trainingsaufwand ansatzweise mitnimmt) oder handelt es sich um eine Anwendung, die von vielen "weichen" Ausdrucksweisen eines Textes lebt und die vollautomatisch eine breite Varianz an Merkmalen / Texten erfassen soll?

Exzellente DocStream®-Klassifikationsqualität bei automatisierter Dateiklassifizierung und Text-/Dokumentenklassifikation:

- Als forschungsnaher Anbieter konzentrieren wir uns ausschließlich darauf, unser d-Class Verfahren in Form von Plug-in Engines anzubieten. Die schönen Bedienoberflächen überlassen wir anderen.

- Wir geben Funktionsgarantie mit Klassifikationsgüte. Wir verkaufen keine Trainingstools und lassen Sie dann mit der Qualitätsfrage alleine.

- d-Class arbeitet ausschließlich auf Basis reiner Textdateien (TXT), für strukturierte Dokumente (Formulare), für halbstrukturierte Dokumente (z.B. Rechnungen), für reine Texte (z.B. eMail).

- Hervorragende Klassifikationsgüte in aller Regel 92% + x, Verarbeitungsgeschwindigkeit am Beispiel von Textseiten (TXT) ca. 1.800/min = 108.000/h (Core2Duo E8400@3.00 GHz, WIN7_64)

Auto-Klassifizierung für IT-Security?

Innovative Konzepte für IT-Security wie IRM (Information Rights Management) schützen Dateien, indem Schutzinformationen (Berechtigungen) dort direkt angeheftet sind. Dazu muss bekannt sein, welches Textdokument (zumeist mit nicht-sprechendem Namen) im Gesamtbestand wie wichtig ist. Deshalb öffnen wir den fraglichen Text (*.txt) und auto-klassifizieren diesen nach vorgegebenen Klassen und in höchster Qualität. Diese Klassenkennungen sind dann das Maß für die zuzuweisenden Schutzinformationen. Angesichts der Fülle existierender geschäftlicher Textdokumente muss deren inhaltsbasierte Bestimmung nach Textklassen, die Klassifizierung, vollautomatisch erfolgen. Und diese Auto-Klassifizierung muss hochqualitativ sein, sonst drohen Informationslücken oder gar manuelle Nacharbeit.

ECM-Lösungsanbieter: VOTING gefällig?

Ja, es gibt bereits viele branchenspezifische ECM-Lösungen mit eleganten Bedienoberflächen am Markt. Für eMail-Verarbeitung und Archivierung. Für Posteingangsverabeitung. Für Dokumentenarchive. Mit mehr oder weniger guten Klassifikationsverfahren.
Doch letztlich richtet sich die Kundenzufriedenheit danach, was "unter der Haube" ist. Nach der Qualität der Dunkelverarbeitung. Steigern Sie Ihre Klassifikationsgüte durch Abgleich mittels einer unserer d-Class Engines. 

Poststellen: d-Class Plug-in für eine Scan-Strecke?

Die Poststelle als erste Registratur-Instanz? Ja, für aktenplanbasiertes Dokumentenmanagement bei komplexen, mehrdimensionalen Geschäftsvorfällen.
Nur Images erzeugen oder auch mehr? eMails kategorisieren? ECM-Anwendungen brauchen eine Ablagestruktur. Heften Sie fertig vortrainierte Kategorieangaben vollautomatisch an Ihre Posteingangsdokumente und der nachfolgende Verarbeitungsprozeßwird es Ihnen danken.
Lesestoff: www.postmaster-wissen.de/images/stories/downloads/4.3_Poststelle_als_erste_Registratur-Instanz.pdf
 
Unsere d-Class Engines machen aus Ihrer vorhandenen Lösung den Renner für vollautomatische Text- und Dokumentenklassifikation:

- Einfach Texte rein, zugehörige Kategorieangabe raus = Einfache Integration in vorhandene Software

Näheres zeigt unsere Schnittstellenbeschreibung (API).