Digital In Arbeit
Wissen

Das geschriebene Wort wird digital

1945 1960 1980 2000 2020
1945 1960 1980 2000 2020

Die Österreichische Nationalbibliothek lässt 400.000 Bücher von Google digitalisieren. Kritikern ist das amerikanische Unternehmen wegen Missachtung des Urheberrechtes jedoch ein Dorn im Auge.

Mit verstaubten Lesestuben haben heutige Bibliotheken nichts mehr gemein. Moderne Bibliotheken sind Dienstleistungsunternehmen, ihr Produkt ist das niedergeschriebene Wissen unzähliger Generationen. Seit einigen Jahren wächst die Anzahl der Einrichtungen, die ihre Bestände sukzessive einscannen und in digitaler Form archivieren. Neben ihrer Funktion als unvergängliche Sicherungskopie lassen sich die Digitalisate natürlich auch ins Internet stellen und stehen somit weltweit einer potenziell unbegrenzten Menge an lesefreudigen Menschen auf dem heimischen Monitor zur Verfügung.

Bislang waren Digitalisierungsprojekte meist geförderte Einzelinitiativen mit eng definiertem inhaltlichem Fokus (so hat zum Beispiel die Österreichische Akademie der Wissenschaften sämtliche Ausgaben von Karl Kraus’ „Fackel“ digitalisiert und ins Netz gestellt). Mit zuvor ungekanntem Anspruch auf Vollständigkeit betreibt dagegen seit 2005 Google die Bücherdigitalisierung. Im Jahr 2005 rief der amerikanische Suchmaschinenprimus seinen Dienst „Google Books“ ins Leben. Dessen ambitionierte Mission: das gesamte in Büchern gespeicherte Wissen der Welt zu digitalisieren und im Internet anzubieten.

Elite-Unis waren erste Partner

Ein echter Mehrwert für Nutzer bietet dabei die Möglichkeit der Volltextsuche nach Stichworten in den elektronischen Werken.

Bis heute hat Google nach eigenen Angaben zwölf Millionen Bücher gescannt. Zu den ersten Partnerbibliotheken gehörten jene amerikanischer Eliteunis wie Harvard und Stanford. Mittlerweile haben sich einige europäische Einrichtungen wie die Bayrische Staatsbibliothek angeschlossen. Mitte Juni ist die Österreichische Nationalbibliothek (ÖNB) dem stetig wachsenden Google-Netzwerk beigetreten. ÖNB-Generaldirektorin Johanna Rachinger lobt den Deal als bislang größtes Private-Public-Partnership-Projekt im hiesigen Kulturbereich und als „Meilenstein in der Demokratisierung des Wissens“. Konkret werden 400.000 Bücher aus den Jahren 1501 bis etwa 1850 von Google gescannt. Die Kosten dafür übernimmt das Unternehmen. Müsste die ÖNB sie selbst tragen, würden sie das Budget mit 30 Millionen Euro belasten. Nach Abschluss des Projektes sollen 14 Prozent der ÖNB-Bestände digitalisiert sein. Für Rachinger ist das ein Wert, der auch eine europäische Dimension aufweist. Denn die Bibliothek darf die Daten nicht nur auf ihren eigenen Servern speichern und selbst anbieten, sondern auch weitergeben. Zum Beispiel an die Europäische Digitale Bibliothek Europeana. Dieses von der Europäischen Kommission geförderte Digitalisierungsprojekt leidet derzeit noch an einer vergleichsweise dürftigen Menge an gescannten Werken. „Die ÖNB wird die erste Bibliothek sein, die eine wirklich relevante Masse an Daten in Europeana einbringt“, sagt Johanna Rachinger.

Die Bestände der ÖNB, die von Google digitalisiert werden sollen, sind sämtlich urheberrechtsfrei.

Vorwürfe wegen Rechtsverletzung

Das Unternehmen war in den vergangenen Jahren wiederholt mit dem Vorwurf konfrontiert, es stelle urheberrechtlich geschützte Bücher online. In Frankreich hat Google deshalb einen Prozess gegen den Verlag La Martiniere verloren und muss 300.000 Euro Schadenersatz bezahlen. In den USA harrt ein Vergleich, das mittlerweile berühmt-berüchtigte „Google Books Settlement Agreement“, zwischen dem Unternehmen und den Klagsparteien (Authors Guild und die Association of American Publishers) seit Jahren der höchstgerichtlichen Bestätigung.

Auch in technischen Belangen muss sich Google Kritik gefallen lassen. Mit etwas beckmesserischer Akribie hat der amerikanische Linguist Geoffrey Nunberg von der School of Information der Universität Berkeley in seinem Blog auf zahlreiche Mängel der Google-Digitalisate hingewiesen. Besonders delikat: Die Suche nach dem Begriff „Internet“ ergibt mehr als Tausend Bücher die vor 1750 erschienen sind. Auch manche Jahreszahlen in den Erscheinungsdaten sind falsch. Solche Fehler weisen auf eine mangelhafte Scanqualität hin. Denn die Trefferquote der Texterkennungssoftware wird durch unscharfe Buchstaben oder Schatten auf den Seiten unfreiwillig in die Irre geführt. Als Daumenregel gilt, dass bei einer Bildauflösung von 300 bis 400 dpi die Erkennungsquote der anschließenden Texterkennung 95 bis 99 Prozent beträgt. Die Tatsache, dass Google Details zu ihren Scanverfahren streng geheim hält, gießt da noch Öl ins Feuer. „Google scheint die Methode, quick and dirty‘ zu bevorzugen“, ätzt beispielsweise Christoph Bauer, Geschäftsführer des österreichischen Unternehmens Treventus.

Weg zur virtuellen Bibliothek

Ihm kann es nur recht sein, denn Treventus ist mit einem Scanroboter auf dem Markt, der pro Stunde 2500 Buchseiten automatisiert scannen kann. „Wir verwenden eine sanfte Digitalisierung, bei der die Bücher optimal geschont werden“, sagt Bauer. So werden die Werke auf dem Rücken liegend in einem Winkel von 60 Grad geöffnet. Eine spezielle Prismenoptik fährt bis knapp an den Buchfalz und fotografiert die Seiten. Auch die Bayerische Staatsbibliothek scannt ihre besonders wertvollen Bände mit dem Treventus-Roboter.

Der Weg zur virtuellen Bibliothek ist weltweit beschritten.

In Österreich hat die Universitäts- und Landesbibliothek Tirol ein Digitalisierungsprojekt abgeschlossen: 216.000 hauptsächlich deutsche Dissertationen der Jahre 1925 bis 1988 wurden eingescannt – in Summe 22 Millionen Einzelseiten. Internationale Dimension haben zum Beispiel das „Projekt Gutenberg“ oder „Turning the Pages“ der British Library.

Dem Vorteil geografisch unbeschränkten Zugriffs auf weltweit verteilte Buchbestände steht die Bedrohung von Urheberrechten gegenüber. Doch wenn diese Unsitte erst einmal in den Griff gebracht ist, darf man sich wohl uneingeschränkt darüber freuen, dass das World Wide Web auch humanistisch geneigten Nutzern Essenzielles zu bieten hat.

Die Österreichische Nationalbibliothek lässt 400.000 Bücher von Google digitalisieren. Kritikern ist das amerikanische Unternehmen wegen Missachtung des Urheberrechtes jedoch ein Dorn im Auge.

Mit verstaubten Lesestuben haben heutige Bibliotheken nichts mehr gemein. Moderne Bibliotheken sind Dienstleistungsunternehmen, ihr Produkt ist das niedergeschriebene Wissen unzähliger Generationen. Seit einigen Jahren wächst die Anzahl der Einrichtungen, die ihre Bestände sukzessive einscannen und in digitaler Form archivieren. Neben ihrer Funktion als unvergängliche Sicherungskopie lassen sich die Digitalisate natürlich auch ins Internet stellen und stehen somit weltweit einer potenziell unbegrenzten Menge an lesefreudigen Menschen auf dem heimischen Monitor zur Verfügung.

Bislang waren Digitalisierungsprojekte meist geförderte Einzelinitiativen mit eng definiertem inhaltlichem Fokus (so hat zum Beispiel die Österreichische Akademie der Wissenschaften sämtliche Ausgaben von Karl Kraus’ „Fackel“ digitalisiert und ins Netz gestellt). Mit zuvor ungekanntem Anspruch auf Vollständigkeit betreibt dagegen seit 2005 Google die Bücherdigitalisierung. Im Jahr 2005 rief der amerikanische Suchmaschinenprimus seinen Dienst „Google Books“ ins Leben. Dessen ambitionierte Mission: das gesamte in Büchern gespeicherte Wissen der Welt zu digitalisieren und im Internet anzubieten.

Elite-Unis waren erste Partner

Ein echter Mehrwert für Nutzer bietet dabei die Möglichkeit der Volltextsuche nach Stichworten in den elektronischen Werken.

Bis heute hat Google nach eigenen Angaben zwölf Millionen Bücher gescannt. Zu den ersten Partnerbibliotheken gehörten jene amerikanischer Eliteunis wie Harvard und Stanford. Mittlerweile haben sich einige europäische Einrichtungen wie die Bayrische Staatsbibliothek angeschlossen. Mitte Juni ist die Österreichische Nationalbibliothek (ÖNB) dem stetig wachsenden Google-Netzwerk beigetreten. ÖNB-Generaldirektorin Johanna Rachinger lobt den Deal als bislang größtes Private-Public-Partnership-Projekt im hiesigen Kulturbereich und als „Meilenstein in der Demokratisierung des Wissens“. Konkret werden 400.000 Bücher aus den Jahren 1501 bis etwa 1850 von Google gescannt. Die Kosten dafür übernimmt das Unternehmen. Müsste die ÖNB sie selbst tragen, würden sie das Budget mit 30 Millionen Euro belasten. Nach Abschluss des Projektes sollen 14 Prozent der ÖNB-Bestände digitalisiert sein. Für Rachinger ist das ein Wert, der auch eine europäische Dimension aufweist. Denn die Bibliothek darf die Daten nicht nur auf ihren eigenen Servern speichern und selbst anbieten, sondern auch weitergeben. Zum Beispiel an die Europäische Digitale Bibliothek Europeana. Dieses von der Europäischen Kommission geförderte Digitalisierungsprojekt leidet derzeit noch an einer vergleichsweise dürftigen Menge an gescannten Werken. „Die ÖNB wird die erste Bibliothek sein, die eine wirklich relevante Masse an Daten in Europeana einbringt“, sagt Johanna Rachinger.

Die Bestände der ÖNB, die von Google digitalisiert werden sollen, sind sämtlich urheberrechtsfrei.

Vorwürfe wegen Rechtsverletzung

Das Unternehmen war in den vergangenen Jahren wiederholt mit dem Vorwurf konfrontiert, es stelle urheberrechtlich geschützte Bücher online. In Frankreich hat Google deshalb einen Prozess gegen den Verlag La Martiniere verloren und muss 300.000 Euro Schadenersatz bezahlen. In den USA harrt ein Vergleich, das mittlerweile berühmt-berüchtigte „Google Books Settlement Agreement“, zwischen dem Unternehmen und den Klagsparteien (Authors Guild und die Association of American Publishers) seit Jahren der höchstgerichtlichen Bestätigung.

Auch in technischen Belangen muss sich Google Kritik gefallen lassen. Mit etwas beckmesserischer Akribie hat der amerikanische Linguist Geoffrey Nunberg von der School of Information der Universität Berkeley in seinem Blog auf zahlreiche Mängel der Google-Digitalisate hingewiesen. Besonders delikat: Die Suche nach dem Begriff „Internet“ ergibt mehr als Tausend Bücher die vor 1750 erschienen sind. Auch manche Jahreszahlen in den Erscheinungsdaten sind falsch. Solche Fehler weisen auf eine mangelhafte Scanqualität hin. Denn die Trefferquote der Texterkennungssoftware wird durch unscharfe Buchstaben oder Schatten auf den Seiten unfreiwillig in die Irre geführt. Als Daumenregel gilt, dass bei einer Bildauflösung von 300 bis 400 dpi die Erkennungsquote der anschließenden Texterkennung 95 bis 99 Prozent beträgt. Die Tatsache, dass Google Details zu ihren Scanverfahren streng geheim hält, gießt da noch Öl ins Feuer. „Google scheint die Methode, quick and dirty‘ zu bevorzugen“, ätzt beispielsweise Christoph Bauer, Geschäftsführer des österreichischen Unternehmens Treventus.

Weg zur virtuellen Bibliothek

Ihm kann es nur recht sein, denn Treventus ist mit einem Scanroboter auf dem Markt, der pro Stunde 2500 Buchseiten automatisiert scannen kann. „Wir verwenden eine sanfte Digitalisierung, bei der die Bücher optimal geschont werden“, sagt Bauer. So werden die Werke auf dem Rücken liegend in einem Winkel von 60 Grad geöffnet. Eine spezielle Prismenoptik fährt bis knapp an den Buchfalz und fotografiert die Seiten. Auch die Bayerische Staatsbibliothek scannt ihre besonders wertvollen Bände mit dem Treventus-Roboter.

Der Weg zur virtuellen Bibliothek ist weltweit beschritten.

In Österreich hat die Universitäts- und Landesbibliothek Tirol ein Digitalisierungsprojekt abgeschlossen: 216.000 hauptsächlich deutsche Dissertationen der Jahre 1925 bis 1988 wurden eingescannt – in Summe 22 Millionen Einzelseiten. Internationale Dimension haben zum Beispiel das „Projekt Gutenberg“ oder „Turning the Pages“ der British Library.

Dem Vorteil geografisch unbeschränkten Zugriffs auf weltweit verteilte Buchbestände steht die Bedrohung von Urheberrechten gegenüber. Doch wenn diese Unsitte erst einmal in den Griff gebracht ist, darf man sich wohl uneingeschränkt darüber freuen, dass das World Wide Web auch humanistisch geneigten Nutzern Essenzielles zu bieten hat.