Данные находятся в открытом доступе, чтобы предоставить ценные ресурсы для обучения ИИ, сообщает Ferra.
Эта база включает в себя книги из проекта Google Books, на которые больше не распространяется авторское право.
Коллекция в пять раз больше, чем известный набор данных Books3. Она охватывает самые разные жанры, от классики вроде Шекспира и Диккенса до нишевых произведений на разных языках.
Стартапам и исследователям в области ИИ предоставят доступ к «высококачественным данным», которые обычно имеют только крупные технологические компании.
Набор данных будет доступен для использования наряду с другими лицензированными материалами для построения моделей ИИ.