Обвинения в адрес OpenAI за использование платных книг O’Reilly для обучения ИИ
Недавнее исследование указывает на то, что OpenAI могла обучать свои ИИ-модели на платных книгах O’Reilly без надлежащего лицензирования, что вызывает вопросы о нарушении авторских прав.

OpenAI столкнулась с новыми обвинениями, связанными с обучением своих ИИ-моделей. Недавнее исследование предполагает использование платных книг O’Reilly без соответствующих лицензионных соглашений. Исследование, проведённое проектом AI Disclosures Project, показывает, что модель GPT-4o от OpenAI демонстрирует высокую степень узнавания контента из этих платных источников, в отличие от своей предшественницы, GPT-3.5 Turbo.
В исследовании использовался метод DE-COP для обнаружения защищённого авторским правом контента в данных обучения языковых моделей. Этот метод проверяет способность модели отличать тексты, написанные людьми, от их перефразированных ИИ-версий, что может указывать на предварительное знакомство с оригинальными текстами.
Согласно результатам, GPT-4o с большей вероятностью обучалась на непубличных книгах O’Reilly по сравнению с более старыми моделями. Однако авторы исследования предупреждают, что их метод не является абсолютно точным, и OpenAI могла получить доступ к контенту через взаимодействия пользователей с ChatGPT.
OpenAI активно ищет высококачественные данные для обучения, включая заключение лицензионных соглашений с различными поставщиками контента. Несмотря на эти усилия, обвинения добавляют новые вопросы в продолжающуюся дискуссию о авторских правах и практике обучения ИИ.