OpenAI транскрибировала более миллиона часов видео с YouTube для обучения GPT-4
Стало известно, что компании, работающие в области искусственного интеллекта, столкнулись со сложностями в сборе качественных данных для тренировки нейросетей. Были подробно описаны некоторые из методов, которые компании используют для решения этой проблемы. Как не удивительно, речь идет о действиях, попадающих в область авторского права.
OpenAI, которая отчаявшись в поисках тренировочных данных, разработала свою модель аудио транскрибации Whisper для преодоления этой проблемы, выполнив транскрибацию более миллиона часов видео с YouTube для обучения GPT-4 – их наиболее современной модели. Отмечается, что в компании знали о юридической оспариваемости этого шага, но считали его допустимым в рамках добросовестного использования. Президент OpenAI Грег Брокман лично занимался сбором видеоматериалов, используемых в этой работе.
Представитель OpenAI Линдси Хелд сообщил, что компания разрабатывает "уникальные" наборы данных для каждой из своих моделей, чтобы "помогать им понимать мир" и сохранять свою конкурентоспособность в исследованиях. Хелд добавил, что компания использует "множество источников, включая общедоступные данные и партнерства по необщедоступным данным", и что сейчас она рассматривает возможность создания собственных синтетических данных.
OpenAI исчерпала запасы полезных данных в 2021 году и обсуждала возможность транскрибации видео с YouTube, подкастов и аудиокниг. К тому времени её модели обучались на данных, которые включали в себя исходный код с Github, базы данных шахматных партий и учебные материалы с Quizlet.
Пресс-секретарь Google Мэтт Брайант сообщил, что компания "видела неподтвержденные сообщения" о деятельности OpenAI, добавляя, что "наши файлы robots.txt и условия обслуживания запрещают несанкционированное скрапирование или загрузку контента YouTube", отражая термины использования компанией. Генеральный директор YouTube Нил Мохан выразился о возможности использования YouTube OpenAI для обучения своей модели генерации видео Sora на этой неделе в подобной манере. Брайант сказал, что Google принимает "технические и юридические меры" для предотвращения подобного несанкционированного использования "когда у нас есть четкая юридическая и техническая основа для этого".
Google, OpenAI и весь мир обучения ИИ сталкиваются с быстро испаряющимися обучающими данными для своих моделей, которые становятся лучше, чем больше данных они поглощают.
Возможные решения этой проблемы включают в себя обучение моделей на "синтетических" данных, созданных собственными моделями, или так называемое "учебное обучение", которое включает подачу моделям высококачественных данных в упорядоченной форме в надежде, что они могут использовать гораздо меньше информации для "умных связей между концепциями", однако ни один из подходов пока не доказан. Но другой вариант для компаний - использование всего, что они могут найти, вне зависимости от того, имеют они на это разрешение или нет, и, основываясь на нескольких исках, поданных за последний год, этот путь, скажем так, более чем немного рискованный.
Комментарии (0)