В Совете Федерации занимаются разработкой законопроекта, который закрепит в законодательстве понятие синтеза голоса при помощи искусственного интеллекта, а также урегулирует вопрос охраны голоса наравне с изображением. Об этом «Известиям» рассказал зампред совета по развитию цифровой экономики при Совете Федерации Артем Шейкин.
Синтез голоса служит продуктом работы искусственного интеллекта. С ее помощью возможно сгенерировать речь конкретного человека уже без его непосредственного участия. При этом «обучается» искусственный интеллект на основе записи голоса, которую сделал его обладатель. Чем больше исходного материала, тем правдоподобней получится синтезированная речь. Она может использоваться в голосовых помощниках, колл-центрах, онлайн-синтезаторах, озвучке книг, рекламных роликах и так далее.
— Сейчас мы занимаемся вопросом проработки законопроекта, который будет регламентировать правовые ситуации, возникающие в связи с синтезом или генерацией голоса существующего человека при помощи технологий искусственного интеллекта. Необходимые изменения в Гражданский кодекс РФ будут устанавливать понятие «синтез голоса», регулировать вопрос охраны голоса граждан, а также ответственность за несогласованную с человеком генерацию аудиодорожки его голосом, — пояснил сенатор.
В настоящее время в статье 152.1 ГК РФ говорится только об охране изображения гражданина. В случае включения туда пункта об охране голоса будет запрещено обнародовать и использовать записи без согласия гражданина, а после его смерти — без согласия детей супруга или родителей. Кроме того, в случае внесения соответствующих изменений в статью ГК РФ владелец голоса сможет требовать удаления записи из открытого доступа в случае распространения ее в интернете без спроса.
На прошлой неделе Артем Шейкин провел заседание секции «Искусственный интеллект» совета по развитию цифровой экономики при Совфеде, где как раз обсуждались юридические пробелы в использовании синтезированной речи. По итогам секции будут подготовлены рекомендации для федеральных министерств. Среди предложений — внести ясность в понятие «право на переработку голоса», ввести маркировку при использовании синтезированного голоса и определить операторов маркировки синтезов, закрепить положения, согласно которым договоры отчуждения исключительного права не могут включать в себя право на синтез голоса. Кроме того, в итоговое решение будет включена рекомендация, чтобы условие о синтезе регулировалось в отдельном лицензионном договоре использования голоса под каждый конкретный проект.
При заключении договора на озвучку диктор и правда заключает с заказчиком соглашение об отчуждении прав на запись голоса, то есть она больше не принадлежит обладателю. При этом заказчик может распоряжаться ей по своему усмотрению, объясняет управляющий партнер юридической компании Enterprise Legal Solutions Юрий Федюкин.
— Человеческий голос сам по себе не является объектом интеллектуальной собственности, его невозможно зарегистрировать в качестве товарного знака или как-то иначе защитить его от копирования. Объектом является фонограмма, записанная с использованием голоса, но не сам голос, а права на фонограмму совершенно не обязательно принадлежат диктору, — сказал юрист «Известиям».
По словам Юрия Федюкина, правообладатель имеет право распоряжаться фонограммой любым законным способом, в том числе для дробления записи на элементы с целью последующего монтажа или обработки с использованием специализированного ПО или нейросетей. При этом гражданское законодательство предполагает возможность еще на стадии заключения договора включить в него положения, ограничивающие сроки и цели использования фонограммы.
— Например, диктор может потребовать включить в договор положение, запрещающее последующее использование фонограммы нейросетями. То есть теоретически можно убедить заказчика или работодателя не использовать записанную фонограмму в каких-то конкретных целях либо запретить ему это на стадии заключения договора, поскольку потом это сделать будет уже невозможно. Судебная практика достаточно однозначно по таким спорам складывается в пользу правообладателей, причем как в России, так и за рубежом, — отметил Юрий Федюкин.
В Госдуме согласны с тем, что развитие генеративных нейросетей, в том числе и синтезирующих речь на основе технологии машинного обучения, действительно «ставит некоторые вопросы перед государством».
— Мы уже стали свидетелями волны дипфейков, когда подделываются голоса известных людей и политиков, часто в преступных целях. С другой стороны, возникает коллизия, связанная с коммерческим использованием сгенерированного голоса на основе биометрии актера. Напрямую законы такие случаи не регулируют. Да, есть авторское право и закон о сборе биометрии, но они во многом неприменимы для сгенерированного голоса, — заявил «Известиям» глава комитета Госдумы по информполитике, информационным технологиям и связи Александр Хинштейн.
Он добавил, что парламентариям предстоит законодательно закрепить определение нейросетей и рамки их использования. Это может быть сделано в рамках подготовки Цифрового кодекса.
Ожидаемо, что в вопросе бесконтрольного распространения синтезированной речи пострадавшей стороной в основном выступают дикторы и актеры озвучки. В начале 2023 года Союз дикторов России обратился в Госдуму с просьбой помочь в принятии новых законодательных норм относительно синтеза человеческого голоса при помощи искусственного интеллекта. В письме указывалось, что дикторы обеспокоены тем, что уже столкнулись с проблемой потери прав на собственный голос и кражей голосов, при том что суд не может урегулировать подобные ситуации.
Дикторы и актеры дубляжа не выступают против технологии синтеза речи и не требуют ее запретить, хотя она и бросает вызов профессии, заявил на заседании секции по искусственному интеллекту председатель правления Союза дикторов Александр Лапшин. При этом он отметил, что мошенники уже используют синтезированные голоса.
— Когда вам звонят голосом родного человека, вы не сразу можете понять, что это подмена. Технологии, которые используются, никак не контролируются. Сейчас в законе даже нет термина «синтезированный голос». Создатели синтеза в первую очередь обратили внимание на известные, узнаваемые голоса, — рассказал Лапшин.
По его словам, сейчас многие разработчики просто скупают голоса, причем часто обманным путем: не говорят, в каких проектах это будет использоваться, пользуясь правом отчуждения, правом на переработку или правом передачи третьим лицам.
— Есть примеры, когда дикторы 15 лет назад записали определенный объем информации, озвучивания. И сейчас обнаруживают на разных ресурсах, что без их ведома этот голос продается. Они также подписывали этот договор отчуждения, но они понятия не имели, что такие технологии будут, — подчеркнул Лапшин.
Подтверждением слов председателя правления Союза дикторов может стать история актрисы дубляжа Алены Андроновой. В Совфеде она рассказала, что записала свой голос для создания синтеза. Запись предназначалась для колл-центра. В дальнейшем синтез попал в открытый доступ, где его «мог использовать абсолютно любой желающий».
«Первое, где был услышан мой голос, — это реклама перед порно, а также в рекламе казино. Голос моего коллеги сейчас звучит в агитационных политических роликах абсолютно разной направленности. Мы не знаем, что с этим делать», — пояснила Андронова.
Актриса уверена, что сейчас для создания более-менее «живого» синтеза достаточно буквально 5–10 минут записи голоса.
«Одного голосового сообщения, выступления по телевизору достаточно, чтобы вытащить ядро голоса. Это будет не роботизированный голос. Сейчас мы еще пока отличаем микронюансы, технические сбои, срывы, но их уже почти нет», — сказала она.
В компании «Яндекс» допускают, что уже через два года реально существующий человеческий голос для создания синтеза уже будет не нужен. Соответственно, пропадет потребность и в договорах с дикторами.
— Сейчас новый голос, которого нет у человека, генерируется не очень хорошо. Мой осторожный прогноз: примерно от года до двух пройдет до того момента, когда этот вопрос потеряет актуальность, исходный голос будет не нужен. Когда будет создаваться человеческий голос, которого не существовало никогда в природе, — пояснил директор по развитию технологий искусственного интеллекта ООО «Яндекс» Александр Крайнов.
Он также спрогнозировал, что уже через три–четыре года все качественные модели для синтеза голоса появятся в открытом доступе.