Голосовой помощник Siri от Apple. Настройка и использование Siri

В данном обзоре я решил объединить все необходимые знания про Siri. Из статьи вы узнаете как настроить Siri, как ей пользоваться, что она умеет и зачем она вообще нужна.

Кто такая Siri? Что такое Siri?

Siri (англ. Speech Interpretation and Recognition Interface) - персональный помощник и вопросно-ответная система, разработанная для iOS. Siri использует обработку естественной речи, чтобы отвечать на вопросы и давать рекомендации. Siri приспосабливается к каждому пользователю индивидуально, изучая его предпочтения в течение долгого времени.

История Siri начинается в 2010 году, когда голосовое приложение попадает в App Store от компании Siri Inc. 28 апреля 2010 года Siri выкупает Apple.

Siri доступна на следующих девайсах.

  • iPhone 4S, 5, 5C, 5S, 6, 6 Plus
  • iPad Mini 1, 2, 3, iPad 3, 4, Air, Air 2
  • iPod Touch
  • Apple Watch

Siri на английском языке впервые появилась в iOS 5. Siri на русском вышла вместе с iOS 8.3 .

Как включить/выключить Siri?

В Настройках для Siri пока не выделили отдельный раздел. Поэтому заходим в Настройки->Основные->Siri . Включаем галочку Siri, если не включена.

После этого по центру экрана появляется сообщение, которое предупреждает пользователя, что запросы для Siri отправляются на сервера Apple. Жмём «Включить Siri»

Ниже мы видим настройки Siri (к ним ещё вернёмся). Нас интересует пункт Язык . Выбираем «Русский».

Теперь жмём кнопку Home на iPad/iPhone/iPod Touch и держим, не отрывая палец пару секунд. На iPad появится стартовое окно Siri.

Задаём свои вопросы - получаем ответы или какие-то действия от системы.

Настройки Siri

Настройки->Основные->Siri . Пройдёмся по конкретным опциям.

Разрешить «Привет, Siri» - включив данную опцию вы сможете активировать Siri, если телефон стоит на зарядке. Для этого надо сказать, ни за что не догадаетесь… «Привет, Siri».

Язык - выбор языка Siri. Да, вы можете общаться с Siri на любом известном вам языке. Причём для некоторых языков есть на выбор диалекты.

Надо понимать, что фразы для Siri наговаривает живой человек (диктор). Для этого нужны ресурсы: именно поэтому Siri на русском пока говорит одним женским голосом.

Аудиоотзыв - суть этой настройки: заставить молчать Siri, если телефон находится в бесшумном режиме. По умолчанию Siri будет подавать голос всегда.

Мои данные - этот пункт позволяет выбрать себя из программы Контакты. Siri будет к вам обращаться так, как указано в поле «Псевдоним» (если есть) или по имени.

Дополню, что Siri умеет понимать человеческий язык и она постоянно учится. То есть она понимает человеческие фразы вроде «Как дела?» и отвечает соответствующим образом. Пообщайтесь с Siri. :)

Также самые широкие возможности Siri даёт на английском языке. В русском языке многих дополнительных опций пока нет. В частности, английская Siri поддерживает систему WolframAlpha . Перевод на русский идёт, но точных сроков появления поддержки WolframAlpha в нашей Siri пока нет.

Siri встроена в CarPlay. CarPlay - это современный способ управления iPhone в автомобиле, когда на экран дисплея авто выводятся самые нужные приложения, адаптированные для водителя.

Популярные вопросы и ответы про Siri

Вопрос: Можно ли Siri установить на более старые девайсы? Почему Siri нет на iPad 2?

Ответ: Без джейлбрейка невозможно. Да и с джейлбрейком нужно искать актуальную инструкцию и не факт, что заработает.

По мнению большинства пользователей отсутствие Siri на старых девайсах - это проделки маркетологов Apple. Официальная версия - отсутствие на старых устройствах чипа фильтрации шума. Версия не очень правдоподобная.

Вопрос: Можно ли Siri установить на Android, на ПК, в OS X?

Ответ: Нет. На данный момент Siri - это разработка исключительно для мобильных девайсов Apple. На других платформах существуют конкуренты, аналоги и т.п, но не Siri.

Вопрос: Siri перестала или не начинала говорить. Что делать? Как вернуть ей голос?

Ответ: Попробуйте сделать Сброс настроек. Настройки->Основные->Сброс->Сбросить все настройки. После этого вам придется заново ввести пароли от App Store, Wi-Fi, установить нужные параметры в настройках, но голос к Siri скорей всего вернётся.

В последнее время смартфоны стали все больше входить в нашу жизнь, становясь главным атрибутом. С портативными устройствами современное поколение проводит все свое время, работая, играя или учась. Благодаря телефону покупатели постоянно на связи не только в мобильной сети, но и социальных. Речь идет о «ВКонтакте», «Твиттере», «Фейсбуке» и так далее. Хочется отметить, что смартфоны - неотъемлемые помощники. Они позволяют правильно распределить свой день, поставить цели, достигнуть их. Также благодаря телефонам можно контролировать собственное поведение. Конечно же, не без помощи приложений.

Одним из известных инструментов «общения» со смартфоном является «Сири». В этой статье пойдет речь о том, как помощник работает, активируется и так далее, а также подробно поговорим о том, что такое Siri.

Технология Siri

Для начала нужно сказать, что технология, по которой работает Siri, была создана огромной группой разработчиков. Если доверять источникам в интернете, то еще 40 лет назад ученые трудились над созданием искусственного интеллекта. В итоге появилось то, что способно анализировать и реагировать на всю информацию, которая дается человеком. «Сири» - вопросно-ответная система. Это наработка, которая полностью построена именно на всех подобных достижениях ученых. Благодаря тому, что компания Apple вовремя решила использовать подобные технологии в качестве дополнения к продукции, началась эра искусственного интеллекта. За счет огромных стараний и трудов ученых теперь человек может пользоваться «Сири». О том, что это и как работает - далее.

Siri в «Айфоне»

С «Айфона 4S» и до шестого поколения включительно Siri была выведена в качестве отдельного приложения. При желании программу можно было удалить или, наоборот, загрузить в свое устройство. Главное условие - чтобы смартфон работал на операционной системе IOS. Запускалась утилита обычным нажатием на иконку. Сейчас «Сири» стала базовой программой. Даже если пользователь еще пока не знает, что существует специальный магазин с официальными приложениями для «Айфонов», сразу же после покупки он может начинать пользоваться данным искусственным интеллектом. Что такое Siri и как работает?

«Сири» получила принцип речевых запросов, из которых она выделяет для себя команды и выполняет их. Благодаря работе компании утилита способна распознавать большой языковой пакет. На данный момент «Сири» имеет 20 вариаций. На территории Российской Федерации программа доступна на русском языке. Также есть функция обработки голоса.

Функции Siri

Человек, который еще не работал с «Сири», конечно же, задумывается не только о том, что такое Siri, но и какие же функции приложение выполняет. Для чего оно нужно, как может помочь при «общении» с гаджетом. Ответ максимально банален и прост. Утилита должна корректно и правильно распознавать все команды пользователя. Реакция довольно быстрая, ошибки исключены. Это и есть основная функция утилиты. Если говорить о более конкретных задачах, то, по сути, «Сири» способна выполнять любую команду, которая подвластна самому смартфону. Можно обратиться к утилите, чтобы она позвонила или отправила сообщение, к примеру, и немного подождать, пока запрос будет выполнен. Можно также совершать обработку голоса приложения.

Особенности программы

Конечно же, технологий, которые идеально бы понимали голос человека и все что он говорит, пока нет. «Сири» является попыткой создать средство общения смартфона и потребителя. Однако и оно имеет свои недостатки. Именно поэтому следует точно знать все особенности программы и как ею пользоваться. Siri на «Андроид» установить нельзя, но есть аналоги.

Обязательно все запросы должны быть максимально понятными. К примеру, будут выполнены следующие команды: «Позвонить папе», «Открыть почту» и так далее. Все запросы должны быть сформированы точно и не в произвольной форме. Подобное разрешено лишь для английского языка, так как этот пакет распознается лучше всего. Не следует забывать о манере произношения и четкости. Все фразы должны быть сказаны максимально правильно и отчетливо. Именно от этих факторов зависит то, в какой степени будет понят запрос. Также следует учитывать, что если команда будет отдана в шумном месте, то, скорее всего, «Сири» ее не поймет.

Доступные языки

Довольно актуальный вопрос - какие языки доступны в программе. Их много: русский, английский, шведский, немецкий, многие азиатские и так далее. Что это дает? Если языковой пакет установлен в «Сири», значит на нем можно общаться и делать запросы. В любом случае программа будет понимать команды. Однако есть одна особенность. Не все перечисленные языки доступны в операционной системе, а значит, что и «Сири» не будет на них функционировать. Если iOS версии выше 8.3, то проблема подобная может не возникнуть, так как в эту модификацию программного обеспечения была добавлена половина описанных выше языков.

Как работать с Siri?

Еще один актуальный вопрос, который многих интересует. Как работать с «Сири»? Включить программу можно двумя способами. Если она предустановлена и идет сразу же при покупке, то делать ничего особо не нужно. Программа будет запускаться при длительном нажатии на кнопку «Дом». Если нет желания пользоваться помощником или не нравится, что клавиша отвечает за его включение, то в настройках опцию можно отключить.

Второй же вариант заключается в том, что «Сири» на телефоне не установлена. Тогда утилиту придется ставить самостоятельно. Для этого следует зайти в официальный магазин «яблока» и скачать нужную программу. После установки зайти в «Сири» можно прямо с рабочего стола. Она будет работать как обычное приложение. Активации или регистрации программа не требует. Эта разработка максимально понятна и проста. Интерфейс простой, понятный, любой человек сможет использовать такого помощника. Напомним, что Siri на «Андроид» не существует.

Как пользоваться?

Использовать «Сири» еще проще, чем скачивать ее самостоятельно. Следует зайти в приложение. Там пользователь заметит строку записи звука. Подобная панель имеется также в диктофоне. К тому же запуск программы оснащен звуковым сопровождением, после которого приятным голосом произносится фраза «Привет, я могу чем-то помочь?». Владелец аппарата говорит, что ему необходимо.

Примером такого запроса может служить фраза: "Сири, покажи мне рядом находящиеся бесплатные парковки". Как только речь будет записана, прозвучит еще один сигнал. После него «Сири» выдаст результаты выполнения команды на экран.

«Siri не слышит мой голос, что делать?»

Иногда бывает так, что «Сири» не распознает голос или не слышит его вообще. Если нет желания относить телефон в сервисный центр и платить деньги, то можно попробовать самостоятельно выяснить причину и разобраться с ее решением.

Сразу же стоит проверить работоспособность операционной системы. Очень часто после перепрошивки или обновления «Сири» не хочет слушать запросы владельца. Обычно лечится это при помощи жесткой перезагрузки, но, к сожалению, не в 100% случаев. Если не помогло, то следует зайти в настройки и попробовать «пошаманить» там: включить/выключить помощника, разрешить доступ к микрофону и так далее.

Еще одной распространенной проблемой можно назвать поломку микрофона. Чтобы проверить это, можно подключить гарнитуру. Если через нее помощник реагирует, то проблема, вероятно, в телефоне. При отсутствии наушников можно зайти в любую программу, где можно осуществить голосовой ввод. Опять-таки, если он не работает и в других утилитах, то проблема в микрофоне. В таком случае следует отнести свой телефон в сервисный центр. Там помогут решить проблему. Если смартфон еще на гарантии, то сделают это бесплатно.

Теперь любой человек сможет ответить на вопрос «Что такое Siri?». Программа понятная и удобная.

Хоте ли бы вы иметь личного ассистента в айфоне? Например, чтобы вы смогли планировать свой день, неделю и даже месяц, и кто-то в приятной манере напоминал о важных делах, планировал ваши встречи, направлял действия, звонил или отправлял почту прямо из вашего смартфона. Такую интеллектуальную программу голосового интерфейса Siri на iPhone разработала в России проектная группа SiriPort.

Индивидуальные характеристики голосового помощника Siri отвечают современным инновационным требованиям по созданию искусственного интеллекта. Приложение супер умно и умеет полноценно выполнять голосовые команды из всех возможных действий на смартфоне: звонить абонентам из списка контактов, отправлять сообщения, находить нужную информацию, создавать закладки и тексты заданий, не используя при этом клавиатуру смартфона, а лишь голосовой интерфейс. Данная статья расскажет как установить Siri на iPhone 4 или айфон 5 или 6 поколения.

Новое лицензионное приложение личного ассистента является программой по распознаванию голоса, и во всех устройствах компании Apple она установлена. Необходимо добавить, что голосовой помощник работает на основе iOS 7 на устройствах iPhone 4S используя Siri, Siri на iPhone 5, на iPhone 5S, iPhone 6, iPhone 6S, iPhone 7 поколения. Кроме того, помощник может обслуживать iPad Mini, Mini 2 и Mini 3, присутствует также на iPod Touch 5-го поколения, на устройствах Apple Watchа, и еще работает на iPad 3 поколения и выше.

После появления версии iOS 8.3, Siri iPhone можно настроить на русский язык. Система iOS 10 на девайсах нового поколения учитывает еще большие возможности голосового ассистента. Это намного облегчает работу по поиску и запоминанию данных личной информации, экономит, как говорится, время и деньги.

Хотите знать как включить Siri на iPhone?

Например, если не знаете как включить Siri на iPhone 4 — 7 или не понимаете как отключить Siri, то приступим к действиям поэтапно. Рассмотрим голосового помощника на iPhone 4S или iPhone 6S, используя голосового помощника. Сначала следует выяснить, установлено ли на айфон 4 или iPhone 6S приложение и почему Сири не работает на айфоне. Если выяснится, что программу асисстента нельзя запустить на айфоне, не отчаивайтесь, можно устанавливать другие довольно похожие альтернативные программы, например,программу «Dragon Go!», разработанную Компанией «Nuance», которая будет иметь возможность доступа к другим программам, установленным в iPhone, таким как Google, Netflix, Yelp и иным.

Если голосовой помощник при продаже был установлен в айфоне, скорее всего он будет в активном состоянии по умолчанию. Чтобы проверить это, зажмите кнопку Home на айфоне. Сири подаст звуковой сигнал о своей готовности работать. Можно давать команду голосом: например, сказать четко вслух: «Проверить почту!»

Если Siri не активирована нужным образом, самостоятельно получится это сделать следующим образом. Откройте основной экран телефона и нажмите «Настройки», отыщите папку «Основные» и, зная как пользоваться, запустите приложение «Siri». Впрочем, работая с умной программой, можно дать десяток заданий помощнику, общаясь вслух. Попробуйте произнести приветствие, например: «Hey!» или «Привет, Сири!», или, допустим, «Какая погода, Сири?». Кроме того, можете определить пол своего помощника, выбрав его в разделе настроек.

Как поменять голос или язык Siri

Если голосовой ассистент общается с вами непонятным языком, можете поменять его язык. Для этого в меню «настройки» айфона найдите Siri, выберите команду «Язык Сири». Перед вами откроется перечень вариантов языков и, пролистав, выберите нужный, с помощью которого будет в дальнейшем общаться с вами помощник.

Если хотите запрограммировать манеру общения индивидуального ассистента, настройте не только ее голос, а и установленный стиль обращения, различные фразы, которые вам приятно будет слышать.С этой целью опять зайдите в раздел «Настройки», запустите программу «Siri», найдите командную строку «Аудиоотзыв» и соответственно активируйте подходящий вам вариант общения.

Кстати, разработчики данного программного продукта предусмотрительно внедрили в сознание голосового помощника возможность распознавать голоса, интонацию, акцент и даже диалект, она понимает любые языки.

Режим Siri в автомобиле

Включение приложения Siri может весомо облегчить ваши задачи, выбрав по карте нужное направление, когда вы двигаетесь за рулем автомобиля. Для этого авто должно поддерживать программное обеспечение CarPlay или использовать функцию «не глядя», имеющуюся в данной программе. Чтобы воспользоваться услугами помощника, нужно его вызвать, нажав кнопку голосовой команды, находящуюся прямо на руле авто и дать Siri соответствующую команду.

Если в автомобиле имеется сенсорный экран с поддержкой CarPlay, активируйте Siri, запустив через меню экрана кнопку Home. Если вы озвучили команду, помощник ожидает паузы в речи, чтобы начать выполнять. Но, если в машине очень шумно, лучше ответить находящейся в экране кнопкой, передающей звуковую волну, и тогда Сири догадается, что вы закончили, и начнет выполнять порученное задание. Если понадобится, войдя в настройки айфона, также можно прочитать как отключить Siri.

Можно еще подключить помощника к источнику через Bluetooth-гарнитуру, а также через USB провод. При этом выполнить все действия в аналогичном порядке.

Siri это голосовой помощник или искусственный интеллект. Кому как больше нравится. Это программа, которая встроена во все устройства, работающие под операционной системой iOS. До выхода девятой версии «яблочной» операционной системы «Сири» была скорее развлекательным инструментом.

Навигация

Чего уж там таить, она по своей функциональности не дотягивала до конкурентов от Microsoft и Google. Но, все изменилось после выхода iOS9. «Сири» поумнела и теперь ее можно использовать для решения своих повседневных задач.

Как запустить Siri?

Запустить голосовой помощник очень просто. Достаточно подержать кнопку домой около двух секунд. При этом даже не нужно разблокировать устройство. Достаточно того, что оно будет включено. После звукового сигнала на экране появится изображение микрофона. Это значит, что ассистент от Apple готов к работе.

Нажмите на изображение вопросительного знака. После чего откроется список приложений, которыми можно управлять с помощью Siri. Благодаря этому голосовому помощнику можно сэкономить массу времени при работе со своим устройством. Причем, самое важное, «Сири» способна адаптироваться под особенности произношения пользователя.

Высылка сообщений

Наверное, самой простой возможностью использовать голосовой помощник от Apple, является начитка текстовых сообщений. Это поможет сэкономить время перед их набором на клавиатуре и при этом повысит вашу продуктивность. Что особенно полезно при использовании смартфона. Где даже удобная виртуальная клавиатура от Apple не всегда может корректно «считать» касания экрана пальцами.

Надиктовывайте с помощью «Сири» текстовые заметки, email-письма, сообщения для друзей и коллег в мессенжерах и т.п. Два-три дня использования Siri и вы сможете это делать в разы быстрее, чем при использовании клавиатуры.

Работа с календарем

Еще одна умная возможность использование голосового помощника в iPhone и iPad – работа с календарем. При этом, использование Siri для такой «работы» многие ставят выше, чем надиктовывание простых заметок. С помощью «Сири» можно:

  • Узнать, что запланировано в вашем календаре без активации соответствующей программы
  • Перенести встречу на другое время
  • Запланировать телефонный разговор
  • Назначить встречу с коллегой или компаньоном
  • Отменить встречу

Все эти действия можно произвести просто сказав «Сири» сделать это.

Вам понравится сообщать вашему телефону дату, время и место встречи, события или визита – и обнаруживать эти данные у себя в календаре. И если у вас сложится ситуация, в которой две встречи по времени будут накладываться друг на друга, – «Сири» незамедлительно вам об этом сообщит.

Прокладка маршрута

Также Siri можно попросить проложить маршрут до нужной точки. Это очень полезно в новом городе, где вы плохо ориентируетесь. При этом вам уже не нужен будет ваш навигатор, где адрес вносится вручную. Достаточно сказать «Сири»:

  • «Как доехать до проспекта Ленина, дом 37»
  • «Где ближайшая заправка или продуктовый магазин»
  • «Где живет Катя»
  • «Через сколько я доеду до микрорайона Королева дом 24»

Это очень удобно, просто и не отнимает много времени, как если вводить адрес вручную.

Напоминания

Еще одна функция, без которой невозможно представить умное использование голосового помощника – напоминания. Память человека часто дает сбой. Особенно тогда, когда от нее этого никак не ждешь. Для того, чтобы лучше организовать свою жизнь и минимизировать проблемы с памятью мы оставляем напоминания. Сделать это можно и с помощью Siri. Мы просто говорим своему голосовому помощнику:

  • «Напомни мне купить бумагу для принтера»
  • «Напомни позвонить Ире и решить вопрос поставки»
  • «Напомни заехать в сервис на диагностику»

Создайте с помощью Siri несколько таких напоминаний и поймете, как это удобно по сравнению с записями в ежедневнике.

Будильник и почта

Вы все еще выставляете время на будильнике вручную? Попросите это сделать за вас умной Siri. Скажите ей:

  • «Разбуди меня завтра в 6:15»
  • «Включи таймер на 15 минут»
  • «Скажи, когда будет 12:00»

Искусственный интеллект «Сири» поможет вам отыскать электронное письмо от нужного адресата. Конечно, можно с помощью этого электронного ассистента надиктовывать и отправлять электронную почту. Но, обязательно проверяйте такие письма перед отправкой. Вдруг Siri, что-то поймет не так.

Другие примеры использования Siri

«В каких фильмах снимался Бенедикт Камбербэтч»
«Что такое декантер»
«Первый премьер-министр Великобритании»

Функция Proactive Assistant

В новой Siri реализована функция Proactive Assistant. Это ключевое нововведение и помогло голосовому помощнику от Apple, если не обогнать своих конкурентов, то уж точно догнать их. С помощью режима Proactive Assistant голосовой помощник способен предугадывать действия пользователя и помогать ему их осуществить.

Самообучаемый интеллект Siri будет изучать привычки пользователя и предугадывать их. Если вы любите утром слушать музыку, то «Сири» включит ее самостоятельно. А если вы любите проверить свое почту или пробежаться в Facebook во время обеденного перерыва, Siri с помощью функции Proactive Assistant поможет вам это сделать без лишних напоминаний.

Безопасность

И в заключении хочется сказать пару слов о безопасности. Многие бояться использовать голосовой помощник от Apple из-за того, чтобы их данные не утекли в сеть. Разработчик заверил, что этого не случиться благодаря тому, что Siri напрямую не связана с Apple ID. Поэтому, все данные будут подконтрольны только конкретному пользователю.

Видео. Siri на русском. IOS 9.2

Siri - голосовой ассистент, который впервые был представлен в 2011 году вместе с iOS 5. Разумеется, с тех пор он серьезно развивался: научился говорить на разных языках (в том числе и на русском), пришел на компьютеры Mac, научился взаимодействовать с программами от сторонних разработчиков и т.д., но качественный скачок он сделал только с анонсом iOS 10 - теперь его голос основан на глубоком обучении, что позволяет ему звучать более естественно и плавно. Что такое глубокое обучение и как синтезируется голос Siri - об этом мы и поговорим в этой статье.

Введение

Синтез речи - искусственное воспроизведение человеческой речи - широко используется в различных областях, от голосовых помощников до игр. Недавно, в сочетании с распознаванием речи, синтез речи стал неотъемлемой частью виртуальных персональных помощников, таких как Сири.

Существуют две технологии синтеза речи, используемые в звуковой индустрии: выбор звуковых единиц и параметрический синтез. Синтез выбора единиц обеспечивает наивысшее качество при достаточном количестве высококачественных речевых записей, и, таким образом, это наиболее широко используемый метод синтеза речи в коммерческих продуктах. С другой стороны, параметрический синтез обеспечивает очень понятную и плавную речь, но имеет более низкое общее качество. Современные системы выбора звуковых единиц объединяют некоторые преимущества двух подходов, и поэтому они называются гибридными системами. Методы выбора гибридных единиц аналогичны методам классической селекции единиц, но они используют параметрический подход для прогнозирования того, какие звуковые единицы должны быть выбраны.

В последнее время глубокое обучение набирает обороты в области речевых технологий, и в значительной степени превосходит традиционные методы, такие как скрытые марковские модели (СММ), в принципе работы которых лежит разгадывание неизвестных параметров на основе наблюдаемых, при этом полученные параметры могут быть использованы в дальнейшем анализе, например, для распознавания образов. Глубокое обучение обеспечило полностью новый подход к синтезу речи, который называется прямое моделирование формы волны. Он может обеспечить как высокое качество синтеза выбора единиц, так и гибкость параметрического синтеза. Однако, учитывая его чрезвычайно высокие вычислительные затраты, реализовать его на пользовательских устройствах пока не получится.

Как работает синтез речи

Создание высококачественной системы преобразования текста в речь (TTS) для персонального помощника - непростая задача. Первый этап - найти профессиональный голос, звучание которого будет приятным, разбочивым и соответствующим личности Сири. Чтобы охватить некоторые вариации из огромного разнообразия человеческой речи требуется записать 10-20 часов речи в профессиональной студии. Сценарии записи варьируются от аудиокниг до инструкций по навигации, и от подсказок до ответов на остроумные шутки. Как правило, эта естественная речь не может использована в голосовом помощнике, потому что невозможно записать все возможные высказывания, которыми может говорить помощник. Таким образом, выбор звуковых единиц в TTS основан на разрезании записанной речи на ее элементарные компоненты, такие как фонемы, а затем их рекомбинации в соответствии с входным текстом для создания совершенно новой речи. На практике, выбор соответствующих сегментов речи и объединение их друг с другом непростая задача, поскольку акустические характеристики каждой фонемы зависят от соседних и интонации речи, что часто делает речевые единицы несовместимыми друг с другом. На рисунке ниже показано, как речь может быть синтезирована с использованием речевой базы данных, разделенной на фонемы:


В верхней части рисунка показано синтезированное высказывание «Синтез выбора единиц» и его фонетическая транскрипция с использованием фонем. Соответствующий синтетический сигнал и его спектрограмма показаны ниже. Речевые сегменты, разделенные линиями, являются непрерывными сегментами речи из базы данных, которые могут содержать одну или несколько фонем.

Основная проблема выбора звуковых единиц в TTS заключается в том, чтобы найти последовательность единиц (например, фонем), которые удовлетворяют входному тексту и предсказанной интонации, при условии, что они могут быть объединены вместе без слышимых сбоев. Традиционно процесс состоит из двух частей: front-end и back-end (входящие и выходящие данные), хотя в современных системах граница иногда может быть неоднозначной. Целью front-end является предоставление фонетической транскрипции и информации об интонации на основе исходного текста. Сюда же включается и нормализация исходного текста, который может содержать числа, сокращения и т.д.:


Используя символьное лингвистическое представление, созданное модулем текстового анализа, модуль генерации интонации предсказывает значения для акустических характеристик, таких как, например, продолжительность фразы и интонации. Эти значения используются для выбора соответствующих звуковых единиц. Задача выбора единицы имеет высокую сложность, поэтому современные синтезаторы используют методы машинного обучения, которые могут изучить соответствие между текстом и речью, а затем предсказать значения речевых функций из значений подтекста. Эта модель должна быть изучена на этапе обучения синтезатора с использованием большого количества текстовых и речевых данных. Входные данные для этой модели - это числовые лингвистические функции, такие как идентификация фонемы, слова или фразы, преобразованные в удобную численную форму. Выходной сигнал модели состоит из числовых акустических характеристик речи, таких как спектр, основная частота и продолжительность фразы. Во время синтеза обучаемая статистическая модель используется для сопоставления входных текстовых функций с речевыми функциями, которые затем используются для управления бэкэнд-процессом выбора звуковой единицы, где важны соответствующие интонации и длительность.

В отличие от front-end, бэкэнд в основном не зависит от языка. Он состоит из выбора нужных звуковых единиц и их конкатенации (то есть склейки) в фразу. Когда система обучается, записанные речевые данные сегментируются в отдельные речевые сегменты, используя принудительное выравнивание между записанной речью и сценарием записи (с использованием акустических моделей распознавания речи). Затем сегментированная речь используется для создания базы данных звуковых единиц. База данных дополнительно пополняется важной информацией, такой как лингвистический контекст и акустические характеристики каждой единицы. Используя построенную базу данных устройства и предсказанные интонационные функции, которые определяют процесс выбора, выполняется поиск Витерби (вверху - целевые фонемы, ниже - возможные звуковые блоки, красная линия - наилучшее их сочетание):


Выбор основан на двух критериях: во-первых, звуковые единицы должны иметь одну (целевую) интонацию, и, во-вторых, единицы должны быть, по возможности, объединены без слышимых сбоев на границах. Эти два критерия называются соответственно целевыми и конкатенационными расходами. Целевая стоимость - это разница между прогнозируемыми целевыми акустическими характеристиками и акустическими характеристиками, извлекаемыми из каждого блока, тогда как стоимость конкатенации представляет собой акустическую разницу между последующими единицами:


После определения оптимальной последовательности единиц отдельные звуковые сигналы конкатенируются для создания непрерывной синтетической речи.

Скрытые марковские модели (СММ) обычно используются в качестве статистической модели для целевых прогнозов, поскольку они непосредственно моделируют распределения акустических параметров, и, таким образом, их можно легко использовать для вычисления целевой стоимости. Тем не менее, подходы, основанные на глубоком обучении, часто превосходят СММ в синтезе параметрической речи.

Целью системы TTS Сири является подготовка единой модели, основанной на глубоком обучении, которая может автоматически и точно прогнозировать как целевые, так и конкатенационные затраты для звуковых единиц в базе данных. Таким образом, вместо СММ использует смесь плотности сети (СПС, mixture density network) для прогнозирования распределений по определенным признакам. СПС объединяют обычные глубокие нейронные сети (ГНС) с гауссовскими моделями.

Обычный ГНС представляет собой искусственную нейронную сеть с несколькими скрытыми слоями нейронов между входным и выходным уровнями. Таким образом, ГНС может моделировать сложную и нелинейную зависимость между входными и выходными характеристиками. Напротив, СММ моделирует распределение вероятностей выходных данных с учетом входных данных с использованием набора гауссовых распределений, и обычно обучается с использованием метода максимизации ожидания. СПС сочетает преимущества ГНС и СММ, используя ГНС для моделирования сложной взаимосвязи между входными и выходными данными, но обеспечивая распределение вероятностей на выходе:


Для Siri используется унифицированная целевая и конкатенационная модели на основе СПС, которые могут прогнозировать распределение как целевых характеристик речи (спектра, высоты тона и продолжительности), так и стоимости конкатенации между звуковыми единицами. Иногда речевые особенности, такие как аффиксы, довольно стабильны и развиваются медленно - например, в случае гласных. В другом месте речь может изменяться довольно быстро - например, при переходе между озвученными и невокализованными звуками речи. Чтобы учитывать эту изменчивость, модель должна иметь возможность корректировать свои параметры в соответствии с вышеупомянутой изменчивостью. СПС делает это используя отклонения, встроенные в модель. Это важно для улучшения качества синтеза, поскольку мы хотим рассчитать целевые и конкатенационные издержки, характерные для текущего контекста.

После подсчета единиц на основе общей стоимости с использованием СПС выполняется традиционный поиск по Витерби, чтобы найти лучшее сочетание звуковых единиц. Затем они объединяются с использованием метода совпадения с перекрытием формы волны, чтобы найти оптимальные моменты времени конкатенации для создания плавной и непрерывной синтетической речи.

Итоги

Для использования СПС в Сири было записано как минимум 15 часов высококачественных речевых записей на частоте 48 кГц. Речь была разделена на фонемы с использованием принудительного выравнивания, то есть было применено автоматическое распознавание речи, чтобы выровнять входную звуковую последовательность с акустическими характеристиками, извлеченными из речевого сигнала. Этот процесс сегментации привел к созданию примерно 1-2 миллионов фонем.

Чтобы провести процесс отбора звуковых единиц на основе СПС была создана единая целевая и конкатенационная модели. Входные данные для СПС состоят в основном из двоичных значений с некоторыми дополнительными функциями, которые представляют собой информацию о контексте (по две предшествующих и следующих фонемы).

Качество новой системы TTS Сири превосходит предыдущую - это подтверждают многочисленные тесты на картинке ниже (интересно, что лучше всего оценили как раз новый русский голос Сири):


Лучшее качество звука связано как раз с базой данных на основе СПС - это обеспечивает лучший выбор и конкатенацию звуковых блоков, более высокую частоту дискретизации (22 кГц против 48 кГц) и улучшенное сжатие звука.

Прочесть оригинал статьи (требуется хорошее знание английского и физики), а также послушать, как менялся голос Сири в iOS 9, 10 и 11, можно .



 

Пожалуйста, поделитесь этим материалом в социальных сетях, если он оказался полезен!