Умный динамик голосовой платформы по сравнению

На конференции Embedded Linux Conference Europe Леон Анави сравнил голосовые платформы Alexa и Google Assistant и изучил новичка с открытым исходным кодом Mycroft Mark II.

Ожидается, что в эту «черную пятницу» потребители в США упадут в кучу на интеллектуальных колонках и домашних хабах.
Согласно отчету Canalys от 15 ноября, поставки голосовых колонок выросли на 137 процентов в третьем квартале 2018 года и достигли 75 миллионов продаж в 2018 году. На недавней конференции Embedded Linux Conference Europe в Эдинбурге Разработчик Linux и создатель Raspberry Pi HAT Леон Анави из Konsulko Group рассказал о последних тенденциях в области интеллектуальных колонок.


В ELCE Леон Анави объясняет внутреннюю работу Google Assistant SDK

(щелкните изображение, чтобы увеличить)

Как отметил Анави в своем выступлении «Сравнение Voice Assistant SDK для встраиваемых Linux-устройств», общение с компьютерами стало основным предметом научной фантастики более полувека назад.
Голосовая технология интересна «потому что она сочетает в себе AI, большие данные, IoT и разработку приложений», - сказал Анави.

В третьем квартале 2017 года Amazon и Google владеют индустрией с 74,7% и 24,6% соответственно, сообщили Canalys.
Год спустя, процент снизился до 31,9 и 29,8.
Расположенные в Китае Alibaba и Xiaomi почти поровну разделили еще 21,8% акций, за которыми следуют 17,4% для «других», которые в основном используют Amazon Alexis и все чаще Google Assistant.

Несмотря на успех рынка интеллектуальных громкоговорителей, в основном под управлением Linux, разработчики приложений для Linux не стали прыгать в разработку голосовых приложений, как можно ожидать.
Частично это связано с оговорками о гарантиях конфиденциальности Google и Amazon , а также с проприетарным характером аппаратного и облачного программного обеспечения.

«Конфиденциальность - это проблема умных ораторов», - говорит Анави.
«Вы не можете полностью доверять корпорации, если продукт не с открытым исходным кодом».

Анави подвела итоги Google и Amazon SDK, но потратила больше времени на полностью открытый исходный код Mycroft Mark.
Хотя Анави явно предпочитает Майкрофт, он призвал разработчиков исследовать все платформы.
«На рынке существует огромный спрос на эти устройства и много возможностей для интеграции IoT, от написания новых навыков до интеграции голосовых помощников в устройствах бытовой электроники», - сказал Анави.

Alexa / Echo

Alexa Amazon дебютировала в умном динамике Echo четыре года назад.
С тех пор Amazon расширился до фирменных колонок Echo Dot, Spot, Tap и Plus, а также Echo Show и новых дисплеев Echo Show 2 .


Amazon Echo Show 2

(щелкните изображение, чтобы увеличить)

Ведущие на рынке устройства Echo работают на Amazon OS на базе Linux и Android.
Оригинальные Echo и Dot работали на SoC TI DM3725 на базе Cortex-A8, в то время как более поздние устройства перешли на Armv8 MediaTek MT8163V SoC с 256 МБ оперативной памяти и 4 ГБ флэш-памяти.

Благодаря мудрому решению Amazon выпустить лицензированный Apache 2.0 SDK Alexa Voice Services (AVS), Alexa также работает на большинстве сторонних хабов.
SDK включает в себя набор навыков Alexa для создания пользовательских навыков.
Однако облачная платформа, необходимая для работы устройств Alexa, не является открытым исходным кодом, и коммерческие поставщики должны подписать соглашение и пройти процесс сертификации.

Alexa работает на различных аппаратных средствах, включая Raspberry Pi , а также на интеллектуальных устройствах: от интеллектуального термостата Ecobee4 до робота-концентратора LG.
Microsoft недавно начала продавать устройства Echo , а в начале этого года в партнерстве с Amazon интегрировала Alexa с собственным голосовым агентом Cortana в устройства.
На этой неделе Microsoft объявила, что пользователи могут активировать голосовые вызовы Skype через Alexa на устройствах Echo.

20 ноября Amazon объявила о том, что она публично выпустила свой комплект мобильных аксессуаров Alexa, чтобы помочь разработчикам донести Alexa до наушников, гарнитур и носимых устройств Bluetooth.
Комплект разработчика позволяет устройствам Bluetooth взаимодействовать с приложением Alexa телефона, не требуя от изготовителей устройств создания собственного приложения или навыка Alexa.

Google Assistant / Home

Голосовой агент Google Assistant дебютировал на интеллектуальном динамике Google Home в 2016 году. С тех пор он расширился до Echo Dot-like Home Mini, который, как и Home, работает на двухъядерном 1,2 ГГц Cortrex-A7 Marvell Armada 1500 Mini Plus с 512 МБ. RAM и 4 ГБ флэш.
В этом году Home Max предлагает улучшенные динамики и усовершенствованный четырехъядерный процессор Cortex-A53 с тактовой частотой 1,5 ГГц.
Совсем недавно Google запустил Google Home Hub с сенсорным экраном.

Устройства Google Home работают на версии ОС Google Cast на базе Linux.
Как и Alexa, пакет SDK Google Assistant, управляемый Python, позволяет добавлять голосовой агент на сторонние устройства.
Тем не менее, он все еще находится в стадии предварительного просмотра и не имеет лицензии на открытый код.
Разработчики могут создавать приложения с помощью Google Actions .

В прошлом году Google выпустил версию своего Google Assistant SDK для Raspberry Pi 3 и начал продавать AIY Voice Kit, который работает на Pi.
Есть также комплект, который работает на Orange Pi, сказал Анави.

В этом году Google настойчиво ищет партнеров по оборудованию для создания домашних устройств-концентраторов, которые сочетают Assistant с собственными Android-вещами Google.
Устройства работают на различных SoC на базе Arm во главе с платформой Qualcomm SD212 Home Hub.


Google Home Hub (слева) и LG XBOOM AI ThinQ WK9

(нажмите на картинку, чтобы увеличить)

Расширение SDK привело к появлению множества сторонних устройств, работающих под управлением Assistant, включая Lenovo Smart Display и только что выпущенные концентраторы с сенсорным экраном LG XBOOM AI ThinQ WK9 .
Продажи устройств Google Home опередили Echo в начале этого года, хотя Amazon восстановила лидерство в третьем квартале, говорит Canalys.

Как и Alexa, но в отличие от Майкрофта, Google Assistant предлагает многоязычную поддержку.
Последняя версия поддерживает дополнительные вопросы без необходимости повторения слова активации, и есть функция голосового соответствия, которая может распознавать до шести пользователей.
Новая функция Google Duplex выполняет реальные задачи с помощью обычных телефонных разговоров.

Майкрофт / Mark

Любимый умный оратор Анави - это управляемый Linux MySQL с открытым исходным кодом (Apache 2.0 и CERN).
Динамик Mycroft Mark 1 на базе Raspberry Pi был сертифицирован Ассоциацией аппаратного обеспечения с открытым исходным кодом (OSHA).

Mycroft Mark II был запущен на Kickstarter в январе и получил 450 000 долларов.
Этот домашний концентратор Xilinx Zynq UltraScale + MPSoC объединяет технологию Aaware для захвата звука в дальней зоне.
В обновленном сообщении от 15 ноября сообщалось, что Mark II пропустит дату своего выпуска в декабре.


Майкрофт Марк II погода и навыки таймера

Mycroft из Канзас-Сити привлек 2,5 млн. Долл. США от институциональных инвесторов и сейчас ищет финансирование на StartEngine .
Майкрофт видит себя в качестве софтверной компании и поощряет другие компании встраивать в продукты платформу Mycroft Core и голосовой агент Mycroft AI.
Компания предлагает корпоративную клиентскую лицензию на корпоративный сервер за 1500 долларов в месяц, и для Raspberry Pi предлагается бесплатное приложение Picroft на основе Raspbian .
Комплект оборудования Picroft находится на рассмотрении.

Майкрофт обещает, что пользовательские данные никогда не будут сохранены без согласия (для улучшения алгоритмов машинного обучения), и что они никогда не будут использоваться в маркетинговых целях.
Однако, как Alexa и Assistant, он не доступен в автономном режиме без облачного сервиса, что позволит лучше обеспечить конфиденциальность.
Анави говорит, что компания работает над автономным вариантом.

Агент Mycroft AI включен через Python Mycroft Pulse SDK, а менеджер навыков Mycroft доступен для разработки навыков.
Как Alexa и Assistant, Mycroft поддерживает пользовательские слова Wake.
В новой версии вместо более раннего PocketSphinx используется собственная технология прослушивания пробных слов.
Есть также дополнительное устройство и стек управления учетными записями под названием Mycroft Home.

Для преобразования текста в речь (TTS) Mycroft по умолчанию использует Mimic с открытым исходным кодом, который разработан совместно с VocaliD.
Он также поддерживает eSpeak, MaryTTS, Google TTS и FATTS.

У Mycroft отсутствует собственный механизм преобразования речи в текст (STT), который Анави называет «самой большой проблемой для голосового помощника с открытым исходным кодом». Вместо этого он по умолчанию использует Google STT и поддерживает IBM Watson STT и wit.ai.

Mycroft сотрудничает с Mozilla в разработке DeepSpeech STT с открытым исходным кодом, реализации TensorFlow с открытым исходным кодом платформы Baidu DeepSpeech .
Baidu следует за Alibaba и Xiaomi на китайском рынке голосового ассистента, но является одной из самых быстрорастущих компаний, занимающихся голосовым искусством.
Так же, как Alibaba использует свой собственный, похожий на Alexa агент AliGenie на своем динамике Tmall Genie, Baidu загружает свои динамики, такие как потолочный PopIn Alladin, с голосовой платформой DuerOS, управляемой DeepSpeech .
Xiaomi использовал Алексу и Кортану.

Майкрофт - самый зрелый из нескольких альтернативных проектов голосового ИИ, которые обещают улучшенные меры защиты конфиденциальности.
В недавней статье VentureBeat сообщалось о новых технологиях, ориентированных на конфиденциальность, включая Snips и SoundHound .

Анави закончил несколькими демо-видео, демонстрируя его успокаивающий болгарский вокальный стиль AI.
«Я стараюсь быть вежливым с этими вещами, - сказал Анави.
«Когда-нибудь они могут править миром, и я хочу выжить».

Видео презентация Anavi ELCE может быть ниже.

Леон Анави «Сравнение Voice Assistant SDK для встраиваемых устройств Linux»

Эта статья защищена авторским правом © 2018 Linux.com и была первоначально опубликована здесь .
Он был воспроизведен этим сайтом с разрешения его владельца.
Пожалуйста, посетите Linux.com для получения последних новостей и статей о Linux и open source.