Голосовой помощник на Linux кодом обещает пользователям конфиденциальность

Mycroft запустила интеллектуальный динамик и голосовой помощник с открытым исходным кодом «Mycroft Mark II», который работает под управлением Linux на четырехъядерном кристалле Xilinx SoC и предлагает 6-микрочиповую систему формирования луча, 10 Вт, 4-дюймовый динамик сенсорный экран и обещание конфиденциальности пользователя.

Когда в августе 2015 года Mycroft запустил свою кампанию на Kickstarter для оригинального центра домашней автоматизации Mycroft с активированным голосом, спикер Amazon Echo и его голосовой агент Alexa произвели сенсацию, но еще не стали привычными для дома, а Google еще запустить Google Home с агентом Google Assistant .
Теперь компания вернулась на Kickstarter, чтобы выпустить на рынок более мощное аппаратное и программное обеспечение с открытым исходным кодом Mycroft Mark II, на котором растут продажи голосовых устройств, основанных на Alexa и Google Assistant, наряду с опасениями по поводу вторжения в частную жизнь.


Прототип Mycroft Mark II, показывающий календарь (слева) и настраиваемые навыки работы с роботом

Как и продукты Echo и Home, Mycroft Mark II представляет собой облачную платформу.
Однако Mycroft еще раз обещает, что пользовательские данные никогда не будут сохранены без специального согласия и что они никогда не будут использоваться в маркетинговых или рекламных целях.
Бесплатная услуга подписки предназначена для улучшения возможностей машинного обучения для большей пользовательской настройки.


Майкрофт Марк I

Mycroft Mark II превысил свою цель на Kickstarter в размере 50 тыс. Долл. США, предлагая пакеты, начинающиеся с 99 долл. США для комплекта разработчика «Собери свои собственные» и 129 долл. США для собранного устройства, оба из которых должны быть выпущены в декабре 2018 г. одна из причин, по которой Mycroft неопределенно относится к некоторым аппаратным деталям продукта, который, как утверждается, будет содержать аппаратное и программное обеспечение с открытым исходным кодом.

Страница KS ни разу не упоминает слово Linux и говорит только о том, что устройство будет работать на четырехъядерном процессоре Xilinx.
В разделе комментариев разработчик Mycroft Джошуа Монтгомери намекает, что желаемой платформой будет Ubuntu 16.04.
Его список пожеланий также удаляет еще две тонкости, которые отсутствуют в официальном списке спецификаций: 4 ГБ ОЗУ и 80 ГБ памяти.
Однако в электронном письме HardLinux представитель Mycroft заявил: «Мы еще не подтвердили, какую операционную систему она будет запускать и сколько места у нее будет».


Майкрофт Марк II показывает навык рецепта

(щелкните изображение, чтобы увеличить)

Если предположить, что эти спецификации верны, и что четырехъядерный Xilinx, как мы подозреваем, является четырехъядерным Cortex-A53 Zynq UltraScale + MPSoC с поддержкой FPGA, это уже значительное улучшение по сравнению с оригинальным Mycroft, который запускал Ubuntu Core на четырехъядерном процессоре. -A7 Raspberry Pi 2 с 1 ГБ оперативной памяти.
Изготовленный в FinFet 16 нм Zynq UltraScale + MPSoC оснащен DSP-блоками с плавающей точкой, двумя микроконтроллерами Cortex-R5 для улучшенной обработки в реальном времени и матрицей FPGA со скоростью гигагерца.

В зависимости от выбранной модели UltraScale + возможности FPGA, вероятно, намного выше, чем у предыдущей платформы Zynq-7000, с количеством логических ячеек до 914 КБ.
Предположительно, FPGA развертывается для управления новым массивом микрофонов, но ее также можно использовать для оказания помощи локальной обработке голоса для разгрузки облачной аналитики.


Майкрофт Марк II погода и навыки таймера

Благодаря более быстрому процессору Mark II может слышать лучше благодаря массиву с 6 микрофонами от Aaware в дальней зоне, который, как представляется, аналогичен Echo.
Массив предлагает формирование луча для лучшей изоляции динамиков и активного шумоподавления и эхоподавления.

Mark II также предлагает улучшенный 10-ваттный динамик с двумя двухдюймовыми полнофункциональными драйверами.
Вместе с «портированной и демпфированной звуковой камерой» динамик обеспечивает «яркие максимумы и глубокие минимумы», говорит Майкрофт.

Другим важным улучшением является новый 4-дюймовый IPS LCD сенсорный экран, который доминирует на передней панели устройства 196 мм (высота) на 105 мм (ширина), как вертикально встроенный дисплей смартфона.
Для сравнения, более раннее устройство размером 152 x 150 мм имело горизонтальную конфигурацию с матрицей белых светодиодов 32 x 8 пикселей.

По словам Майкрофта, новый экран может дополнить голосовые ответы для таких навыков, как таймеры, календари и прогнозы погоды.
Он также может отображать «несколько дружелюбных роботов», говорит компания.

Как и в оригинале, Mycroft Mark II обеспечивает WiFi и Bluetooth (только вход).
Там нет упоминания о предыдущем порте Ethernet, но, как говорят, новые функции включают в себя 3,5-мм аудиоразъем, полноразмерный порт USB и доступный слот microSD.
Также имеется блок питания на 18 Вт с адаптерами, которые поддерживают системы США, ЕС, Великобритании и АС.
Устройство будет иметь сертификаты FCC и CE.


Диаграмма, показывающая микрофонный массив Mycroft Mark II (вверху слева) и динамики (в центре слева) и справа: диаграмма Mycroft, показывающая голосовые технологии с открытым исходным кодом по сравнению с другими голосовыми платформами

(нажмите на картинку, чтобы увеличить)

Сейчас доступно более 140 навыков, перенесенных с оригинальной платформы, включая создание списков покупок, проигрывание музыки, сообщение о новостях и рассказывание анекдотов.
Навыки, связанные с основными брендами, включают Roku, NPR, Twitter, Pandora, YouTube, Gmail, Facebook, Википедию, DuckDuckGo, WolframAlpha и OpenWeatherMap.

Дополнительные навыки, созданные на Python, находятся на пути как от Mycroft, так и от более широкого сообщества Mycroft с открытым исходным кодом.
Говорят, что навыки обратно совместимы с оригинальным Mycroft на основе Pi, за исключением нескольких функций, в первую очередь связанных с новым дисплеем.

Похоже, что внимание уделяется автоматизации дома.
Тем не менее, устройство, по-видимому, продолжает способность Mycroft Mark I обрабатывать логику IFTTT и подсвечивать или уменьшать яркость освещения по команде.
Навыки автоматизации включают Wink и Philips Hue, а в видео упоминается возможность отображения каналов с камер наблюдения.

Голосовые технологии с открытым исходным кодом включают PocketSphinx для пробуждения слов с планами перехода на Precise и Mozilla DeepSpeech для преобразования речи в текст.
Система использует Adapt и Padatious для обработки естественного языка и Mimic для преобразования речи в текст.
Есть планы перейти на Mimic 2, который, по словам Монтгомери, позволит использовать больше типов голоса.

Голосовой агент первоначально предложит выбор американских женских или британских мужских голосов.
Разработчики работают над поддержкой испанского, португальского, итальянского, французского и немецкого языков.
Хотя Майкрофт пропустил ряд деталей об оборудовании, страница KS предоставляет гораздо больше информации о голосовой платформе и правилах конфиденциальности.

Дальнейшая информация

Mycroft Mark II можно приобрести на Kickstarter за 99 долларов за комплект разработчика для сборки и 129 долларов за собранное устройство, оба из которых должны быть выпущены в декабре 2018 года. Также доступны оптовые скидки.
Кампания продлится до 24 февраля. Дополнительную информацию можно найти на странице Mycroft Mark II Kickstarter .