Google розкрила подробиці роботи будок телеприсутності Starline (відео)

У новій статті розробники з Google детально описали технологію телеприсутності, яку представили на минулій конференції I/O. Проєкт «Starline» – це, по суті, тривимірна будка для відеозв’язку, яка повинна замінити звичайні, нудні двовимірні відеочати та створити відчуття, ніби ти й справді знаходишся навпроти співрозмовника. З’ясувалося, зокрема, що кольорове зображення пишеться з чотирьох точок, створюється три карти глибини та сім звукових доріжок.

Звучить просто, але при спробі реалізувати такий своєчасний проєкт інженери Google зіткнулися з безліччю труднощів. Виявляється, змусити мозок повірити в те, що співрозмовник сидить на відстані витягнутої руки, а не за сотні кілометрів, досить складно. Очевидно, зображення має мати високу роздільну здатність і не мати відволікаючих артефактів. При цьому воно має виглядати реалістично незалежно від положення користувача, який сидить в будці. Інша проблема – звук. Аудіосистеми повинні передавати звучання голосу співрозмовника так, ніби воно виходить з його рота. Плюс є ще питання зорового контакту, – розповідає The Verge.

Тим не менш, розробники сподіваються створити технологію телеприсутності, яка створить досвід віртуальної реальності без громіздких гарнітур та датчиків. У статті докладно описується, скільки апаратури потрібно для розв’язання цієї проблеми. В основі системи – екран з діагоналлю 65 дюймів, роздільною здатністю 8К та частотою 60 Гц. Навколо нього встановлено три «пристрої захоплення», які зчитують дані про колір і глибину. Також є чотири додаткові камери стеження, чотири мікрофони, два динаміки та інфрачервоні проєктори. Всього кольорове зображення пишеться з чотирьох точок, створюється три карти глибини та сім звукових доріжок.

Все це обладнання генерує масу даних, які слід потім передати. Для цього потрібна пропускна здатність від 30 Мбіт/с до 100 Мбіт/с, залежно від деталізації одягу і великої кількості жестикуляції. Це істотно більше, ніж при звичайному дзвінку через Zoom, але середній офіс у великому місті може собі дозволити такий зв’язок. Для кодування даних використовуються чотири графічні процесори Nvidia (дві Quadro RTX 6000 та дві Titan RTX).

Випробування технології проводилися протягом дев’яти місяців в різних офісах Google. Всього 117 користувачів провели 308 конференцій у будках Starline. Середня тривалість дзвінка становила 35 хвилин.

Про комерціалізацію проєкту поки що не йдеться.

Влітку компанія Nvidia представила новий продукт, побудований на глибокому навчанні нейромереж – алгоритм Vid2Vid Cameo AI. Він розроблений з метою спростити та вдосконалити робочі процеси в умовах карантину. Vid2Vid Cameo бере статичну фотографію користувача й анімує її мімікою в режимі реального часу, замінюючи синтетичним відео потокову відеотрансляцію.

Ви читаєте незалежне україномовне видання "SUNDRIES". Ми не належимо ні олігархам, ні депутатам. Отож ми потребуємо Вашої підтримки для розвитку та збереження незалежності. Підтримайте нас!

Цей веб-сайт використовує файли cookie, щоб покращити ваш досвід. Ми припустимо, що ви з цим згодні, але ви можете відмовитися, якщо хочете. Прийняти Читати більше