멀티모달 사례 및 인터랙션 제안 [공지][UX스터디] 자율주행문맥의

자율주행 맥락의 멀티 모달

글 : 최다혜(연세대 정보대학원 UX 트랙 석사과정)

자동차 자율주행화가 진행되면서 차량이 단순 이동수단에서 생활영역으로 확장될 것으로 예측됐다. 또한 생체인식센서의 활용 등 다양한 모달리티를 제공할 수 있는 기술적 조건이 갖추어짐에 따라 차량과 사용자가 상호작용할 수 있는 방법이 다양화되고 있다. 이에 따라 자동차 브랜드들은 풍부한 사용자 경험을 제공하기 위해 터치, 음성, 생체 신호 등 다양한 멀티모달 요소에 높은 관심을 보이고 있다.

<그림 1: 현대자동차 지문인식 기술>

스마트차는 일반적인 스마트 디바이스에 비해 입출력 상호작용 방법이 가장 다양해지고 있다. 또한 자율주행 자동차는 공간 내에서 할 수 있는 서로 다른 활동(Activity)의 범위가 운전을 넘어 매우 다양해지기 때문에 안전하고 만족스러운 사용자 경험을 제공하기 위해서는 차량 내외의 상황이나 활동마다 각기 다른 최적의 멀티모달리티를 제공해야 한다.

멀티모달 인터랙션 1.1 멀티모달이란 무엇인가?모달리티는 감각의 타입으로 인터랙션 과정에서 사용되는 커뮤니케이션 채널로 정의할 수 있다 [1]. 예를 들어 시각과 청각은 모달리티의 종류가 다른 인터랙션 방법이다. PC에서 문자를 입력하기 위해 사용하는 키보드, 스마트폰의 화면을 터치하고 물리적 볼륨 버튼을 누르는 것도 각각의 모달리티이다.
멀티모달 인터랙션은 단일 방법이 아닌 다양한 모달리티를 통합적으로 이용해 기기와 소통하는 것을 말한다. 사용자는 다양한 모달리티를 사용하여 명령을 입력하고, 기기는 그에 따른 반응을 다양한 방법으로 출력한다. 멀티모달 종류로는 터치, 음성, 얼굴 표정, 제스처, 바이오매트릭스(생체신호) 등이 있다. 멀티모달을 적용하면 사용자는 다양한 요구사항을 음성, 터치, 제스처 등 다양한 방식으로 표현할 수 있다.

<표 1: 다양한 입력 모달리티 및 디바이스의 예 [1]>

사용목적이 시청에 한정된 TV, 청취에 한정된 블루투스 이어폰에도 음성명령, 터치, 압력을 가하는 포스터치(Force Touch), 제스처, 카메라 등 다양한 멀티 모달이 적용되고 있다. 차량은 이러한 기존 디바이스를 모두 사용할 수 있는 공간인 동시에 새롭고 다양한 활동이 이뤄지는 공간이기 때문에 그야말로 멀티 모달 파티가 일어날 수 있는 잠재력이 큰 공간이라 할 수 있다. 또 생체정보를 활용하면 사용자가 직접 명령하지 않고도 사용자의 상태를 차량이 파악할 수 있기 때문에 생체신호를 활용한 멀티모달로 제공할 수 있는 서비스가 무한해진다.

자율주행 모빌리티에 멀티 모달이 왜 중요한가?자율주행 환경에서 멀티모달 인터랙션의 적용이 중요한 이유는 상황마다 최적화된 멀티모달이 1)차량과 사용자의 상호작용성을 높이고 2)자율주행차에 대한 사용자의 신뢰감과 지각있는 안전감을 높이며 3)사용성도 향상시킬 수 있기 때문이다.
인터랙션성 수준을 높이는 멀티모달 자율주행차에서는 운전모드 외에 휴식, 엔터테인먼트, 회화, 업무 등의 NDR(Non-Driving Related Task) 상황이 발생한다. 따라서 새로 적용되는 차량 내 문맥을 이해하고 상황에 맞는 멀티모달을 적용해야 한다. 기존의 멀티 모달 요소에 음성인식뿐 아니라 생체정보를 활용한 멀티 모달을 추가함으로써 인터랙티브 수준을 높이고 현실감과 실제감 있는 경험을 제공할 수 있을 것으로 기대된다. 특히 생체신호나 제스처 멀티모달을 적용하면 주행 경험을 즐겁게 해 엔터테인먼트 차원에서 자율주행차의 유희적 가치를 높일 것이다.
2) 신뢰감, 안전감을 전하는 멀티모달 자율주행차의 가장 큰 이슈 중 하나는 신뢰감과 지각된 안전감이다. 학계와 업계에서는 특히 자율주행차제어권상황(TOR) 정보 제공 방식 등 탑승객의 신뢰감과 지각안전도를 높이기 위한 다양한 연구를 진행하고 있다.
시장조사전문기업 엠브레인 트렌드모니터가 전국의 만 1959세 운전면허 소지 성인 남녀 1,000명을 대상으로 자율주행 자동차에 대한 인식조사를 실시한 결과 자율주행차 상용화에 대해 33.4%가 불안해했고 20.1%가 위험하다고 인식했다. 부분 자율주행 자동차인 Level 3에 대해서는 응답자의 절반 이상이 도입에 찬성하였으나, 완전 자율주행 Level 5에 대해서는 20.6%만이 도입에 찬성하였다[2]. 이 같은 결과는 일반 소비자들이 자율주행에 익숙하지 않은 기술이기 때문에 오류와 사고 가능성을 실제보다 높게 인식해 문제 상황에 대비한 통제성을 갖고 싶어 하는 것으로 풀이된다. 통제감은 사용자로 하여금 대상을 직접 조작하게 함으로써 언제든지 통제권을 수행할 수 있게 하는 UX의 중요한 속성이다[3].
이처럼 인간 운전자보다 자율주행 AI 사고 발생 확률이 적더라도 지각된 안전감은 실제 안전성에 비해 크게 떨어진다. 이 때, 멀티모달을 통해 탑승자의 안전감 및 신뢰감의 인식에 관련된 각각의 상황에 적합한 상호작용을 제공해 신뢰감과 지각된 안전감을 높일 수 있다. 에이전트가 라이팅(빛), 사운드, 디스플레이 등에서 충분한 정보를 제공하거나 사용자를 안심시킬 수 있는 환경을 조성하는 등의 멀티모달 활용 방법이 있다.
3) 사용성을 향상시키는 멀티모달 운전상황에서는 친숙한 기존의 HMI 멀티모달인 물리버튼, 터치컨트롤, 스위치방식으로도 충분히 간단하고 편리한 경험을 제공하지만 NDRT 상황에서는 사용자의 시선, 자세, 방향 등이 다르고 손이 항상 스티어링휠에 위치하지 않기 때문에 전통적인 버튼, 터치멀티모달에서는 사용성이 떨어질 수 있다.
예를 들어 자율주행 모드로 사용자가 뒷좌석의 다른 승객과 대화하는 상황을 생각해 보자. 사용자가 좌석 방향을 바꿔 윈실드를 등지고 있다면 음악 볼륨을 줄이거나 에어컨을 켜는 등의 조작을 하고 싶을 때 센터페시아나 스티어링 휠에 있는 버튼을 이용하는 것이 번거롭다. 간단한 설정을 조작하기 위해 사용자는 등을 돌리고 버튼을 누를 필요가 있어 기능 수행까지의 시간이 지연될 것이다. 이러한 사소한 불편함이 몇 차례 반복되면 사용자 만족도를 떨어뜨리는 요소가 된다. 이때 음성인식 모달리티를 제공하게 되면 단순히 에이전트를 호출하여 사용자가 어느 방향으로 앉아 있든지 쉽게 원하는 조작을 할 수 있어 사용자 주도성을 높일 수 있다.

2. 자율주행 멀티모달의 현재 그렇다면 지금까지 자동차 업계에서는 어떤 멀티모달을 적용하고 있는 것일까? 자율주행 콘셉트카를 포함한 주요 자동차 브랜드의 멀티모달 적용 최신 사례는 다음과 같다.

▲2.1. 수동적인 차량 조작 멀티모달 사례=BMW는 독자적인 운영체제 「iDrive 7.0」에서는, 운전자가 주행중 화면을 보지 않아도, 희망하는 기능을 수행할 수 있도록 제스처 컨트롤 기능을 제공한다. 센터 디스플레이 앞에서 손바닥을 펴거나 손가락을 빙글빙글 돌리는 등의 제스처로 전화 받기/거절, 볼륨 조절뿐만 아니라 앞으로(REW)/다음(FF) 등의 기능도 할 수 있다.

<그림 2: BMW iDrive 7.0 제스처 인터랙션>

<그림 3: BMW iDrive 7.0 제스처 인터랙션 예[5]>

BMW는 21년도 기준, 아직까지 자동주행 레벨 2레벨이며, 모든 주행에서 드라이버가 전방을 주시하고 직접 운전해야 하기 때문에 드라이버의 주의를 다른 곳으로 돌리지 않고 원하는 조작을 시키는 이러한 제스처방식이 효과적이다. 하지만 차가 스스로 달릴 수 있는 레벨3 이상의 자율주행 수준에서는 센터 디스플레이를 향해 제스처 액션을 취하는 것이 좋은 멀티모달 인터랙션이라고 할 수 없다. 사용자가 전방을 주시하지 않는 상황이 있거나 몸을 돌리는 상황이 종종 발생하기 때문에 인터랙션을 센터 디스플레이에 한정할 필요는 없으며, 탑승자가 어느 위치에 있어도 필요한 정보를 확인해 차량을 조작할 수 있어야 한다.

자율주행 2까지는 멀티모달 인터랙션의 목표가 운전 중에 안전하고 용이한 Manipulation이라면, 레벨 3 이후부터는 사용자와 차량의 Communication을 위한 것으로 변화되어야 한다. 운전자와 더 원활하게 의사소통할 수 있는 차량이 객관적 안전성과 지각된 안전성을 높여 신뢰감을 높이기 위해서다.

Benz의 완전 자율주행 콘셉트카 F015는 차량 내 문을 스크린화해 탑승자가 어느 위치에 앉아 있든 간에 각각 가까운 문으로 내비게이션 확인, 음악 조절, 기타 기능 조작을 할 수 있다.

<그림 4: Benz F015>

Benz F015에서 탑승자가 앉은 자리에서 쉽게 디스플레이를 확인하고 터치 조작이 가능하도록 한 것은 사용성을 높인 사례라 할 수 있다.

2.1 생체정보를 활용한 능동적 멀티모달 사례 생체정보(뇌파, 심박수, 표정 등)는 운전자의 졸음상태, 건강상태 등 실시간으로 변화하는 다양한 정보를 확인할 수 있는 멀티모달 요소이다. 이는 터치나 제스처 같은 수동적 멀티모달과는 달리 차량이 능동적으로 액션을 취할 수 있도록 한다.

기아자동차는 CES 2019에서 실시간 감정반응 차량제어 시스템(Real-time Emotion Adaptive Driving, R.E.A.D. 시스템)을 공개했다. 생체신호 멀티 모달을 이용하여 차량이 실시간으로 운전자의 감정과 상황에 맞게 차량의 실내공간을 최적화하는 기술로 미래 자율주행시대에 적용 가능한 생체멀티 모달 활용의 긍정적인 사례이다.

<그림 5: 기아 자동차 R.E.A.D. 시스템 심전도 센서(ECG)>

<그림 6: 기아 자동차 R.E.A.D. 시스템 표정 인식 3D 카메라 센서>

자율주행 레벨 2이하의 차량에서는 생체신호에 의한 운전자의 안전을 위한 건강상태 파악이 주목적이다. 기아차의 R.E.A.D 시스템은 스티어링 휠에 심전도 센서를 부착해 심장박동수와 피부전도율로 생체정보를 추출한다. 인간의 운전자가 필수불가결한 레벨 2이하의 차량에서는, 이러한 멀티 모달에 의해, 운전자의 상태에 따라 졸음 방지 경고, 위험 상황 대응을 실시할 수 있다.

그러나 자동운전 레벨 3 이상인 경우는 운전자의 건강상태를 넘어 감정파악을 중요한 커뮤니케이션 요소로 고려해야 한다. 감정센싱이 가능한 차량은 NDRT(운전외의 활동) 상황에서 운전자의 감정상태에 따른 음악, 온도, 조명, 향기 등을 능동적으로 제공할 수 있다. 기아차의 R.E.A.D 시스템은 대시보드에 있는 카메라와 얼굴인식 센서를 멀티모달로 활용해 사용자의 건강정보를 파악할 뿐만 아니라 표정인식을 통해 감성주행(Emotive Driving) 공간을 조성한다.

다만 전방 디스플레이에 위치한 카메라와 얼굴인식센서의 부착 위치를 향후 완전 자율주행차의 공간 변화에 따라 조정할 필요가 있어 다수의 탑승자가 있을 때 누구의 표정과 감정에 맞춰 공간을 조성해야 하는지 우선순위까지 파악할 수 있어야 한다.

3. 자율주행 멀티모달의 향후 방향 및 제안차량 내 적용 가능한 멀티모달은 빛(Lighting), 시각적 디스플레이(Visual Display), 시선(eye-tracking), 움직임(movement), 제스처, 음성대화 등 다양하다. 그러면 레벨 4 이상의 자율주행차에서는 각 모달리티를 언제, 어떤 서비스 제공에 적용해야 하는가?자율주행 멀티모달은 우선 맥락(context) 읽기 측면에서 방향을 고려해볼 필요가 있다. 레벨4 이상인 자율주행차는 운전자가 항상 필요한 것은 아니기 때문에 차량 내 활동 자유도가 높아진다. 자율주행차로 할 수 있는 활동은 크게 3가지로 나누어지며 휴식/편리성, 엔터테인먼트, 업무/학습 등으로 분류된다[7] 제어권이양(TOR)이 필요한 상황 발생 시의 주행활동도 포함된다. 자율주행차의 멀티모달은 이런 사용자 활동의 맥락에 맞게 적용돼야 한다. 따라서 각 상황에 맞는 멀티모달을 다음과 같이 제안하고 각 맥락별 멀티모달 요소 제공에 따른 사용자 수요 및 만족도 평가 연구의 필요성을 제기한다.

<그림 7: Volvo 360cc concept c ar의 다양한 맥락: 수면, 독서, 대화, 식사>

3.1. 제어권 이양의 상황 제어권 이양이 필요한 상황에서 중요한 것은 사용자의 신속한 각성과 상황 이해이다. 사용자가 어떠한 활동을 하고 있어도 신속하게 도로상황을 인지시키고 제어권을 되찾을 수 있도록 해야 한다. 따라서 운전자가 어느 방향을 향하든 TOR의 통지를 전달할 수 있도록 시각(빛)과 청각(음성, 사운드 피드백)의 모달리티를 이용해 안내하는 것이 효과적일 것이다. 또 디스플레이 설명과 음성 안내를 병행해 도로 상황을 이해할 수 있도록 해야 한다.TOR 상황 종료 후에는 불쾌감과 스트레스를 인식하게 되는데[8] 갑자기 높아진 운전자의 스트레스를 해소하기 위해 ECG(심전도)와 GSV(피부전도도) 생체정보를 측정하여 음악, 빛, 향기 등으로 마음을 안정시키는 분위기까지 조성해야 한다.

3.2. 휴식 상황 사용자가 잠을 자려고 하거나 휴식 상태일 때는 최대한 방해를 받지 않고 편안한 환경을 조성해야 한다. 이때 사용자는 디스플레이를 보거나 버튼을 누를 수 없는 상황이기 때문에 음성 명령이나 박수 같은 소리, 공중에 그리는 간단한 제스처를 인식하는 것이 편리하고, 이에 따른 피드백이 필요하다면 음성 피드백이 적절하다. 그러나 온도조절 등과 같이 사용자 명령에 따른 단순한 기능수행이라면 휴식을 다소 방해할 수 있는 긴 음성피드백 대신 기분나쁘지 않은 차임벨로 기능수행 여부를 알려주는 것도 바람직하다.

3.3. 엔터테인먼트 상황, 자율주행차에서의 엔터테인먼트 상황에서는 몰입감 있는 경험을 제공해 주는 것이 중요하다[9]. AR/VR 및 3D 카메라를 사용하여 제스처와 시선, 표정을 인식하고, 조명의 변화와 함께 서라운드 사운드와 진동 피드백을 제공하면 보다 입체적인 엔터테인먼트 경험을 제공해 사용자 만족도를 높일 수 있을 것이다.

3. 업무/학습상황 업무 또는 학습상황은 집중을 방해하지 않는 멀티모달 제공이 필요하다. 일반적으로 업무를 수행하거나 학습하는 상황에서는 사용자가 테이블을 활용하게 된다. 따라서 고개를 들지 않아도 원하는 기능을 조작할 수 있도록 테이블 터치나 모션 인식을 활용할 수 있다. 차량의 피드백이 필요한 경우 사용자의 호흡을 감지하여 집중도를 파악하고 집중도로 인해 사용자를 방해하지 않는 수준의 얕은 진동 또는 라이팅 통지로 피드백하는 것이 적절하다.

이 핸드북에서는 자율주행차와 사용자의 상호작용을 위한 멀티모달의 중요성과 적용사례 및 방향성에 대해 다루었다. 앞으로 자율주행차 멀티모달의 궁극적인 목표는 먼저 제안한 맥락읽기에서 더 나아간 사고읽기가 될 것이다. 사용자는 앞으로 각자가 가진 웨어러블 기기를 접속해 ECG(심전도), EEG(뇌파), GSV(피부전도도) 등 차량과 더 많은 생체정보를 공유할 수 있게 되어 사용자가 직접 명령하지 않아도 생각과 감정을 파악해 능동적으로 서비스를 제공하게 될 것이다. 문맥 읽기와 생각을 읽기 위한 다양한 멀티모달 활용을 통해 향후 자동차 브랜드가 보다 풍부하고 몰입감 있는 모빌리티 경험을 제공하기를 기대한다.

참고문헌 [1] 임미정, 박범. (2006). 멀티모달 인터랙션을 위한 사용자 병렬모달리티 입력 방식 및 입력 동기화 방법의 설계. 대한인간공학회지, 25(2), 135-146. [2] 엠브레인 트렌드 모니터(2020). 2020 자율주행자동차 관련 인식조사 https://www.trendmonitor.co.kr/tmweb/trend/allTrend/detail.do?bIdx=1874&code=0304&trendType=CKOREA[3] 김진우(2014). 경험디자인.앵글러픽스 [4] BimmerTech Youtube Channel (2021) https://youtu.be/QaOnDrF8BZ4 [5] Autosonics Youtube Channel (2021) https://youtu.be/QaOnDrF8BZ4 [6] 기아자동차, CES에서 감성 주행의 핵심 기술 ‘READ 시스템’ 최초 공개(2019). 연합뉴스 https://www.yna.co.kr/view/AKR20190103071200003 [7] 유채문, 방영환, 유흥식…(2019) 자율주행자동차의 시트 공간 구성 유형 분류 및 선호도 분석.대한인간공학회지, 38(6), 403-418. [8] Wörle, J., Metz, B., Othersen, I., & Baumann, M. (2020). Sleep in highly autom.

(본 게시판은 연세대학교 정보대학원 UX트랙 – 모빌리티 UX세미나 수업에서 제출한 개인 텀페이퍼입니다.)