유럽의 연구원들은 현재 휴대전화기를 사용하여 찍은 사진을 하이퍼링크(hyperlink)로 첨부할 수 있다. 그것은 자신의 주위 환경을 발견(discover)하고 소속시키며(engage) 조종하기 위한 새로운 방법의 가능성을 제공한다. 당신이 있는 곳에 대한 아무 정보도 없고 거기에 어떻게 왔는지에 대한 기억도 없이 낯선 도시에서 깨어났다고 상상해보라. 당신은 잠잠히 당신의 휴대 전화기를 들고 거리 풍경을 사진으로 찍는다.
빠르게 그 사진은 사진에 나타난 건물, 기념탑, 거리 풍경의 특징의 이름을 제공하는 하이퍼링크로 생생하게 다가온다. 하이퍼링크는 사진에 대한 모든 특징의 이력, 서비스, 문맥에 대한 정보를 이끈다. 당신은 단지 당신의 현실을 하이퍼링크하였을 뿐이다.
이러한 시나리오가 조금 부자연스러울 수도 있다. 하지만 본 기술은 존재하며, 상상으로 꾸며낸 이야기가 아니다. 이것은 제임스 본드 영화의 다음 판에서 나올 Q가 발명한 경탄할만한 장치가 아니다. 이것은 유럽 연구원들에 의해 개발된 기술이다. 이 기술은 당신의 전화기에 곧 적용될 것이다.
이것은 마케팅 용어로 말하자면, 게임 체인저(game changer)이다. 그것은 실세계와 웹 기술을 그물로 엮는 완전히 새로운 인터페이스 패러다임을 개발하는 것이다. 이 기술은 Apple社의 아이폰(iPhone)을 위하여 판세를 뒤집은 멀티 터치와 같이 크고 신선하다. 하지만, 더욱 진행되어야 하며, 더욱 충분한 결과가 나와야 한다(※ 게임 체인저(game changer)는 현재의 판세를 뒤집는 물건이나 사람 등을 의미함.).
MOBVIS 플랫폼은 완벽하게 물리적인 환경에서의 조정, 탐색, 상호작용을 위한 규칙들을 다시 썼다. 그것은 도시 환경에서 당신이 찍은 사진으로부터 건물을 확인하고 흥미 있는 지점에 아이콘을 놓는다. 당신이 커서를 이용하거나 터치 스크린으로 간단히 아이콘을 클릭하면, MOBVIS 시스템은 그것이 건물의 레스토랑이라면, 그것에 대한 역사, 예술, 구조 또는 메뉴에 관한 정보까지도 제공할 것이다.
MOBVIS는 도시 시나리오에 이동성이 있는 세심한 인터페이스(mobile attentive interfaces)를 나타낸다. 이것은 유럽연합 지원의 MOBVIS 프로젝트의 아이디어로서, 본 프로젝트에 연결되어 있지 않은 실제 사람과 실제 환경에서 본 기술의 작동을 성공적으로 시연하였다.
본 프로젝트의 연구에는 더 주목할만한 점이 있다. 왜냐하면, 이미지 인지 기술이 오랫동안 이루어져 왔지만, 끊임없는 노력의 고통을 주는 것 같았다. 현재 MOBVIS는 이미지 인지뿐만 아니라, 본 기술을 위한 어플리케이션을 끌어들이는 것을 개발하고 있으며 세계의 대부분의 유비쿼터스 기술, 즉 휴대전화기에 적용하는 더욱 명백하고 분명한 방법이 되고 있다.
본 시스템은 거리 풍경의 참조 지점을 만든 데이터베이스에 저장해놓은 지리 참조(geo-referenced) 파노라마 사진으로 시작한다. 이러한 파노라마는 도시 데이터베이스의 기초를 형성한다. 그것은 건물, 기념탑, 슬로건, 로고와 조화될 수 있다. 개개의 건물 또는 기념탑과 관련한 정보는 수동으로 데이터베이스에 추가된다.
일단 주석이 완료되면, 휴대폰 사용자로부터 쿼리(queries)를 가져올 준비를 한다. 사용자는 간단히 거리 풍경 사진을 찍고, MOBVIS는 참조 파노라마와 사용자의 사진을 비교하여, 적절한 링크를 반환한다. 마치 사진이 각 특징을 아이콘을 포함한 데스크톱 배경이 된 것과 같으며, 아이콘을 클릭하면, 해당 지역의 역사와 문화의 정보를 얻을 수 있고, 쇼핑 기회를 또한 얻을 수 있다.
이것에는 처음 보는 것보다 더 많은 착각이 있을 수 있다. 왜냐하면, 사진은 빛, 날씨의 모든 정보를 가져오고, 때로는 잘못된 앵글로 찍힐 수 있으며, 유럽의 대부분의 아름다운 도시에는 많은 건물이 있기 때문이다. MOBVIS 시스템은 어떻게 이러한 부분을 따로 분리하여 나타내고, 어떻게 올바른 건물인지를 확신할 수 있을까?
이것은 MOBVIS가 이전의 이미지 인식 기술을 뛰어넘어, 더 많은 힘을 발휘하고 가장 인상적인 발전을 보여주는 점이다. 본 매칭 시스템(matching system)은 지역적이고 변하지 않는 특징 탐지, 에피폴라 기하학(epipolar geometry), 평면 제약과 같은 기술적인 개념을 위협한다.
하지만, 본 시스템의 비상한 특징은 슬로베니아의 Ljubljana 대학교에서 개발된 고차원, 특징 매칭 알고리즘으로 요약된다. 그것은 매우 정확하게 탐지할 수 있으며, 유사한 물체 간의 차이점을 설명한다. 예를 들어, 만일 특정 외형을 가진 건물이 다리 옆에 있으면서 백화점에 인접해 있지 않으면, 그것은 틀림없이 건물 X이다. 이러한 표시는 데이터베이스에 저장된 적절한 정보를 위한 표시이다.
사실 이러한 기술이 현실에서 시험될 때 얼마나 정확한지 밝혀지는 것은 주목할만하다. 사용자에게 5분 간의 교육이 주어지며, 사용자의 휴대전화기를 가지고 오스트리아 Graz市를 탐험하도록 보내진다.
본 시스템은 80퍼센트의 건물을 탐지하였다. Ljubljana 대학교 연구팀장인 Ale? Leonardis는 이것이 개선될 수 있다고 확신하였다. “하지만 이것은 프로토 타입 시험의 가장 주목할 만한 결과가 아니다. 때때로 본 시스템은 건물을 확인할 수 없었지만, 결코 부정확한 건물에 연결하지 않았다”고 Leonardis는 강조하였다.
“본 시스템은 항상 옳지는 않았지만, 결코 틀리지는 않았다. 이것은 첫 번째 실제 테스트였다. 이것은 주목할만한 성과이었으며, 상업용 어플리케이션으로의 빠른 개발을 기대하게 하였다”고 Leonardis는 덧붙였다.
MOBVIS 프로젝트: http://www.mobvis.org/ 1.jpg
참고)
http://www.mobvis.org/demos.htm
Demos
Object Awareness | Visual Localisation | Multimodal Positioning | Visual Context Awareness | Multimodal Context | Augmented Digital City Maps | Geo-Services & Incremental Map Updating | Visual Attention | Attentive Interface
Urban Location from Street Signs
Street Plate Detector and Recogniser
Object Awareness
Object awareness is investigated to detect and recognise objects of high interest in urban scenarios, such as, buildings, infrastructure, people, and signs. MOBVIS demonstrates how geo-indexing significantly improves performance in mobile object recognition by exploiting the information of augmented digital city maps. Query image and GPS based position estimate are sent to the server which responds with results from the geo-indexed object recognition. Furthermore, visitors might be informed with annotation, including history, event and shop relevant information, about the point of interest.
Visual Localisation
The user image is automatically localized by relating the image to the MOBVIS image database. Via triangulation the user's position and orientation is determined, yielding accuracies comparable to GPS. In addition, image-based localization enables novel services, like hyperlinking reality or georeferenced object detection.
The illustration shows a query image (blue frame) and some reference images (green frames) used to position and orient the query image and consequently the user. Some geometric relations relating the query image with one of the reference images are indicated by the dark green lines.
Multimodal Positioning
MOBVIS introduced new outdoor positioning possibilities that are offered by combination of GPS and WLAN positioning, as well as motion estimation by dead reckoning and state-ofthe- art vision positioning. The combination of vision-based technology with incremental positioning has found to enable continuous position estimates, making it directly compar able to standard techniques such as GPS and WiFi. Interestingly, computer vision has shown to enable localization accuracies compar able to GPS.
Visual Context Awareness
MOBVIS provided a concept of vision based context on how to extract, learn and use contextual features to guide object detection. Three complementary types of contextual features are proposed: viewpoint prior, geometrical context and textural context. The concept aids the detection process, yielding speedup and increasing detection accuracy. Examples are shown for pedestrian detection.
Multimodal Context
Activity is an important source of context information. MOBVIS explored methods for unsupervised activity modelling based on signals from multiple body-worn sensors, including accelerometers. For a given set of long-time captured information it was possible to build models that correspond to different everyday activities, including eating and shopping, and without requiring a prior training, user annotation or information about the number of tasks involved.
Augmented Digital City Maps
Vehicles are collecting data about urban infrastructure for the definition of map features and points of interest, including geo-referenced images, traffic infrastructure and tourist sight information. Map features are stored in and provided to mobile vision services by the Mobile Mapping Data Warehouse of Tele Atlas. Standard digital city maps are augmented with these data as a support of mobile vision services. User track and image reference data are visualised and can be interactively accessed in the MOBVIS user interface.
Geo-Services & Incremental Map Updating
Geo-services are responsible for the interaction with the map based geoinformation knowledge. A complex functional interface to the digital map information has been defined in MOBVIS for the capabilities to realise appropriate responses to requests from the MOBVIS system components e.g., under variation of the spatial scope and the quality of the request on geo-information, and for the provision of specific information to the vision module to generate object hypotheses.
Geo-services enable intelligent user position and orientation based filtering of surrounding objects for geo-indexed object recognition and analysing of map features for real-time context detection.
MOBVIS supports incremental updating of maps and therefore automated authoring of urban infrastructure, including road furniture, public transport, and public objects, such as coffee shops.
Visual Attention
Strategies of attention naturally refer to a cascaded processing of – potentially – different visual features, each indexing to a certain coverage of an associated search space. A first step in the cascaded processing is to localise categorical visual features, those that would relate to a specific set of objects, or, inversely, to relate to background information, such as vegetation and cobblestones.
MOBVIS developed a multi-cue attention system that combines bottom-up and topdown influences. Sequential attention was developed to exploit geometrical constraints for object recognition by a concept that is inspired from human attention and eye movements.
In addition, the extraction of street profiles from 3D information recovery supports indexing into city maps for location awareness.
Attentive Interface
The context framework used in the Attentive Machine Interface (AMI) defines a cue as an abstraction of logical and physical sensors which may represent a context itself, generating a recursive definition of context. Sensor data, cues and context descriptions are defined in a framework of uncertainty. The architecture of the AMI reflects the enabling of both bottom-up and top-down (attention driven) information processing. Attention enabled by the AMI means focusing operations on a specific detail of a situation that is described by the context.
댓글 없음:
댓글 쓰기