척척박사 연구소

척척박사 연구소과학이야기제목별로 보기해설이 있는 과학

해설이 있는 과학

최신 소식 속에 담긴 다양한 과학정보에 대한 해설입니다.

인터넷 검색, 죽어 있던 ′조사′를 살리다



이미지



 

이’와 ‘가’ 구분해 원하는 정보 찾는 시맨틱 검색

한 인터넷 검색창에 최근 인기몰이중인 가수이자 배우 ‘유이’를 입력하자 ‘최근동향’ ‘별칭’ ‘유래’ ‘발언’ 등 각 분야별로 관련 내용이 정리돼 나왔다. 사용자가 입력한 정보만 위치별로 보여주던 기존 검색과 달리 검색엔진이 관련 분야를 일목요연하게 정리해 애초 사용자가 생각하지 못했던 내용까지 보여준 것이다.

인터넷 포털사이트 네이트가 9월 30일부터 제공하는 ‘시맨틱 검색’ 서비스는 새로운 형태의 웹서핑을 제공하고 있다. 사용자가 입력한 주제어를 바탕으로 주변 단어와의 의미 관계를 고려해 웹페이지 수가 많지 않더라도 검색결과에 포함시킨다. 기존 검색엔진은 웹페이지에서 사용자가 입력한 단어가 존재하는가를 기계적으로 찾고 가장 빈도가 높은 페이지를 보여줬기 때문에 원하는 정보를 찾기는 쉬워도 그 이면에 숨은 내용을 보기가 쉽지 않았다.

의미 관계를 분석하는 시맨틱 검색에서 가장 중요한 글자는 ‘은’ ‘는’ ‘이’ ‘가’ 같은 조사다. 명사 뒤에 붙는 이 글자는 명사가 주어인지 목적어인지 보어인지 구분할 수 있게 해준다. 단어 위주의 기존 검색에서는 단어에 붙어 혼동을 줄 수 있는 조사를 무시하는 기술이 필요했다면 시맨틱 검색에서는 조사에서 의미를 찾는다. 한국어의 특성상 조사에 따라 내용이 달라지기 때문에 단어만큼 중요한데도 지금껏 무시되던 조사가 새 생명을 얻은 셈이다.





인터넷 검색에서 조사가 새 생명을 얻으며 더불어 위치가 격상한 한글이 있다. 바로 서술어와 부사다. 명사로 이뤄진 주어와 목적어를 구분할 수 있게 되자 부사와 서술어의 의미도 검색에 활용되기 시작했다.

부사와 서술어의 의미가 검색에 중요한 이유는 사용자가 입력한 단어의 용도가 무엇인지 알 수 있기 때문이다. 예를 들어 ‘릭샤’처럼 낯선 단어를 입력하면 시맨틱 검색의 카테고리는 ‘요금’ ‘별칭’ ‘역할’에 대한 내용이 정리돼 나온다. 장소인지 탈것인지 사람 이름인지를 검색엔진이 판단해 ‘탈것’에 대한 내용을 일목요연하게 보여주는 것이다(릭샤는 3륜차와 비슷한 택시로 동남아 등에서 쓰이고 있다).

네이트 시맨틱 검색을 운용하는 SK커뮤니케이션즈 김동환 검색연구소 팀장은 “현재 검색어에 따라 정리되는 분야는 의미별로 관련이 깊은 상위 50개 정도”라며 “최신 정보에 가중치를 보여주고 있지만 오랜 기간동안 꾸준히 제공되는 ‘스테디’ 웹페이지의 정보도 배제하지 않는다”고 설명했다.





시맨틱 검색은 현재 진화 중이다. 아직 부족한 점이 존재한다는 뜻이다. 아무래도 국내외에서 의미 위주 검색을 상용화한 전례가 없다보니 스스로 시행착오를 겪으며 문제를 해결해야 한다.

현재 시맨틱 검색이 부딪힌 벽은 2개 이상의 단어 검색에 약간의 맹점을 보이고 있다는 점과 영어나 특수기호를 포함한 검색어가 가끔 처리되지 않는다는 점이다. 시맨틱 검색엔진을 개발한 코난테크놀로지의 이대연 연구원은 “단순히 글자가 중복되는 웹페이지를 보여주는 것이 아니라 명사, 조사, 동사의 의미를 각각 분석해 내용별로 보여주기 때문에 단어 여러 개나 영어, 특수기호를 처리하는 방법이 낯설다”며 “시맨틱 검색엔진의 알고리즘을 발전시켜 올해 안에 여러 단어나 영어도 의미별로 분석하도록 만들 계획”이라고 밝혔다.

 

 

 



전동혁 동아사이언스 기자 jermes@donga.com



관련주제가 없습니다.
내과학상자담기  E-MAIL 프린트 카카오스토리 트위터 페이스북 RSS
관련 콘텐츠가 없습니다.

나도 한마디 0개의 댓글이 있습니다.

등록하기

목록


내 당근 보러가기

내 뱃지 보러가기

TOP