척척박사 연구소

척척박사 연구소과학이야기제목별로 보기해설이 있는 과학

해설이 있는 과학

최신 소식 속에 담긴 다양한 과학정보에 대한 해설입니다.

스웨덴 물리학자가 ‘김씨 성’에 관심 갖게 된 사연



사진


장삼이사(張三李四).

‘장씨의 셋째나 이씨의 넷째’라는 말로 평범한 사람을 뜻하는 사자성어다. 중국에는 장씨와 이씨가 워낙 많다보니 이런 말이 생겼다(현재 장씨가 3위, 이씨가 1위).

이를 우리나라 실정에 맞게 바꾸면 김삼이사(金三李四) 정도가 아닐까. 김씨가 인구의 20%를 넘게 차지할 정도로 많기 때문이다(2000년 기준 4600만 명에서 990만 명).

도대체 우리나라는 왜 이렇게 김씨가 많을까. 500년 전, 1000년 전에도 그랬을까. 최근 스웨덴과 한국의 물리학자들이 발표한 논문에 따르면 이때는 물론 1500년 전에도 성을 가진 사람들 가운데 김씨는 여전히 20%는 차지했을 거라고 한다.

즉 서기 500년 경 한반도의 성을 가진 사람은 5만 명 정도였고 그 가운데 1만 명이 김씨였다고. 도대체 물리학자들이 어떻게 인구조사 자료도 없는 1500년 전의 성씨 분포를 알 수 있었을까.



●지프의 법칙은 왜 맞을까



‘뉴저널오브피직스(New Journal of Physics)’란 물리학 저널 7월 27일자에 실린 이 논문의 저자는 스웨덴 우메아대 물리학과 백승기 박사와 페터 민하겐 교수, 성균관대 물리학과 김범준 교수다. 백 박사는 2006년 카이스트에서 박사학위를 받은 뒤 김 교수팀에서 2년 간 일한 뒤 2008년부터 민하겐 교수팀에서 박사후연구원으로 있다.

사실 이번 연구는 지난 4월 7일 같은 저널에 실린 논문의 이론을 우리나라의 김씨 성에 적용한 결과다. 4월 7일자 논문의 제목은 상당히 시적인데 번역하면 그 묘미가 없어진다. ‘Zipf's law unzipped’이므로 ‘지프의 법칙이 풀렸다’ 정도의 의미다.

과학저널 ‘네이처’ 6월 9일자에 이 논문에 대한 상세한 해설이 실렸을 정도로 복잡계 분야에서 의미가 큰 논문이다. 이 논문의 제1저자 역시 백 박사다. 지프의 법칙이란 무엇일까. 그리고 그게 우리나라 김씨 성하고는 무슨 관계가 있을까.

20세기 전반기에 활동한 미국의 언어학자 조지 지프는 언어자료를 분석하다 흥미로운 사실을 발견했다. n번째 자주 나오는 단어의 빈도는 가장 많이 나오는 단어의 빈도의 n분의 1이라는 관계였다.

예를 들어 100만 여 단어로 이뤄진 자료에서 두 번째로 자주 나오는 단어 ‘of’는 3만 6411회 나오는데 가장 자주 나오는 단어 ‘the’의 6만 9971회의 2분의 1에 가깝다. 세 번째 단어 ‘and’는 2만 8852회로 the의 2.4분의 1로 법칙(3분의 1)에 약간 벗어나지만 그 뒤 단어들을 죽 비교해보면 대체로 잘 들어맞는다.

지프의 법칙이 놀라운 건 이런 관계가 단어 빈도 뿐 아니라 도시의 크기, 성씨 분포 등 서로 전혀 관계가 없을 것 같은 현상에도 그대로 적용된다는 것이다.







사진


예를 들어 미국에서 가장 인구가 많은 도시는 뉴욕인데 그 다음인 LA는 뉴욕의 2.2분의 1, 세 번째인 시카고는 2.9분의 1, 네 번째인 휴스턴은 3.8분의 1, 다섯 번째인 피닉스는 5.4분의 1이다.

도대체 지프의 법칙은 왜 맞는 것일까. 이에 대해서 많은 해석이 나왔지만 지금까지도 합의를 보지 못하고 있다. 그런데 백 박사와 민하겐 교수가 이를 해석하는 강력한 이론을 개발한 것. 바로 ‘임의그룹형성(random group formation, 줄여서 RGF) 모델’이다.

이들은 전혀 관계가 없어 보이는 데서 같은 패턴이 나오는 건 그 속에 보편적인 뭔가가 있다고 생각하고 통계물리학의 방법을 도입해 수식을 만들어갔다. 연구자들은 모든 상황을 공과 상자의 관계로 환원했다. 단어나 사람이 공이고 특정단어나 도시가 상자다.

즉 M개의 공을 N개의 상자에 임의로 넣을 때 가장 가능성이 높게 나오는 분포가 결국 지프의 법칙이라는 것. RGF 모델은 지프의 법칙보다 훨씬 일반적인 법칙으로, 특히 가장 많이 공이 들어가는 상자에 있는 공의 개수(kmax)를 알 경우에는 나머지 상자들에 있는 공의 개수를 추측할 수 있게 구성돼 있다. 그 결과 M, N, kmax를 알면 공이 상자에 어떤 분포로 들어가는지 예측할 수 있다.

● 한국의 족보로 이론 검증

이렇게 만든 이론을 적용해볼만한 매력적인 자료가 바로 우리나라의 족보다. 우리나라 족보에는 어떤 성의 여성이 언제 시집왔는가가 정확하게 기록돼 있기 때문에 이를 정리하면 M(전체 여성 수), N(여성의 성 수), kmax(가장 많은 성의 여성 수)를 알 수 있다. 따라서 이 세 가지 정보를 바탕으로 만든 RGF 모델과 실제 분포를 비교해보면 모델이 얼마나 잘 맞는가를 확인할 수 있다.

백 박사와 민하겐 교수는 수년 전부터 우리나라 성씨의 복잡계 현상을 연구하는 김 교수와 함께 족보 10편을 30년(한 세대) 단위로 나눠 M, N, kmax 값을 정리했다. 예를 들어 1600~1630년에는 384명이 시집을 왔는데 이들의 성씨는 모두 48개로 그 가운데 김씨가 88명으로 가장 많았다. 이런 수치를 바탕으로 RGF 모델을 검증하자 놀라울 정도로 잘 들어맞았다.

한편 우리나라 인구의 변화와 성씨 수의 변화의 관계를 분석한 결과 서기 500년 무렵 한반도의 성씨는 150개 정도로 추정됐다. 그리고 성을 가진 전체 인구수는 5만여 명, 이 가운데 김씨는 1만여 명으로 추정됐다. 그렇다면 서기 500년 무렵 한반도 인구가 5만 명밖에 되지 않았다는 말인가.

사실 삼국시대만 해도 사람들 대다수는 성이 없었다. 따라서 이때 성이 있는 인구가 5만 명이라는 예측은 오히려 역사를 더 잘 반영할 수도 있는 결과다. ‘임의성’을 바탕으로 한 이런 통계물리적인 수식이 ‘의지’를 갖는 인간 행위의 결과를 그럴듯하게 재현한다니 놀라울 따름이다.

 

 

 

 



강석기 동아사이언스 기자 sukki@donga.com



관련주제가 없습니다.
내과학상자담기  E-MAIL 프린트 카카오스토리 트위터 페이스북 RSS
관련 콘텐츠가 없습니다.

나도 한마디 0개의 댓글이 있습니다.

등록하기

목록


내 당근 보러가기

내 뱃지 보러가기

TOP