코퍼스의 개념 및 역사
1. 코퍼스 언어학의 역사
최신 어휘교육의 동향을 살펴보면 이제는 ‘코퍼스(corpus)’라는 용어를 어디서든 쉽게 찾아볼 수 있다. 코퍼스는 원어민이 표현한 문자 혹은 음성언어를 문서화한 형태의 언어자료를 의미한다. 하지만 최근에는 보통 컴퓨터로 분석 가능한 텍스트 파일 형태의 디지털화된 언어자료를 통칭한다. 코퍼스는 초기 사전(dictionary)제작 또는 언어학적으로 규범문법(prescriptive grammar)에 대응한 기술문법(descriptive grammar)의 근거를 마련하는데 주로 사용되었지만 이제는 언어교육적인 측면에서 더욱 각광을 받고 있다.
19세기 초반까지 미국의 언어교육과 영국의 언어교육은 1천년간을 이어온 문법 번역식 교육(Grammar-translation Method)이 주를 이뤘다는 면에서는 동일하다. 교 양과목으로 희랍/라틴어를 배우는데 있어 문법에 초점을 둔 번역식 교육이면 충분 했고 그러한 번역식 교육이 인지능력의 발달에 도움을 준다고 믿었다. 하지만 산업 혁명이후 꾸준한 무역과 국제교류의 증대로 의사소통을 위한 말하기 능력의 필요성 이 증대되었다. 이에 따라 학계에서도 의사소통중심의 교육으로 전환해야 한다는 자각의 목소리가 커지게 되었다.
그러한 요구로 말하기 중심의 교육이 19세기 후반의 Reform Movement와 함께 사설교육기관을 통해 인기를 끌며 큰 성공을 거두게 된다. 그 대표적인 예가 Direct Method, 소위 Berlitz Method였다. Direct Method는 원어로 수업하는 방식의 몰입 식 교육으로 직접 몸동작을 보여주면서 지도를 하기 때문에 기초수준의 학생들에게 는 흥미유발과 언어교육의 효과 면에서도 매우 성공적이었지만 원어민 수준의 교사 확보 문제와 추상적인 개념을 몸동작으로 설명하는데 있어 한계점을 들어내며 상위 수준의 학습자들에게는 적절하게 사용할 수 없었다. 하지만 이러한 변화도 잠시, 20 세초에 들어서면서 다시금 읽기 중심의 교육으로 회귀하게 된다. 1920년대에 들어 서면서 외국어 교육에 있어 가장 필요하고 효과적인 방법이 읽기교육이라는 인식이 팽배해 짐에 따라 미국과 영국에서는 모두 Reading Approach가 주를 이루게 된다. 하지만 미국과 영국의 언어교육의 흐름에 있어 커다란 차이를 만들고 또한 코퍼스 활용에 관한 연구에 있어 일대 전환기를 만든 역사적 사건이 발생한다. 1957 년 당시 소련에서 Sputnik호라는 인공위성을 발사하게 되는 데 이것은 미국사회에 커다란 충격을 가져다준다. 세계과학의 중심이 미국이라는 자부심에 큰 상처를 준 것이다. 이에 따라 미국에서는 우방국과의 교류를 통해 선진 과학기술을 도입해야 한다는 정책적인 결정과 함께 이러한 교류를 위한 외국어교육이 강화되었다. 1958 년 National Defence Education Act가 미 의회에서 통과됨에 따라 많은 언어교육 연구기관이 설립되었고 외국어교육을 위한 기존의 교수법들에 대한 연구와 검토가 이루어졌다. 그 중 당시 가장 최근에 효과성이 검증된 것이 2차 세계대전 중에 연 합군의 작전수행을 위해 도입되었던 Army Specialized Program이었다. 이 교수법 은 첩보원의 훈련이나 연합군간의 의사소통을 위해 개발된 언어교수방법으로 일상 생활표현 중심의 듣기/말하기에 초점을 둔다. 그리하여 나름대로 성공을 거둔바 있 는 이 프로그램을 바탕으로 한 행동주의의 대표적인 Audio-lingual Approach가 1960대 초반까지 미국 언어교육의 흐름을 주도하게 된다. 이와 동시에 미국 언어학 계에서 Reading Approach는 급격히 쇠퇴하게 되었다. 이러한 이유로 현재까지도 미 국방부에서 언어교육의 상당부분을 담당하고 있는 것이다.
반면 영국에서는 말하기 교육의 강화가 필요하다는 데는 공감을 하였으나 미국과는 다르게 그 이후에도 상당기간 Reading Approach가 강세를 보이면서 Oral-Situational Approach의 도입을 통해 의사소통능력중심의 교육 또한 강화하였 다. 이러한 두 시스템의 공존으로 영국권 국가에서는 현재까지도 꾸준히 Reading Approach에 바탕을 둔 연구와 교재개발이 지속되고 있다. 미국과 영국의 언어교육 이 크게 달라 보이지는 않지만 이 시점에서 코퍼스의 개발과 활용에서는 큰 격차를 보이게 된다. Reading Approach에서 Audio-lingual Approach로 완전히 돌아선 미 국에서는 1964년 Brown University에서 Francis와 Kučera의 주도록 Brown Corpus 라는 최초의 전자 코퍼스(electronic corpus)가 개발되었음에도 불구하고 코퍼스를 활용한 교재개발이나 연구들이 거의 이루지지 않는다.
그 이유는 학문중심교육과정으로 돌아선 미국의 언어교육은 “무엇을 가르치느 냐(what to teach)”에서 “어떻게 가르치느냐”(how to teach)"로 급속히 전환하게 된 다. 이러한 논쟁은 기존의 교수내용에 초점을 둔 "synthetic syllabus"와 학습의 방법 론 쪽에 초점을 둔 “analytic syllabus"와의 충돌로 해석할 수 있다. 현재는 이러한 원론적인 논쟁의 시대는 이미 끝났지만 이시기 뿐 아니라 1990년대 후반까지도 논 란이 되던 문제였다. "Synthetic syllabus"는 일종의 상향식 접근법(bottom-up processing)으로 단어와 같은 하위 항목을 이해하고 그것을 문법적 구조에서 바라보 면서 문장 더 나아가 문단의 범위로 이해해 가는 방법이다. 다시 말해 미리 가르쳐 야 할 내용들(예, 발음, 단어, 구, 문법 등)을 정해 놓고 학습이나 교수가 이루어지는 것이다. 반면 “analytic syllabus"는 하향식 접근법(top-down processing)으로 이는 학습내용을 사전에 정한다는 것은 습득의 순서(acquisition order)를 고려해야 하는 데 이러한 예측은 사실 상 불가능하고 미리 정해진 특정 표현을 가르치기 위해 실제적이지 않은 어색한 표현들을 교재에 수록할 수밖에 없기 때문에 이러한 전통적 인 접근법에는 문제가 있다는 것이다. 대신에 학습자의 요구조사(need analysis)를 통해 주제(topic)가 정해지면 그 주제에 따른 task를 해결해 가는 과정에서 자연스럽 게 필요한 표현들을 습득할 수 있다(incidental learning)는 입장이다.
이와 같이 당시 미국 학계의 시선은 코퍼스를 이용하여 유용한 표현을 미리 선 별하거나 빈도수에 따른 학습의 우선순위를 정한다는 코퍼스 활용연구에 부정적인 입장을 취할 수밖에 없었고 이로 인해 최초의 전자 코퍼스를 개발하고도 코퍼스 연 구는 미국에서는 빛을 볼 수 없게 된 것이다. 반면 영국은 1964년에 제작된 Brown Corpus에 자극을 받아 1978년 뒤늦게 Brown Corpus와 같은 형식에 같은 크기로 Lancaster Oslo/Bergen(LOB) corpus개발하고 이러한 코퍼스를 Reading Approach 에 접목하여 적극적으로 활용하게 된다. Reading Approach 소위 Graded Reader라 는 어휘가 단계적으로 통제된 읽기교재를 광범위하게 활용하고 있었는데 이런 교재 개발에는 두 가지 문제점이 있었다. 첫째는 어휘를 어떤 방식으로 선정하여 어떻게 통제할 것인가? 둘째는 수준별 교재를 만드는 과정에서 발생하는 표현의 제한 및 변형을 따른 실제성(authenticity)의 파괴를 어떻게 하면 최소화할 수 있는가? 이러 한 문제를 해결하기 위해 영국 학계에서는 필연적으로 코퍼스로 눈을 돌릴 수밖에 없었다. 초기 코퍼스 활용은 코퍼스를 구성하는 어휘의 빈도수를 분석하여 많이 쓰 이는 어휘를 위주로 어휘 목록을 작성하여 그러한 어휘를 우선적으로 학습하는 방 법을 택했고 빈도수를 바탕으로 어휘를 등급화하여 그 등급화된 어휘를 통제하면서 수준별 교재를 개발하였다.
그리하여 이러한 코퍼스 활용을 위한 분석 및 어휘통제기술은 비약적으로 발전할 수 있었다. 이미 무료로 배포되고 있는 Heatley, Nation과 Coxhead(2002)의 RANGE Program이 대표적인 예라고 할 수 있다. 코퍼스 개발의 두 번째 목적은 교재에 수록된 표현의 실제성 확보에 있다. 코퍼스는 원어민이 사용한 음성 또는 문자언어 자료를 집대성한 것이기 때문에 모든 표현이 실제적이고 사실적일 수밖에 없다. 따라서 사실적인 표현을 추출하여 교재를 구성함으로써 수준별 교재가 가지 는 실제성의 파괴를 최소화하였다. 최근에는 미국에서도 영국주도의 코퍼스 연구에서 벗어나 최신의 언어자료를 중심으로 COCA(Corpus of Contemporary American English)라는 코퍼스를 구축하 여 새로운 전기를 마련하고 있다. Google과 같은 거대 기업들도 코퍼스에 관심을 보이며 코퍼스 연구에 대한 투자를 하고 있고 이에 따라 코퍼스 즉 소위 빅 데이터 (big data)를 활용한 연구는 학문적 또는 상업적 목적을 가지고 더 확대될 것으로 보인다.
2. 코퍼스 활용의 변천
초기 코퍼스의 활용은 코퍼스로부터 유용한 표현을 추출하거나 사전의 예문을들어주거나 주요 어휘를 기준으로 수준별 교재를 제작하는데 주로 사용되었다. 이 런 작업은 컴퓨터를 바탕으로 한 코퍼스 기술이 활성화되면서 가능하게 되었는데 이러한 초기 코퍼스 활용을 소위 “Behind‐the‐Scenes Approach"라고 한다. 이 접 근법은 말 그대로 현장에서 한걸음 물러나 미리 준비한다는 의미로 온라인으로 코 퍼스를 실시간 활용하는 것이 아니라 오프라인으로 코퍼스를 분석하여 학습내용을 선정하거나 교재를 개발하는데 활용하는 것이다. 1990대 초반까지는 이 접근법이 주를 이루었고 많은 연구들이 현재까지도 진행되어 왔다.
(예, Chung, 2003; Coxhead, 2000; Laufer, Elder, Hill과 Congdon, 2004; Leech, Rayson과 Willson, 2001; Meara, 2005; Nation, 2006).
이 접근법에서는 기본적으로 가장 많이 쓰이는 표현들이 가장 유용한다는 가정 하에 빈도수 조사를 통해 학습내용을 선정하였다. 또한 실제로도 어느 정도는 빈도수가 습득순서(acquisition order)와도 연관성을 가 지고 있을 것이다. 단정할 수는 없지만 학습자는 자주 쓰이는 표현에 더 노출될 것 이고 그러한 표현의 기억은 더 강화될 것이기 때문이다.
이러한 컴퓨터 분석을 위해서는 어휘 단위의 개념을 명확히 할 필요가 있다. 다 음은 일반적으로 통용되는 어휘의 정의에 따른 변이형(굴절 또는 파생)의 포함 범위 를 나타낸 것이다.
(1) 출현형(token):
텍스트를 구성하고 있는 총 단어를 의미한다.
(2) 낱말유형(type):
텍스트를 구성하고 있는 단어 중에서 중복이 없이 순수하게 한 번씩만 집계했을 때 보이는 단어의 유형으로 단어의 형태가 다르면 다른 유형으로 간주한다.
(3) 사전 등재형(lemma):
굴절 변이형을 포함하는 기본형으로 예를 들어 'swim', 'swims', 'swam', 'swimming'은 모두 동사라는 품사를 그대로 유지한 채 문법적인 굴절만을 보여주고 있으므로 이 네 단어의 사전 등재형은 기본형 ‘swim'이다. 하지 만 굴절의 범위는 여러 이론에 따라 약간의 이견을 보이기도 한다.
(4) 단어군(word family):
가장 포괄적인 기본형으로 품사에 상관없이 굴절과 파생 변이형을 모두 포함한다.
예를 들면, To be or not to be, that is the question에서 출현형은 10개, 낱말유 형은 to와 be의 중복으로 8개, 단어군은 is가 be와 같은 단어군으로 낱말유형보다 하나 더 줄어 7개이다.
어휘의 빈도분석은 어느 정도의 어휘수를 알고 있으면 어느 수준까지 영어표현 을 이해하고 표현할 수 있는지 그 포괄범위의 예측을 가능하게 해주었다. 다음의 텍스트 포괄범위(text coverage)의 예이다.
(1) ‘the’: 7%
(2) 10 most frequent words: 25%(텍스트 포괄 범위)
(3) 100 most frequent words: 50%
(4) 1000 most frequent words: 75%
(5) 2000 most frequent words: 80% / 90%(일상 생활영어)
c.f. 47% =function words
코퍼스 활용에 관한 연구가 가속화되고 웹기반 인프라가 급격히 발전함에 따라 코퍼스 활용에 대한 새로운 요구들이 생겨나기 시작했다. 이러한 접근법은 코퍼스 의 샘플을 온라인으로 직접 연결하여 그 예를 학생들에게 제시하거나 코퍼스를 바 탕으로 예시문항을 현장에서 바로 제작하여 활용하는 것으로 소위 “On Stage Approach"라 한다. 이 접근법은 Johns(1986, 1988, 1991)가 제시한 “Data-Driven Learning(DDL)”으로 더 널리 알려져 있다. 말 그대로 데이터인 코퍼스에서 자료를 끌어와 교수학습에 활용하는 것으로 학습자들은 많은 샘플을 보면서 목표로 하는 의미를 찾아보거나 특정 표현의 쓰임을 직접 접해보면서 문법 또는 어휘를 귀납적 으로 습득하는 발견식 학습을 그 원리로 하고 있다. 이런 DDL은 최근 들어 Cobb 와 같은 학자들이 코퍼스 활용에 기초를 둔 웹사이트를 구축하여 그 활용을 극대화 하고 있다. 그 대표적인 사이트가 Cobb가 주도하여 www.lextutor.ca로 퀘벡대학에 구축되어 있는 웹기반 사이트이다.
-신동광 (한국교육과정평가원 연구위원)
댓글