[발표] 초중고등학교에서의 독서평가와 작문평가
한동안 너무 바빠서 이곳은 폐가 비슷하게 되어 있었구나.
그래 봐야 지금도 바쁜 건 마찬가지이지만...
그래도 지난 한 달 반 동안 한 걸 좀 올려 놓아야겠다.
먼저, 지난 10월 20일 인하대학교에서 있었던 한국독서학회, 대학작문학회 연합 학술대회에서 발표했던 논문을 올린다.
제목은 위와 같다.
----------------------------------------------------------------------------
초·중·고등학교에서의 독서와 작문 평가
최지현(서원대학교)
1. 실제 평가로서 독서 평가와 작문 평가
사연은 있겠지만 발표 주제가 너무 크고 막연하다. 독서 평가와 작문 평가 각각에만도 논의할 사항들이 많고 복잡다단하거니와 초중고를 아우르는 문제를 다룬다는 것은 더할 나위 없이 많은 현안들을 동반한다. 현장 교사라고 하더라도 자신의 현장을 넘어서서는 알기 어려운 법인데, 한 걸음 떨어져 있는 대학 교수가 이들 학교급을 관통하는 문제들을 통괄하기를 기대하기란 과한 욕심일 것이다.
다만 국가나 지역 수준에서 평가와 관련한 실행과 검증 작업을 계속 해 오면서 가져왔던 실제 평가에 관한 문제의식들을 정리하여 발표할 필요가 있다고 여긴다. 이러한 관점에서 이 발표에서는 부여된 주제에 값하는 일반적 논의들을 포기하는 대신 그동안 이 분야 논의에서 제대로 다루어지지 않았던 몇 가지 문제들을 다루려고 한다. 따라서 먼저 주어진 주제를 다음과 같이 제한함으로써 논의를 초점화하기로 한다.
일반적인 평가 장면 대신 초·중·고등학교를 특정하는 것은 실제로 시행되는 평가를 다루라는 뜻으로 이해한다. 이를 실제 평가라고 불러 보자. 실제 평가는 구체적인 평가 도구를 다룰 때 비로소 눈에 들어온다. 말하자면 평가 설계(교육목표 확인→이원목표 분류→평가 방식 결정→평가 기준 작성)가 합당하더라도 평가 형식으로 제대로 구체화하지 못하거나 평가 실행이 적정하지 못하다면 실제 평가가 의도한 대로 이루어졌다고 말할 수 없게 된다. 이와 관련한 문제들로서 이 발표는 다음 사항들을 논의에 포함시킨다: 평가의 심급과 표현형, 평가 장면의 이해, 평가 형식의 패턴화, 평가 결과의 송환.
독서 평가와 작문 평가는 전자를 중심으로 후자를 연계시키는 논의로 국한한다. 이는 기본적으로 발표자가 작문 평가에 대해 제대로 알지 못하기 때문이기도 하려니와, 어느 정도는 각각의 평가가 지닌 특수성에 기인하는 바도 있다. 특히 작문 평가는 작문 과정에 중점을 두고 측정하거나 진단하기 위해서는 독서 평가와는 달리 평가 장면을 분리하기가 어렵다. 이에 따라 불가피하게 누적 평가가 이루어지게 되는 바, 작문 교수·학습 상황이 이를 위한 합리적인 조정 과정이 될 수 있다. 발표자는 몇 가지 이유에서 단일한 작문 교수·학습 상황보다는 읽기나 듣기·말하기와 연계된 작문 교수·학습 상황이 초점화된 요소별(혹은 단계별) 작문 평가에 더 효과적일 것으로 판단하고 있기 때문에, 이에 관한 논의를 중점에 두고자 하는 것이다. 이 발표에서는 독서 평가에 관해서는 선택형 평가 방식을 논의의 대상으로 삼고, 작문 평가에 관해서는 독서 평가와 연계된 지점들만을 논의의 대상으로 삼는다.
2. 평가 형식의 엄정성 문제 : 분석적 평가는 무엇을 놓치고 있는가
실제 평가로서 독서 평가는 대개가 분석적 평가를 선택한다. 그 까닭은 이 평가가 교육적 목적을 갖는, 그리고 교육적 기능을 갖는 교수·학습 상황에서의 평가이기 때문이다. 분석적 평가는 평가 대상과 내용을 초점화하고 장애 요인들을 요소화하여 과제와 문제를 진단하고 해결 방안을 처방할 수 있게 한다. 하지만 분석적 평가라도 평가를 독립적으로 다룬다면, 반드시 놓치는 것들이 생기게 마련이다. 분석적 평가에서 ‘분석적’이라는 말은 일반적으로 요소 분석을 뜻하며, 이는 분석적 평가가 어떤 요소의/를 통한 이해에 멈출 수 있음을 시사한다. 실제 독서에서는 그것이 가능하지 않다.
이 발표에서는 실제 평가를 대할 때 우선 살펴야 할 몇 가지 문제들을 제시해 본다. 이 문제들은 실제 평가를 담당할 평가자에게는 잘 보이지 않고, 따라서 대개 문제 선상에 오르지 않는 것들이다.
첫째, 평가 내용의 심급은 무엇을 통해 통제되는가?
예컨대, “위 글의 주제는 무엇인가?”는 이해 능력의 지표를 객관화하고 있는, 혹은 할 수 있는 평가인가? 아쉽게도 ‘무엇’에 대한 확인은 그 답변의 심급을 필수적으로 동반하지 않는다. 단지 그 ‘무엇’, 다시 말해 이해 대상이 심급을 결정하는 것으로 ‘여겨진다’. 이러한 독서 평가의 특성과 관련하여, 우리는 같은 물음이 서로 다른 능력을 평가할 수 있는 것은 독서 평가의 범용성을 보여주는 것이라고 이해한다. 또한 우리는 독서교육에서 어떤 특정한 독해 기능이 특정한 연령에 고정되어 있지 않을 뿐 아니라 어떤 특정한 독해 기능과 다른 특정한 독해 기능이 발달 과정상 고정된 관계적 위치를 갖지도 않는다고 여기는데, 이것이 독서교육의 융통성을 보여준다고 이해한다.
이러한 논리가 아니더라도 수많은 경험적 증거들은 독서교육과 독서 평가가 지식이나 기능 수행의 특성상 단계적 학습이나 평가의 구조를 갖지 않음을 보여준다. 하지만 독서교육과 독서 평가에 대한 이러한 이해가 ‘독서능력의 측정이 평가 도구로서의 합당한 객관적 지표들을 갖지 않아도 되는’ 논리를 뒷받침할 수 있는 것은 아니다. 오로지 이해의 대상이 지닌 지식의 심급만이 독서능력을 판단할 수 있다면, 적어도 두 가지 이유에서 독서교육은 무용하다. 첫째, 독서능력을 달리 평가하게 하는 것은 이해 대상이 되는 ‘글’일 따름인데 이것은 어떤 교육적 작용도 하지 않는다. 둘째, 어려운 글을 ‘읽을 수 있어야’ ‘어려운’ 글을 읽을 수 있는데, 이는 원리적으로 가능하지 않다. 아마도 사람들은 그동안 독서교육이 가르쳐 왔던 것들이 독서능력을 길러주는 방법, 혹은 수단이지 않았느냐며 의아해 할 것이다. 그렇다면 그때 가르쳤던 것들은 어떤 방식으로 효과성이 검증되는가? 이 검증에 동원될 합리적인 도구를 우리는 가지고 있는가?
좀 더 구체적으로 이 문제를 생각해 보자. “위 글의 내용과 일치하는 것은?” 같은 문두의 내용 이해 문제는 어느 수준의 이해 능력을 측정하는 것인가? 이 문제는 “위 글의 내용으로 알맞은 것은?”과 같은 것을 묻고 있는 것인가, 아니면 더 심도 있는 내용을 물은 것인가, 혹은 그도 아니면 더 ‘어렵게’ 묻고 있는 것인가? 또한 이 문제는 초등학교 5학년에서와 중학교 2학년에서와 고등학교 3학년에서 모두 같은 수준의 이해 능력을 측정하게 되는 것인가, 아니면 각기 다른 이해 능력을 측정하게 되는 것인가?
이에 대한 가장 손쉬운 대답─혹은 가장 덜 곤혹스러워지는 대답─은 ‘그때그때 다르다’는 것이다. 하지만, 명백히, 초등학교와 중학교, 그리고 고등학교에서 평가되는 이해 능력에는 차이가 있고, 그 차이는 가능한 한 직접적으로 측정되고 평가되어야 한다. 만약 직접적인 평가가 어렵다면, 최대한 그 능력을 객관화할 수 있는 방법을 찾아 상호 변별될 수 있도록 측정하고 평가해야 한다. 문제는 간접 평가와 같은 문제 패턴이 서로 다른 능력을 변별할 수 있게 하는 장치를 갖추고 있느냐 하는 점이다.
아래는 어느 중학교에서 같은 해 같은 기간 동안 서로 다른 학년에 대해 평가했던 기말 평가의 평가 문항들이다.
|
|
|
문항의 형태는 약간 다르지만, 정말 그것은 약간의 차이일 뿐이다. 세 문항은 모두 글의 형식적 특성(이른바 장르 특성)에 대해 묻고 있고 공교롭게도 모두 ‘바른 것’에 대해 말하고 있다. 말하자면 학교 차원에서 문항 관리가 되었다는 것이다. 그럼에도 불구하고 세 개의 서로 다른 학년에서 동일한 문항이 제시되었다. 우리가 짐작하는 대로, 평가 내용의 심급은 물음에 의해 규정되지 않고, 지문에 있다는 것이 평가자들의 공통된, 하지만 무의식적인 전제이다.
우리는 이 평가 과정을 상상해 볼 수 있다. 학생들은 글을 읽고 문제를 읽는다. 답지에 제시된 단서들─이 물음은 글의 형식에 대한 것이다!─을 파악하고 여러 형식들에 관한 선행지식들을 회상해 낸다. 이때 회상은 무차별적이고 총합적으로 이루어진다기보다는 이미 읽었던 글로부터 환기된 형식에 관한 몇몇 단서들과 선순환적으로 계속 조응시키는 방식으로 이루어진다. 그 결과 글에서 찾은 단서와 선행지식으로부터 환기된 정보가 부합되면, 단서가 가리키는 형식을 추론하여, 답지의 단서들과 맞추어본다. 이렇게 하여 글(의 형식)에 대한 설명이 재구된다.
이러한 일은 실제로 일어나지는 않는다. 학생들이 글을 읽을 때, 이미 그 글이 특정 형식에 속한다는 선행 지식을 가지고 있다면, 이러한 일은 실제로 일어나지 않는다. 만약 그 선행 지식이 수업 중에 습득한 것이라면, 그것은 적어도 이 평가 장면과 관련해서는 확실히 문제이다. 학생들이 답지에 제시된 단서들을 알지 못하거나 이해하지 못하거나 혼동하고 있다면, 이러한 일은 결과적으로 일어나지 않는다.
둘째, 평가를 위한 지시는 무엇을 근거로 이해되는가?
어떤 평가 형식이 평가 도구에 값하게 쓰이기 위해서는 갖추어야 할 내용 조건 외에도 형식 요건을 충족해야 한다. 이 형식 요건에는 객관성, 명시성, 단일성, 유일성, 실용성을 비롯한 여러 요건들이 포함된다. 그 중에서도 객관성은 일차적으로 충족되어야 할 요건이다. 평가 장면의 모든 요소들과 관련되며 목표 부합성이라는 측면에서 평가를 평가로서 성립시키는 기본적 약속이기 때문이다.
예컨대 다음 문항에서 객관성 요건에 대해 생각해 보자.
|
2013학년도 본수능 언어 영역에서 다루어진 문제 중 하나이다. 문학 영역의 문제를 독서 평가로 볼 수 있느냐는 의문이 있겠지만, 우선 평가 형식에만 주목하도록 하자. 이 문항은 다음과 같이 자신을 드러낸다: 여기 서로 다른 텍스트가 주어져 있다. 그것들 사이에는 유사한 속성이 공통분모로 존재한다. 유사한 속성은 제시된 텍스트들에서뿐 아니라 일반적으로 독서 과정에서 주목할 만한 중요한 정보들을 처리하는 이해의 도구(내용적, 혹은 형식적)일이다. 문항의 지시 내용에는 텍스트에서 찾을 수 있는 핵심적인 단서(혹은 표지)가 포함되어 있다. 이 단서는 답지에 서로 다른 모습으로 존재한다. (물론 때로는 추가적 단서가 주어지기도 한다.) 어떠한 독서 능력을 묻기 위함인가? (가)와 (나) 글에 내재되어 있는 공통된 속성을 추출해 낼 수 있는지를 묻기 위함이다. 그렇다면 적어도 이 문항은 그 뜻이 분명하고 쉽게 이해되는 물음을 가지고 있는 것이다.
하지만 때로는 그 값을 갖지 못하거나 과잉되는 경우도 존재한다.
|
이 문항이 평가하고 있는 것은 ‘세부 내용의 이해’이다. 하지만 시험의 취지와 성격에 비추어 문항 설계를 기대한다면 ‘중핵적 정보의 분석적 이해’가 오히려 더 합당했을 것이다. 문두는 글에 제시된 대상의 특성을 아는지 묻고 있고, 아마도 주의하지 않았다면─이 말은 ‘의당 기대하는 바대로라면’이라는 뜻이다.─ 대상의 특성은 분석적 읽기를 요구할 것이다. 이렇게 전제를 세우는 것은, 실제 평가는 이미 글에 ‘석가탑’의 특징으로 열거된 내용들을 ‘사실 조회’하게 하고 있기 때문이다.
그런가 하면 이 문항이 답지 중 하나는 대상에 대한 평가적 진술을 포함하고 있다. 이렇게 되면 답지의 층위도 맞지 않을뿐더러 이 문항의 물음이 묻지 않은 것까지 답지가 지시하게 됨으로써 문항 간섭을 야기하거나 오도 분석을 유도할 수 있다.
문항의 난도를 높인다는 것은 문두를 더 어렵게 한다는 것을 뜻하는 게 아니라 답지에 반응하는 사고 수준을 높인다는 것을 뜻한다. 만약 발표자가 가르치는 학생 중 누군가 임용시험을 치르고 나서 “도대체 문제가 어려워서 못 풀겠어요.”라고 자신감 없이 토로했는데, 그 다음날 “이 문제 다 알던 내용인데…….”라며 아쉬워한다면, 그것은 문두의 지시를 제대로 따르지 못한 학생 탓인가, 아니면 문두의 지시를 정확하게, 쉽게, 간명하게 드러내지 못한 문항 탓인가.
김라연(2007)은 서수현(2003)이 제시한 논설문 쓰기 평가 기준에 따라 교사, 대학생, 고등학생 집단이 논설문 자료를 평가한 결과를 분석한 바 있는데, 일반적으로 인상 평가가 되기 쉬운 것으로 알려진 총체적 평가에서와 달리 오히려 분석적 평가에서 이들 집단의 평가 결과가 다르게 나왔음을 밝히고 있다. 그리고 그 까닭에 대해 기준에 대한 해석이 기준 자체를 다르게 이해하게 한다고 판단을 내린다. 돌이켜 보면, 평가 도구의 엄정성에 대한 여러 논의가 있었지만, 그중에 문두 지시의 정의를 다룬 논의를 보기 힘들었다. 문두의 표현 형식이 너무 쉬웠기 때문이라고 할 수도 있을 것이다. 확실히 문두에는 어려운 용어들이 사용되지 않고 있다. 일부 교과서에 따르면 수백 개의 문학 용어들을 배워야 하는 문학 평가에서도 대수능의 문제들은 백 개도 안 되는 용어만을 사용한다. 그것도 빈도 면에서 보면 이십여 개의 용어 정도가 문두에 사용되고 육십여 개 정도만이 답지에 빈번하게 등장할 따름이다.
그렇게 본다면, 평가 지시의 문제는 용어의 어려움 때문이 아닌 용어 사용의 자의성 때문일 가능성이 높다. 하지만 이를 바로잡기 위한 과정은 좀처럼 보이지 않는다.
셋째, 평가 지시의 패턴화는 평가에 긍정적인가, 아니면 부정적인가
넷째, 평가 결과의 송환은 무엇으로 이루어지는가
3. 평가 실행의 실제성 문제 : 교육적 평가를 어떻게 현실화할 것인가
독서 평가는 조작적 평가가 가능하다. 달리 말하면, 조작적 평가 장면을 만들 수 있고, 진단하거나 측정해야 하는 단위의 독서능력을 미세하게 살펴볼 수 있다. 읽기 전략이 다양화, 다층화되고, 독서 교수법이 학습법과 결합하여 이 전략들을 내용적으로 포섭하게 된 이래로 평가의 가능성이 매우 넓게 확장되었다.
하지만, 표현은 과정 속에 존재하며, 작문 평가는 속성상 일정 부분만 떼어 조작적 평가 장면을 만들기 어렵다. 내용 구성 능력을 평가하려고 할 때, 전제가 되는 것은 작문의 교수·학습적 상황이며, 이 상황 속에서 학생들은 평가 대상을 제출하기 위해 실제로는 작문을 위한 아이디어 산출 활동부터 수행해야 한다. 말하자면, 작문 과정을 평가할 때, 평가되는 것은 인지적 작문 모형이 보여주는 것 같은 작문의 어느 특정 단계가 아니다. 특정되는 것은 우리의 관념이고, 실은 그 단계까지의 누적된 전체가 평가의 자리에 놓이게 된다. 이에 비추어본다면, 종종, 혹은 대체로 우리는 작문 평가를 결과로 놓고 평가하면서도 관념 속에서는 특정 단계를 분석적으로 평가할 수 있다고 여긴다.
그렇다면 프로토콜 분석과 같은 과정 평가를 분석적 평가 방법으로 활용하는 것은 어떠한가? 쓰기 평가에 프로토콜 분석과 이에 대한 과정 중심 피트백을 결합시켜 효과 검증을 시도했던 김평원(2011)은 이러한 방법이 평가를 위해 긴 시간과 많은 노력이 요구됨을 반증한다. 달리 말해 작문 교수·학습 상황에서 항용 사용되기는 어렵다는 것이다. 구두 작문이나 사고 구술은 작문 과정의 재귀적 점검을 통해 작문의 문제 상황을 발견하며 이를 바로잡기 위해 전략적 모색을 하도록 촉진하는 평가 도구로서 활용될 수도 있지만, 작문 전략, 혹은 작문 교수·학습으로서도 이미 문제 제기된 바 있는 인지적 왜곡 문제─이 구술 과정은 재현적이기보다는 제시적이다─에 대한 적절한 해결 방안은 아직 제시되지 않은 것으로 보인다. 한편 반성적 쓰기(박영민·김종백·우은실, 2006)는 ‘반성적 사고’가 갖는 능동적이며 사려 깊은 성찰을 작문 과정에 적극적으로 활용하는 방안이 된다고 할 수는 있지만 박영민(2006)에서 볼 수 있다시피 그 자체가 평가 도구라기보다는 평가를 위한 유용한 자료를 생산하는 과정으로 보는 것이 더 합당할 것이다.
이상의 평가 방법들은 모두 결과 평가로서의 작문 평가가 지닌 한계를 극복하기 위해 고안된 과정 평가들로서 그 관점의 정당함과 교수법에서의 유용함이 어느 정도 확인된 것들이라 할 수 있다. 하지만 입장의 정당함이 실제 평가를 뒷받침해 주는 것은 아니다. 이 평가들은 시범적으로 보임으로써 반향을 일으킬 수는 있지만, 모든 학생으로 확대시킬 때에는 불가불 고비용에 저효율을 감수해야 한다. 과정 평가로서 작문 평가는 교육적으로 필요하다. 하지만 여기서 말하는 ‘교육적’이란 보완적 처치를 위한 분별을 뜻한다. 그리고 보완적 처치를 위해서는 어느 정도 분석적 평가를 요구한다.
그렇다면 작문 평가에서 분석적 평가는 어느 정도의 실제성을 지니고 있을까? 달리 말해, 어느 정도까지 일상적으로 활용되며, 어느 정도까지 객관적이며 합당한 진단과 처방을 내려줄 수 있겠는가?
위에 인용한 작문 평가 기준표는 수많은 예들 중 하나이지만, 내용에서 조직으로, 그리고 다시 표현으로 쓰기의 과정을 각기 초점화하여 각 과정을 하위 요소들을 지표 삼아 독립적으로 평가하게 만들었다는 점에서는 표준적이다. ‘독립적’이라고 하였지만 각 단계─위에서 아래로의 요소들의 위치─를 지날 때마다 평가 내용이 누적되는 것은 불가피하다. 평가 내용이 누적되지 않게 하기 위해서는 각 단계마다 평가치를 보정하는 것이 필요해지는데, 문제는 이 보정의 수준과 방식이 평가자에게 일임된다는 것이다. 이 부분은 확실히 객관성을 위협한다고 판단된다.
재차 밝히거니와, 이 발표가 주목하고 있는 것은 일반적 평가가 아닌, 교육적 평가이다. 평가의 일차적 목적은 교수적 지침을 주기 위해서이기에 평가가 곧 교수 행위가 되고 평가 속에서 평가의 내용만이 아니라 평가의 기준과 지표를 학습하게 하는 평가인 것이다. 따라서 평가 송환은 가능한 한 즉각적으로 이루어져야 하며 정확한 진단을 바탕으로 처방이 동반해야 한다. 미국 Educational Testing Service(ETS)에서 제공하는 “Criterion® Online Writing Evaluation Service”은 몇 가지 점에서 참조할 만한 시사점을 제공한다. 웹 기반의 영작문 학습 도구이자 평가 도구로서 이 서비스는 다양한 주제 분야에서 작성된 영문 에세이에 대해 5개의 영역 42개의 항목의 작문 평가를 자동으로 산출하여 그 결과를 제공한다. 온라인상에서 에세이를 작성하고 제출을 하면 곧장 몇 가지 항목으로 요약적 평가가 제시되며, 항목별 점수 분석 내용을 확인할 수 있게 한다.
|
평가 송환은 문법, 용법, 기법, 문체, 조직 및 전개의 다섯 영역으로 나뉘는데, 그 각각은 다시 정량화된 지표들을 통해 분석된다.
|
그림 7은 문체 분석의 예를 보여준다. 여기서는 단어의 반복, 어울리지 않는 단어, 또는 구의 사용, 호응되는 접속어로 시작하는 문장, 너무 짧은 문장, 너무 긴 문장, 그리고 수동태의 사용 등이 점검됨을 알 수 있으며, 단어와 문장의 개수, 그리고 이로부터 도출되는 문장의 평균 단어 사용 빈도가 함께 제시된다. 이것들은 모두 (단어 사이의) 분포와 순서, 반복, 횟수 등의 정량적 지표들에 의해 계산된 결과들이다.
|
이러한 자동 평가 시스템에 ETS Criterion®은 교수자의 첨삭 지도를 결합시켜 요소별 정량적 분석 평가에 정성적 평가를 함께 사용하도록 운용하고 있다. 아마도 이러한 방식은 앞서 살펴본 프로토콜 분석이나 반성적 쓰기 같은, 과정 평가의 기초 자료들을 대체하거나 보완하는 방법으로 활용될 수 있을 것이다. 다만 다음과 같은 제약을 먼저 해소해야 할 것이다. 굴절어에 속하는 영어는 단어의 문장 내 기능과 관계에 따라 고정된 단어 형태를 갖는다. 이것은 자동화된 정량적 측정에 매우 유리한 조건이다. 반면 한국어는 어미나 조사의 활용이 가변적이며, 이른바 ‘좋은’ 문장이 되는 단어의 수나 복잡도, 서법 등에 표준화된 규범도 확립되어 있지 않다. 문법에서 조직 및 전개로 발전하면서 그 가변성은 더 커진다. 흔히 중심 문장부터 쓰고 문단을 시작하게 하는 영어식 구문과는 달리 한국어에서는 중심 문장의 위치가 훨씬 큰 자유도를 가지고 있다. 단어와 문장 수준에서만 하더라도 먼저 가변성을 줄이고 표준화를 모색해야 하는 과제가 남아 있는 셈이다.
4.
Afflerbach, Peter(2010),