번역 역시 결국에는 인간이 하는 일이기 때문에 실수로 인해 발생하는 오류를 피해갈 수 없습니다. 오역이나 누락, 맞춤법 오류 등 다양한 오류 타입이 있지만 그 중에는 처음부터 번역문과 원문을 대조하며 하나씩 체크해 보는 검수(Review)단계를 거치지 않더라도, 프로그램을 통해 기계적으로 검사함으로써 해결할 수 있는 오류도 있습니다(CAT Tool을 사용해 번역 프로젝트를 진행하는 이유 중 하나이기도 합니다). 하지만 실제로 번역 작업을 하다 보면 부득이하게 CAT Tool 또는 전문 QA 도구를 사용해 QA를 할 수 없는 경우도 자주 발생합니다. CAT Tool에서는 오류로 잡아내지 않는 오류, 또는 오류는 아니지만 전체적인 품질을 검사하는 과정에서 체크해 봐야 하는 사항도 있고요. 그럴 때 엑셀 함수를 사용해 유사 QA(?)를 하기도 하는데요, 이번에는 그 중에서 “LEN” 함수를 사용한 예시를 몇 가지 소개해 드리고자 합니다.

 

LEN 함수란?

텍스트 문자열의 문자 수를 반환하는 함수입니다. 아래 수식으로 사용할 수 있습니다.

=LEN(셀 선택)


사용 예시

4글자인 A2셀은 4, 5글자인 A3셀은 5가 출력됩니다. 위 예시의 A4~A6셀을 보시면 알 수 있듯, LEN 함수는 “모든 문자 수”를 구하는 함수이므로 공백과 특수문자 등을 전부 계산합니다.

 

LEN 함수 + SUBSTITUTE 함수로 공백 포함 글자 수 세기

그러면 이번에는 공백을 제외한 글자 수를 구해 보겠습니다. SUBSTITUTE 함수를 사용해 공백을 제외한 텍스트의 글자 수를 계산하는 건데요, SUBSTITUTE 함수에 대해서는 다음 번에 다시 다뤄 보도록 하겠습니다.

=LEN(SUBSTITUTE(셀 선택,” “,””))


사용 예시

공백 개수가 달라 LEN 함수 사용 시 다른 값이 출력되던 A4와 A5 셀의 계산 결과가 같은 값으로 출력되는 것을 확인할 수 있습니다.

 

LEN 함수 + SUBSTITUTE 함수로 단어 수 세기

그러면 조금 더 응용해서 이번에는 단어 수를 계산해 보겠습니다. 영어 등 공백으로 구분한 단어가 의미 단위가 되는 언어는 글자 수보다는 단어 수를 계산해야 할 일이 더 많으니 여기까지도 알아 두시면 좋습니다.

=LEN(셀)-LEN(SUBSTITUTE(셀,” “,””))+1

복잡해 보이지만 원리를 이해하면 간단합니다.

(전체 글자 수) – (공백을 제외한 글자 수) = 공백 개수

이며

공백 개수 +1 = 단어 수

이기 때문에 단어 수를 구할 수 있게 되는 것이죠.


사용 예시

위 예시처럼 스페이스로 구분된 문자열(=단어) 개수가 출력되는 것을 확인할 수 있습니다.

  • 여기서 잠깐!
    위쪽 예시의 A4와 A5는 둘 다 세 단어이지만 값이 각각 3과 4로 다르게 출력됩니다.
    이는 A5 텍스트에 이중 공백이 포함되어 있어 발생하는 오류인데요, 따라서 이 함수로 단어 수를 계산하기 전에는 반드시 이중 공백이 없는지 확인 후 계산해야 합니다.
    (이중 공백 문제는 단순히 찾기/바꾸기를 통해 “ “를 “ “로 바꿔 해결할 수 있습니다.

 

LEN 함수 응용으로 두 문장의 길이 비교하기

LEN 함수가 글자 수를 계산해 준다는 점을 이용해서 간단하게 두 문장의 길이를 비교할 수도 있습니다. 셀1의 문장이 셀2보다 짧으면 ok, 길면 no를 출력해 주는 수식은 다음과 같습니다.

=IF(LEN(셀1)<LEN(셀2),”ok”,”no”)

그럼 실제로 해당 함수를 사용해 보겠습니다.


사용 예시

이 함수를 응용해 한영 번역 QA에 활용할 수 있습니다. 위 예시에서는 한국어로 된 문장(셀1)이 영어로 된 문장(셀2)보다 짧으면 ok, 길면 no가 출력됩니다. 이는 한국어 문장을 영어로 번역하면 대부분 원문에 비해 길이가 늘어나게 되는 점을 이용한 QA인데요, 물론 그렇지 않은 경우도 있겠지만 영어 번역문이 한국어 원문보다 짧은 경우는 대부분 위 예시의 4번 행처럼 중간에 번역이 끊기거나 누락된 내용이 있을 확률이 높습니다. 이 함수를 사용해 “no”가 출력된 행만 필터링해서 확인해 보면 누락된 번역을 잡아내기 편하겠지요. 단, 부등호의 방향을 바꿔 영-한 QA시 사용하기에는 어렵다는 단점이 있습니다. 한국어->영어가 아니더라도, 중국어->한국어 등, 번역문이 원문에 비해 대체로 긴 언어쌍에는 사용할 수 있겠습니다.