'테슬라'는 마약 이름? '다크웹'의 은어 분석한 논문

신현규 2022. 7. 12. 11:39
음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

다크웹은 특별한 프로그램을 통해서만 접근할 수 있는 은밀한 공간이다. [사진 출처 = 픽사베이]
인터넷의 그림자인 '다크웹'은 특별한 프로그램이 있어야만 입장이 가능하며, 정부의 감시와 검열을 피하기 위해 만들어 진 공간이다. 이 때문에 마약거래, 불법음란물, 위조지폐, 무기거래, 공문서위조 등과 같이 영화에서나 볼 법한 불법적 행위들이 빈번한 것으로 알려지고 있다. 그렇다면 이 공간 안에서 사용되는 언어는 일상적인 인터넷 언어와 어떻게 다를까?

데이터 인텔리전스 기업인 S2W가 12일 미국 사애틀에서 열리는 자연어처리(NLP) 학회인 'NAACL 2022'(북미 전산 언어학 학회)가 발표한 논문 '다크웹의 언어에 새로운 빛을 비추기'(Shedding New Light on the Language of the Dark Web)은 다크웹에 올라오는 언어들을 수집하고 분석해 일반적인 인터넷 언어와 비교분석한 연구결과를 담았다. 논문에서 가장 흥미로운 대목은 '테슬라' '도요타' 등과 같은 자동차 브랜드 이름이 다크웹에서는 종종 마약을 지칭하는 은어로 사용된다는 점이었다.

대전 KAIST와 S2W의 연구진들로 구성된 논문 공저자들은 "다크웹 사용자들은 자신들이 말하려는 의도를 숨기기 위해 단어를 원래 의미와 다르게 사용하고 있었다"며 "그 사례로 (테슬라와 도요타 같은) 자동차 회사 이름들이 종종 마약과 관련된 문서에서 화학합성 마약을 지칭하는 용어로 둔갑한다는 사실을 알 수 있었다"고 밝혔다. 연구진들은 이렇게 발견된 가설을 검증하기 위해 단어와 유사한 단어를 찾는 신경망모델을 다크웹 문서 기반으로 학습시켜 '테슬라'와 '도요타'를 입력했더니, 실제로 '메톡스페니딘', '테스토스테론', '알프라졸람' 등과 같은 마약 연관 단어들이 출력되는 것을 확인했다.

연구진은 또 매운 맛을 내는 식물기반 양념인 '와사비'가 일반 인터넷에서 사용되는 것과 완전히 다르게 다크웹에서는 '비트코인 지갑'이라는 의미로 더 많이 사용된다는 사실을 확인했다고 밝혔다. 다크웹을 기반으로 학습시킨 언어 신경망 모델에 '와사비'를 입력했더니 유사단어로 암호화폐 서비스들의 이름이 떴다고 연구진은 밝혔다.

이날 발표된 논문의 모습
한편 KAIST와 S2W 연구진들은 다크웹의 웹 문서들을 10가지 카테고리로 분류하는 모델을 만들었으며, 이 분류 모델을 만드는데 사용한 학습 데이터를 공개함으로써 다크웹 연구를 촉진하는데 공헌을 했다고 밝혔다. S2W R&D 연구소는 "다크웹에서만 사용되는 언어들을 면밀하게 분석할 수 있도록 방대한 데이터를 분류하여 체계화함으로써, 업계 관계자들이 지속적으로 다크웹 언어를 연구하고 활용하여 전문성을 높일 수 있게 되었다"라고 보도자료를 통해 주장했다.

서상덕 S2W 대표는 "이번 NAACL 성과는 S2W의 다크웹 언어 연구가 단순히 논문으로 끝나는 것이 아니라 궁극적으로는 사이버 범죄를 사전에 예방하고 빠르게 대처할 수 있도록 함으로써 안전한 세상을 만드는데 긍정적인 변화를 이끌고 있다는 점을 증명한 사례"라고 말하며 "앞으로도 S2W는 연구 개발을 중심에 두고 적극적으로 글로벌 고객들과 만나 자사 보안 기술의 우수성을 알리고, 글로벌 브랜드 인지도를 제고하는데 주력할 계획"이라고 밝혔다.

미국 시애틀에서 열린 '북미 전산 언어학 학회 2022'에서 해당 논문을 발표하는 모습. [사진 제공 = S2W]
한편, S2W는 2018년 KAIST 네트워크 보안 연구진을 주축으로 설립된 데이터 인텔리전스 기업이다. 다크웹과 암호화폐 자체 분석 기술을 보유했으며 인터폴(INTERPOL)의 공식 파트너사이기도 하다. 감지하기 어려운 사이버 위협에 대응해 멀티 도메인에 혼재돼 있는 데이터를 통합분석하는 해법(소프트웨어)을 제공한다.

[신현규 기자]

[ⓒ 매일경제 & mk.co.kr, 무단전재 및 재배포 금지]

Copyright © 매일경제 & mk.co.kr. 무단 전재, 재배포 및 AI학습 이용 금지

이 기사에 대해 어떻게 생각하시나요?