제공 :
한빛 네트워크
저자 : Peter Laflin
역자 : 한순보
원문 :
Deconstructing a Twitter spam attack
네트워크 구조가 가짜 계정을 진짜 영향력 있는 계정과 구분할 수 있다는 것을 데이터 분석을 통해 보여주다.
가짜 트위터 계정이 소셜미디어 참여를 꾸준히 파악하려는 브랜드에 미치는 영향에 대해 최근에 많은 논의가 있었다. 최근의 한 트윗 스팸 공격이 유용한 예를 제공한다.
10월 1일 오전, 런던의 스트라타 컨퍼런스에 참석한 대표자들은 상당한 스팸 트윗이 #strataconf 해시태그를 사용하여 보내지고 있는 것을 알아채기 시작했다.
데이터시프트(DataSift)의 데이터와
블룸 에이전시(Bloom Agency)가 개발한 도구를 사용해 컨퍼런스를 겨냥한 스팸 공격을 밝히는 분석을 했다.
다음 다이어그램은 #strataconf 해시태그를 포함한 두 세 개의 트윗을 받은 후의 트위터 대화 스냅 샷을 보여준다. 빨강 선 혹은 파랑 선은 각각 두 트위터 계정 사이의 연결을 나타내고, 보낸 트윗의 결과로서 정보가 어떻게 흐르는지 보여준다. 오전 11시쯤에는 컨퍼런스에 대해 서로 이야기하기 시작한 각 커뮤니티가 나타나기 시작했고, 이를 다이어그램에서 뚜렷하게 볼 수 있다.
아래 다이어그램은 대화를 들은 30분이 지난 시점에 대한 추가적인 시각화를 보여준다. 자발적으로 이어지는 유기적인 대화에서, 당신은 많은 임의적인 연결과 네트워크를 가로질러 퍼진 많은 커뮤니티를 예상할 수 있다.
이 도구가 발견한 스패머를 찾기 위해 네트워크를 자세히 살펴보면 아래 다이어그램과 같이 몇 가지 다른 패턴을 보게 된다.
스패머는 대화에 포함되지 않으며 대화의 변두리에 존재한다. 그들은 #strataconf에 대해 트윗하는 사람에게 직접 메시지를 전달하지 못하는데, 그 계정이 스패머를 팔로우하지 않기 때문이다. 하지만 트윗의 시작에 #strataconf를 놓음으로, 그 컨퍼런스에 대한 트윗을 찾는 사람들이 그들 콘텐트를 선택하게 하려는 분명한 의도가 있다.
우리가 스패머라고 찾은 계정을 빼면, 임의적이지 않은 패턴이 나오는 것을 보게 된다. 이 패턴은 블룸 에이전시 연구원에게 잘 알려졌고, 잠재적인 스패머를 발견하고 알아내는 도구를 훈련하는 데 사용한다. 스패머의 네트워크는 고도로 조직적이며 아주 많은 구조를 보여준다. 이 네트워크에는 충분한 임의성이 없다. 그것은 아마도 컴퓨터에 의해 분명히 의도적으로 생성되었다.
그들이 네트워크에 가져오는 구조가 얼마나 되는지를 통해 스팸 계정을 확인하여, 그 도구가 가짜 계정의 목록 대신에 진짜 영향력 있는 계정 혹은 진짜 팔로워를 포함하는 목록을 만들 수 있다.
예를 들면, 월요일 오전 11시 15분 컨퍼런스 중에 @MarieBoyd14의 트윗이 의심스럽다고 표시됐다. 그것은 이렇다.
"#strataconf http://t.co/79fGWudr 같은 것을 발견한 것을 믿을 수 없어"
지금 바로 @MarieBoyd14를 찾아보면 계정이 중단된 것을 알 수 있다. 겉보기에 그 계정은 해당 트윗을 전송한 후 몇 분 내에 중단되었다.
같은 단축 URL이 11시 15분 43초와 그 계정이 중단되기 전 11시 17분 사이에 잇달아 여섯 번 전송됐다.
여기에서 선택된 첫 번째 트윗은 11시 15분 43초에 그 사용자의 78번째 트윗이었다. 해당 계정은 오랫동안 활성화되지 않았다. 이 단축 URL을 포함하는 여섯 번째 트윗이 발견된 시간까지 트윗은 93개였다. 손가락이 "트윗" 버튼에 고정된 게 아니라면 컨퍼런스에서 가장 많이 트윗을 올리는 사람조차 2분 이내에 15개의 트윗을 올릴 수 없다.
@MarieBoyd14 이후 그 해시태그로 시작하는 또 다른 트윗을 5초 후인 11시 15분 48초에 받았다. @RosalindaKline8의 트윗이었다. 또 다시 이 계정을 찾아 본다면 이것도 중단되었다. 그 트윗은 이렇다.
"#strataconf 믿을 수 없어. 이게 진짜란 말인가? http://t.co/GKc4rnr5"
t.co 링크의 포맷은 다르지만, 이 링크는 사용자를 같은 도메인인 http://barsa1.free-football.tv으로 보낸다.
@RosalindaKline8가 이 주소를 다른 내용으로 11시 15분과 11시 19분 사이에 일곱 번 트윗했다. 이 계정은 @MarieBoyd14 계정과 같은 프로필을 사용하며 상대적으로 새롭고, 빠르게 100개까지 전송하고 나서 중단된다.
두 가지 분명한 패턴이 나타났다. 우선, 메시지를 생성하는데 사용되는 계정은 여성의 이름을 딴 후 계정 끝에 숫자를 붙였다. 다음으로, 메시지는 모두 그 컨퍼런스의 해시태그로 시작했다.
30분 이내에, 140개의 다른 계정에서의 424개의 트윗은 분당 14개 트윗의 비율을 기록했다. 상세한 조사를 통해 모든 스패머 계정이 85613으로 시작하는 ID를 가진 것을 알아냈고, 이는 그 계정이 거의 비슷한 시기에 만들어졌음을 뜻한다. 그 계정은 모두 마지막 트윗을 보낸 지 2-3분 후에 중단된 것으로 보인다.
여기서 논의된 30분 시간 간격에 750개의 트윗이 306개의 다른 계정에서 분당 25개 트윗의 비율로 기록됐다. 스패머가 절반 이상의 트윗을 했다. 스패머를 제외하면, 비율은 분당 10개 정도가 된다.
이 계정이 전파한 또 다른 링크는 http://yourson999.tk/rivers.php로 가는 URL이었다. 조사를 통해 이 사이트는 우리가 예상하는
HTTP 200 혹은
301 헤더가 아닌,
203을 응답하는 헤더를 생성하는 것으로 밝혀졌다. 이것은 평범하지 않은 무언가가 일어나고 있음을 암시한다. 계속된 조사로 그 URL이 트래픽을 다른 엔드 포인트로 전달하고 있다는 것을 알았다. 해당 URL이 서드 파티 전자 상거래 사이트로 트래픽을 생성할 때마다 매번 제휴 레퍼러가 포함된다. 이것은 공격 배후에 있는 기관이나 개인을 위한 제휴 레퍼러 요금은 보호하면서 전자상거래 웹사이트에 트래픽을 전달하려는 시도 같다.
트윗 스팸 공격이 표면적으로는 한정된 방해로 보일지 모르지만 감안할 필요가 있는 만큼 큰 영향이 있다. 스패머는 #strataconf 해시태그의 확산을 측정하는 데 사용하는 기본적인 지표에 영향을 크게 미친다. 소셜미디어 리스닝 도구에 포함된 스팸 필터링 없이는 그 도구를 사용하는 기관에 부풀려진 숫자를 제공하는 우를 범한다. 미래 활동을 결정하는 브랜드에서 이 숫자를 사용한다면 스패머가 숫자를 크게 바꾸어 잘못된 결정을 하게 될 수 있다.
***
피터 라플린(Peter Laflin)은 영국 리즈(Leeds)에 있는 통합 마케팅 에이전시인 블룸 에이전시의 데이터 인사이트(Data Insight)의 책임자다. 피터는 소비자가 어떻게 행동하는지와 상업적인 이득을 보기 위해 예측한 모델링을 어떻게 사용될 수 있는지 예측하는데 빅 데이터를 이용하는 것에 관심이 있다.