빅 데이터, 커서? 많아서?

연재칼럼 지난칼럼
오소영
정동희
한일수
김준
오클랜드 문학회
박명윤
수선재
천미란
박기태
성태용
명사칼럼
수필기행
조기조
김성국
채수연
템플스테이
이주연
Richard Matson
Mira Kim
EduExperts
김도형
Timothy Cho
김수동
최성길
크리스티나 리
송하연
새움터
동진
이동온
멜리사 리
조병철
정윤성
김지향
Jessica Phuang
휴람
독자기고

빅 데이터, 커서? 많아서?

0 개 1,119 조기조

숲속, 바다 속, 땅속에 무엇이 있을까? 우리는 잘 알지 못한다. 그래서 탐험을 하거나 탐사를 한다. 숲과 바다, 땅 속을 잘 알 수 있다면 먹고사는데 그리 어렵지 않을 것이다. 지하자원이나 고기떼가 어디 있는지 알 수 있다면, 또 산삼이나 불로초가 있는 곳을 알 수 있다면 왜 이 고생을 하고 살겠는가 말이다. 그러면 바다나 숲, 땅 속 말고 우리가 모르는 자원의 보고(寶庫)는 어디일까?

 

ff9a570302ed2b32b98d83c4a6b3af2f_1573516720_4611.jpg
 

스마트폰이 나오고 초고속 통신망이 갖추어지니 사람들이 SNS를 통해 소통하는 데이터가 방대하다. 많은 데이터를 크던지 많던지 간에 빅 데이터(big data)라고 불렀다. 이렇게 엄청나게 늘어나는 데이터의 특성을 Volume 이라고 한다. 데이터는 글과 사진, 소리, 동영상 등 다양한 형태(Variety)로 존재한다. 또한 엄청 빠르게 생겨난다(Velocity)는 특성이 있다. 이 3가지 특성을 V3라고 하였다. 

 

여기에 더하여 이 많은 데이터를 잘 가공하면 정확한 지식 또는 진실한 해답(Veracity)을 얻을 수 있다거나 가치(Value)를 창출할 수 있다고 하여 V4, V5까지 들고 나서는 사람도 있다.

 

숲이나 땅, 바다 속이 아니라도 사람들이 생각하고 검색하고 주고받는 일상에는 흔적인 데이터가 남고 이 빅 데이터를 수집해 신속하고 정확하게 분석할 수만 있다면 무언가 얻을 것이 있으리란 점에는 이의가 없다. 그래서 검색사이트 운영자는 검색 키워드를 분석하고 SNS 운영자는 사람들이 소통하는 내용을 분석하는 것이다. 

 

최근에 나오는 자동차는 전자적으로 제어된다. 자동차의 엔진 상태, 실내 온도나 조명, 타이어의 압력이 어떠한지 뿐만 아니라 도로 상태나 주변 차량, 신호의 정보까지도 읽고 자동으로 반응하게 된다. 그래서 자동차는 기계장치라기보다는 전자장치가 되었다. 

 

자동차가 움직이며 읽고 반응하는 데이터가 바로 빅 데이터이다. 만약 자동차 제조회사에서 어떤 자동차의 운행시 발생하는 각 부품의 상태정보를 받는다면 정비가 필요한 부품과 그 시기를 알려줄 수도 있을 것이다. 고장을 미연에 방지하고 안전 운행을 하게하며 수명을 연장시키는 방법이다. 자동차만 그렇겠는가?

 

너른 서울 바닥에는 자정이 다가와 지하철이 끊어지면 택시가 귀하신 몸이 된다. 승차거부는 물론 바가지요금은 각오해야 한다. 이런 저런 이유로 서울시가 따로 노선을 정하여 심야버스를 운행한다. 당연히 많은 이용자를 효율적으로 운행하도록 노선을 정해야 하는데 모 통신사의 스마트폰 이용자 데이터와 서울시가 수집한 교통 데이터를 함께 분석하여 심야에 사람들이 많은 곳으로 노선을 만들었더니 성공적이다. 적용할 분야는 너무 많다. 

 

일상생활에서 발생하는 빅 데이터를 제대로 수집하고 가공하지 못해서나 저 바다의 고기떼를 두고도 어디에 있는지를 몰라 잡아오지 못하는 것과 다를 바 없다.

 

ff9a570302ed2b32b98d83c4a6b3af2f_1573516760_4427.jpg
 

우리가 적은 비용으로 사람들의 생각을 알아보기 위해 여론조사를 한다. 대한민국 국민들의 생각을 알아보기 위해 질문지를 만들어 전화로 1,000명의 의견을 듣고 분석하여 나온 것을 전 국민의 생각이라고 하기에는 부담스럽다. 전 국민을 다 조사할 수가 없기 때문에 적용가능한 것이 국민들이 검색하고 소통하는 빅 데이터를 분석하는 것이다. 온라인에서 사람들이 활동하는 내용을 보면 수많은 벌들이 윙윙거리며(buzz) 사는 것처럼 보인다. 버즈 분석을 하면 보물을 찾을 수도 있다. 어떤 기업이 영업을 목적으로 할 때 특정 제품과 서비스에 대한 반응을 모니터링하고 사람들의 생각을 분석하여 그 집단에 적용할 방안을 찾는 타깃 마이닝(mining; 발굴)을 하는 것이다.

 

재판은 증거로 말한다. 증인이나 증거가 있어야 한다. 먹고 사는 일도 증거인 데이터로 말하는 시대가 되었다. 그것도 확실하게 많은 데이터로 증명해야 하는 것이다. 데이터란 그 자체로는 의사결정에 활용할 수 없는 어떤 객체나 사실이다. 사람과 관계있는 개인정보 데이터는 사생활을 보호해야 되기 때문에 가명이나 익명으로 처리해야 한다. 

 

가공하여 의사결정에 쓸 수 있는 상태의 것을 정보(information)라고 한다. 이 정보에서 패턴을 추출하여 보편타당한 지식(knowledge)을 낳고 이 지식을 인류 사회에 유익하게 활용하면 지혜(wisdom)가 되는 것이다. 

 

쓰레기도 잘 가공하면 정보와 지식을 얻고 지혜를 발견할 수 있다는 것이니 놀랍기만 하다. 어디에 귀하지 않은 것이 있겠는가? 분석기술이 또 놀랍다. 

디지털이 기가 막혀!

댓글 0 | 조회 1,366 | 2020.03.24
코로나 바이러스로 새로운 흐름이 생겨났다. 어쩌면 자연스럽고 당연한 산물이기도 하다. 비말(飛沫)을 막으려니 서로 간에 멀리 떨어지거나 마스크를 해야 하는 것이다… 더보기

바이러스가 무엇이 길래?

댓글 0 | 조회 1,726 | 2020.03.10
폐렴을 일으킨다는 코로나 바이러스로 세상이 공포에 떨고 있고 그로 인하여 생활하기가 불편하고 불안하다. 방역과 소독, 치료 등으로 애를 먹을 뿐만 아니라 생활과 … 더보기

브라우저와 유투브

댓글 0 | 조회 1,033 | 2020.02.25
브라우저로 웹페이지를 보려면 HTTP(Hyper Text Transfer Protocol)나 HTTPS(~ Secure)로 시작하는 주소(URL)를 입력해야 한다… 더보기

중년의 선댄스 영화제

댓글 0 | 조회 1,042 | 2020.02.11
파크 시티 메인 스트릿은 봄 햇살이 퍼져야 다 녹는 눈 더미도 볼거리이지만 매년 1월 4번째 목요일에 열리는 선댄스 영화제로 북새통을 이룬다. 왜 하필 거기서 영… 더보기

윈도우 유감

댓글 0 | 조회 1,674 | 2020.01.28
마이크로소프트사(MS)가 1월 14일을 끝으로 ‘윈도우 7’에 대한 기술 지원을 중단하였다. 윈도우 7을 사용하는 PC는 앞으로 보안 업데이트(패치)를 받을 수 … 더보기

뒷북치는 디지털 트랜스포메이션

댓글 0 | 조회 1,064 | 2020.01.15
스마트 팩토리가 한창이다. 정부가 중소기업에 스마트 팩토리를 지원하고 있다. 10여 년 전에 정부가 중소기업에 ERP의 도입과 생산정보화 사업을 지원했었다. 그때… 더보기

누구를 위한 인터넷인가?

댓글 0 | 조회 1,300 | 2019.12.23
중국은 일대일로(一帶一路)를 추진하고 있다. 천년도 더 전에 당(唐)나라의 장안(지금의 서안)에는 서시(西市; western market)가 대단했다. 인기상품인… 더보기

10가지 전략 기술

댓글 0 | 조회 1,549 | 2019.12.10
80년대 후반에 ‘end-user computing의 효과성 제고 방안’ 이라는 주제로 박사학위 논문을 준비했다. end-user란 자기 업무를 스스로 처리하는 … 더보기

Dark Web, Dark Fate

댓글 0 | 조회 1,174 | 2019.11.27
어둠(dark)은 암흑, 지하, 비밀, 죽음 등과 연상된다. 시리즈로 나온 영화 터미네이터에 다크 페이트(dark fate)란 부제가 붙었다. 주인공의 힘들고 어… 더보기
Now

현재 빅 데이터, 커서? 많아서?

댓글 0 | 조회 1,120 | 2019.11.12
숲속, 바다 속, 땅속에 무엇이 있을까? 우리는 잘 알지 못한다. 그래서 탐험을 하거나 탐사를 한다. 숲과 바다, 땅 속을 잘 알 수 있다면 먹고사는데 그리 어렵… 더보기

엣지 컴퓨팅

댓글 0 | 조회 2,010 | 2019.10.22
사물인터넷(IOT; Internet of Things) 시대로 가고 있다. 모든 길이 로마가 아닌 인터넷으로 연결된다. 스마트폰으로 은행 일을 보고 증권투자를 하… 더보기

NIC와 DNS

댓글 0 | 조회 1,252 | 2019.10.08
도메인(domain)은 영토, 영역, 세력 범위 등을 이르는 말이다. 어떤 연구 분야나 그 권리를 지칭할 때도 도메인이란 말을 쓴다. 최근에는 인터넷 웹 페이지의… 더보기

전자증권 이야기

댓글 0 | 조회 1,089 | 2019.09.24
증권(securities)은 유가증권(有價證券)을 줄인 말로 대부분 주식(柱式)과 채권(債券)이다. 채권은 국·공채(國·公債)와 사채(社債)가 있다. 기업은 증권… 더보기

OTT, 꼭대기 위에?

댓글 0 | 조회 1,287 | 2019.09.10
미국 여행 중 호텔에서 노트북으로 넷플릭스에 들어가 한국 드라마를 보다가 노트북을 HDMI 케이블로 TV에 연결하고는 큰 화면으로 편하게 보았다. 시차 때문에 잠… 더보기

반도체가 뭣이 길래?

댓글 0 | 조회 1,296 | 2019.08.27
인간은 5감에 하나를 더하여 6감(sixth sense)을 가지고 있다. 듣고, 보고, 맛보고, 만져보고, 냄새를 맡아 알게 되는데다 그간의 경험으로 상황에 따라… 더보기

클라우드는 무슨 구름?

댓글 0 | 조회 1,210 | 2019.08.14
이세돌 9단을 이긴 인공지능 프로그램, ‘알파고’는 충격이었다. 컴퓨터 프로그램이 사람을 이기다니! 알파고는 ‘알파벳’이라는 회사가 만든 go(棋; 바둑)라는 프… 더보기

피 돌기 빅뱅

댓글 0 | 조회 1,135 | 2019.07.23
중국이 막아놓아도 24억이 넘게 사용한다는 페이스북이 내년부터 금융서비스를 하겠다고 선언하였다. 페이스북은 18일, 블록체인 ‘리브라’와 이를 기반으로 하는 같은… 더보기

5G 라고요?

댓글 0 | 조회 1,578 | 2019.07.09
1990년대 중반에 공개된 인터넷은 전 세계를 연결하므로 월드 와이드 웹이라고 불렀다. 인터넷은 다음과 같은 요소를 갖추어야 한다.1) 송신자와 수신자를 연결하는… 더보기