빅 데이터, 커서? 많아서?

연재칼럼 지난칼럼
오소영
정동희
한일수
김준
오클랜드 문학회
박명윤
수선재
천미란
박기태
성태용
명사칼럼
수필기행
조기조
김성국
채수연
템플스테이
이주연
Richard Matson
Mira Kim
EduExperts
김도형
Timothy Cho
김수동
최성길
크리스티나 리
송하연
새움터
동진
이동온
멜리사 리
조병철
정윤성
김지향
Jessica Phuang
휴람
독자기고

빅 데이터, 커서? 많아서?

0 개 1,126 조기조

숲속, 바다 속, 땅속에 무엇이 있을까? 우리는 잘 알지 못한다. 그래서 탐험을 하거나 탐사를 한다. 숲과 바다, 땅 속을 잘 알 수 있다면 먹고사는데 그리 어렵지 않을 것이다. 지하자원이나 고기떼가 어디 있는지 알 수 있다면, 또 산삼이나 불로초가 있는 곳을 알 수 있다면 왜 이 고생을 하고 살겠는가 말이다. 그러면 바다나 숲, 땅 속 말고 우리가 모르는 자원의 보고(寶庫)는 어디일까?

 

ff9a570302ed2b32b98d83c4a6b3af2f_1573516720_4611.jpg
 

스마트폰이 나오고 초고속 통신망이 갖추어지니 사람들이 SNS를 통해 소통하는 데이터가 방대하다. 많은 데이터를 크던지 많던지 간에 빅 데이터(big data)라고 불렀다. 이렇게 엄청나게 늘어나는 데이터의 특성을 Volume 이라고 한다. 데이터는 글과 사진, 소리, 동영상 등 다양한 형태(Variety)로 존재한다. 또한 엄청 빠르게 생겨난다(Velocity)는 특성이 있다. 이 3가지 특성을 V3라고 하였다. 

 

여기에 더하여 이 많은 데이터를 잘 가공하면 정확한 지식 또는 진실한 해답(Veracity)을 얻을 수 있다거나 가치(Value)를 창출할 수 있다고 하여 V4, V5까지 들고 나서는 사람도 있다.

 

숲이나 땅, 바다 속이 아니라도 사람들이 생각하고 검색하고 주고받는 일상에는 흔적인 데이터가 남고 이 빅 데이터를 수집해 신속하고 정확하게 분석할 수만 있다면 무언가 얻을 것이 있으리란 점에는 이의가 없다. 그래서 검색사이트 운영자는 검색 키워드를 분석하고 SNS 운영자는 사람들이 소통하는 내용을 분석하는 것이다. 

 

최근에 나오는 자동차는 전자적으로 제어된다. 자동차의 엔진 상태, 실내 온도나 조명, 타이어의 압력이 어떠한지 뿐만 아니라 도로 상태나 주변 차량, 신호의 정보까지도 읽고 자동으로 반응하게 된다. 그래서 자동차는 기계장치라기보다는 전자장치가 되었다. 

 

자동차가 움직이며 읽고 반응하는 데이터가 바로 빅 데이터이다. 만약 자동차 제조회사에서 어떤 자동차의 운행시 발생하는 각 부품의 상태정보를 받는다면 정비가 필요한 부품과 그 시기를 알려줄 수도 있을 것이다. 고장을 미연에 방지하고 안전 운행을 하게하며 수명을 연장시키는 방법이다. 자동차만 그렇겠는가?

 

너른 서울 바닥에는 자정이 다가와 지하철이 끊어지면 택시가 귀하신 몸이 된다. 승차거부는 물론 바가지요금은 각오해야 한다. 이런 저런 이유로 서울시가 따로 노선을 정하여 심야버스를 운행한다. 당연히 많은 이용자를 효율적으로 운행하도록 노선을 정해야 하는데 모 통신사의 스마트폰 이용자 데이터와 서울시가 수집한 교통 데이터를 함께 분석하여 심야에 사람들이 많은 곳으로 노선을 만들었더니 성공적이다. 적용할 분야는 너무 많다. 

 

일상생활에서 발생하는 빅 데이터를 제대로 수집하고 가공하지 못해서나 저 바다의 고기떼를 두고도 어디에 있는지를 몰라 잡아오지 못하는 것과 다를 바 없다.

 

ff9a570302ed2b32b98d83c4a6b3af2f_1573516760_4427.jpg
 

우리가 적은 비용으로 사람들의 생각을 알아보기 위해 여론조사를 한다. 대한민국 국민들의 생각을 알아보기 위해 질문지를 만들어 전화로 1,000명의 의견을 듣고 분석하여 나온 것을 전 국민의 생각이라고 하기에는 부담스럽다. 전 국민을 다 조사할 수가 없기 때문에 적용가능한 것이 국민들이 검색하고 소통하는 빅 데이터를 분석하는 것이다. 온라인에서 사람들이 활동하는 내용을 보면 수많은 벌들이 윙윙거리며(buzz) 사는 것처럼 보인다. 버즈 분석을 하면 보물을 찾을 수도 있다. 어떤 기업이 영업을 목적으로 할 때 특정 제품과 서비스에 대한 반응을 모니터링하고 사람들의 생각을 분석하여 그 집단에 적용할 방안을 찾는 타깃 마이닝(mining; 발굴)을 하는 것이다.

 

재판은 증거로 말한다. 증인이나 증거가 있어야 한다. 먹고 사는 일도 증거인 데이터로 말하는 시대가 되었다. 그것도 확실하게 많은 데이터로 증명해야 하는 것이다. 데이터란 그 자체로는 의사결정에 활용할 수 없는 어떤 객체나 사실이다. 사람과 관계있는 개인정보 데이터는 사생활을 보호해야 되기 때문에 가명이나 익명으로 처리해야 한다. 

 

가공하여 의사결정에 쓸 수 있는 상태의 것을 정보(information)라고 한다. 이 정보에서 패턴을 추출하여 보편타당한 지식(knowledge)을 낳고 이 지식을 인류 사회에 유익하게 활용하면 지혜(wisdom)가 되는 것이다. 

 

쓰레기도 잘 가공하면 정보와 지식을 얻고 지혜를 발견할 수 있다는 것이니 놀랍기만 하다. 어디에 귀하지 않은 것이 있겠는가? 분석기술이 또 놀랍다. 

누구를 위한 인터넷인가?

댓글 0 | 조회 1,307 | 2019.12.23
중국은 일대일로(一帶一路)를 추진하고 있다. 천년도 더 전에 당(唐)나라의 장안(지금의 서안)에는 서시(西市; western market)가 대단했다. 인기상품인… 더보기

반도체가 뭣이 길래?

댓글 0 | 조회 1,297 | 2019.08.27
인간은 5감에 하나를 더하여 6감(sixth sense)을 가지고 있다. 듣고, 보고, 맛보고, 만져보고, 냄새를 맡아 알게 되는데다 그간의 경험으로 상황에 따라… 더보기

MLCC(적층 세라믹 커패시터)

댓글 0 | 조회 1,293 | 2020.08.25
삼십 촉 백열등이 그네를 타는 목로주점 흙바람 벽엔 그녀와의 사랑이 켜켜이 묻어있다. 그때 지리산 계곡의 우리 집에선 물방앗간에서 돌리는 수차에 횟대를 연결해 발… 더보기

OTT, 꼭대기 위에?

댓글 0 | 조회 1,288 | 2019.09.10
미국 여행 중 호텔에서 노트북으로 넷플릭스에 들어가 한국 드라마를 보다가 노트북을 HDMI 케이블로 TV에 연결하고는 큰 화면으로 편하게 보았다. 시차 때문에 잠… 더보기

NAVER, 나베르 아닝겨?

댓글 0 | 조회 1,282 | 2020.06.23
G2, 미국과 중국이 겨루고 있다. 무역적자가 큰 미국이 그 원인과 해소 방안을 곰곰이 생각해보니 중국에 답이 있다고 생각한 것 같다. 중국이 미국에 많은 물건을… 더보기

더불어!

댓글 0 | 조회 1,272 | 2021.01.12
세 가지 거짓말이라고 있었다. 세상이 변하니 이제는 안 맞을지 모르겠지만 적어도 상당기간은 통했다. “장사가 안 남기고 판다. 노인이 빨리 죽고 싶다. 처녀가 시… 더보기

NIC와 DNS

댓글 0 | 조회 1,261 | 2019.10.08
도메인(domain)은 영토, 영역, 세력 범위 등을 이르는 말이다. 어떤 연구 분야나 그 권리를 지칭할 때도 도메인이란 말을 쓴다. 최근에는 인터넷 웹 페이지의… 더보기

거지같다니요!

댓글 0 | 조회 1,250 | 2022.01.26
‘거지같아요!’한다. 복불복프로그램에서 집어든 잔을 한 모금 마시고는 커피 아닌 까나리 액젓임을 알고 뱉은 일성이다. ‘거지같아요!’는 거지가 된 기분 이라는 것… 더보기

2020 도쿄 올림픽을 보고....

댓글 0 | 조회 1,219 | 2021.09.02
제 32회 도쿄 올림픽(2020)은 유난히도 더운 한 여름에 1년을 미뤄, 2021년 7월 24~8월 9일에 열렸다. 온통 마스크로 치장한 올림픽, 관중 없는 올… 더보기

클라우드는 무슨 구름?

댓글 0 | 조회 1,211 | 2019.08.14
이세돌 9단을 이긴 인공지능 프로그램, ‘알파고’는 충격이었다. 컴퓨터 프로그램이 사람을 이기다니! 알파고는 ‘알파벳’이라는 회사가 만든 go(棋; 바둑)라는 프… 더보기

Dark Web, Dark Fate

댓글 0 | 조회 1,179 | 2019.11.27
어둠(dark)은 암흑, 지하, 비밀, 죽음 등과 연상된다. 시리즈로 나온 영화 터미네이터에 다크 페이트(dark fate)란 부제가 붙었다. 주인공의 힘들고 어… 더보기

마스크 사피엔스

댓글 0 | 조회 1,137 | 2020.09.22
융합(融合)이라는 말과 수렴(收斂)이라는 말을 생각해 본다. 영어로는 컨버전스(convergence)로 통하지만 물질이나 정신 등이 합하여 새로운 하나가 되는 것… 더보기

피 돌기 빅뱅

댓글 0 | 조회 1,137 | 2019.07.23
중국이 막아놓아도 24억이 넘게 사용한다는 페이스북이 내년부터 금융서비스를 하겠다고 선언하였다. 페이스북은 18일, 블록체인 ‘리브라’와 이를 기반으로 하는 같은… 더보기
Now

현재 빅 데이터, 커서? 많아서?

댓글 0 | 조회 1,127 | 2019.11.12
숲속, 바다 속, 땅속에 무엇이 있을까? 우리는 잘 알지 못한다. 그래서 탐험을 하거나 탐사를 한다. 숲과 바다, 땅 속을 잘 알 수 있다면 먹고사는데 그리 어렵… 더보기

오징어 놀이와 오징어 게임

댓글 0 | 조회 1,095 | 2021.10.12
놀이와 게임은 같은 건가, 다른 건가? 결론은 다른 거다. ‘오징어 놀이’와 ‘오징어 게임’이 전혀 다르니 말이다. 오징어 게임에 왜 오징어가 들어갔는지 모르겠고… 더보기

펜트하우스 유감

댓글 0 | 조회 1,091 | 2021.04.28
“100층 펜트하우스의 범접불가 ‘퀸’, 모든 것을 집어삼키는 욕망의 ‘프리마돈나’, 상류사회로의 입성을 향해 질주하는 ‘여자’와 채워질 수 없는 일그러진 욕망으… 더보기

전자증권 이야기

댓글 0 | 조회 1,090 | 2019.09.24
증권(securities)은 유가증권(有價證券)을 줄인 말로 대부분 주식(柱式)과 채권(債券)이다. 채권은 국·공채(國·公債)와 사채(社債)가 있다. 기업은 증권… 더보기

뒷북치는 디지털 트랜스포메이션

댓글 0 | 조회 1,070 | 2020.01.15
스마트 팩토리가 한창이다. 정부가 중소기업에 스마트 팩토리를 지원하고 있다. 10여 년 전에 정부가 중소기업에 ERP의 도입과 생산정보화 사업을 지원했었다. 그때… 더보기

변종 바이러스

댓글 0 | 조회 1,068 | 2021.03.24
그땐 컴퓨터 바이러스가 호흡기로 옮고 그 백신이 알약이나 주사약인 줄로 알았다. 요즈음, 호흡기로 옮는 코로나 바이러스 같은 것이 조직에도 붙고 사회에도 번진다는… 더보기

입 친구라니?

댓글 0 | 조회 1,056 | 2023.01.18
한국에서 오래전에 역할대행이라는 것이 유행했었다. 생면부지의 사람이 SNS에서 유료 아르바이트를 신청하는 것인데 애인의 역할을 하거나 부모, 친구의 역할을 대신해… 더보기

랜선 이모, 랜선 국민

댓글 0 | 조회 1,050 | 2020.11.10
정보기술을 공부하고 가르쳐 온 내가 ‘랜선 이모’란 말이 회자되는 걸 보고 적잖이 놀랐다. 무슨 말인지 몰라서 누가 물어보기 전에 얼른 찾아보고는 뒤로 나자빠질 … 더보기

중년의 선댄스 영화제

댓글 0 | 조회 1,048 | 2020.02.11
파크 시티 메인 스트릿은 봄 햇살이 퍼져야 다 녹는 눈 더미도 볼거리이지만 매년 1월 4번째 목요일에 열리는 선댄스 영화제로 북새통을 이룬다. 왜 하필 거기서 영… 더보기

브라우저와 유투브

댓글 0 | 조회 1,040 | 2020.02.25
브라우저로 웹페이지를 보려면 HTTP(Hyper Text Transfer Protocol)나 HTTPS(~ Secure)로 시작하는 주소(URL)를 입력해야 한다… 더보기

스마트로 가는 중소기업

댓글 0 | 조회 1,037 | 2020.07.29
우리나라 중소기업은 전체 기업의 99.9%를 차지하고 있으며, 기업 종사자의 87.9%가 일하고 있다(2014년 기준). 중소기업은 스스로의 노력으로 성장·발전하… 더보기

틱톡소리

댓글 0 | 조회 1,034 | 2020.09.08
“시계는 아침부터 똑딱똑딱 언제나 같은 소리 똑딱똑딱 하루 종일 일해요, 쉬지 않고 일해요.” 이 노래를 놀림노래로 부르면 ‘똑딱똑딱’만 반복되는 느낌이다. 째깍… 더보기