인공지능이 마치 모든 데이터 관련 문제의 해결사처럼 언급되고 있는데, 그런 인공지능을 보유하려면 밑에서 떠받치는 인프라가 든든해야 한다. 그 중에서도 데이터 인프라가 가장 중요하다.

[보안뉴스 문정후 기자] 데이터는 인공지능 모델을 훈련시키는 데 있어 반드시 있어야 하는 요소다. 그러므로 데이터 파이프라인 역시 인공지능과 함께하는 미래를 꿈꾸는 모든 기업들이 반드시 갖춰야 하는 요소가 된다. 참고로 데이터 파이프라인은 데이터의 원활하고 적절한 흐름을 가능하게 하는 기반 구조를 말하는 것이다. 아무리 좋은 데이터가 많아도 원활하게 인공지능에 제공할 수 없다면 아무 소용이 없다.

[보안뉴스 / 6.21.] 인공지능 활용도를 높이려면 데이터 파이프라인을 구축하라

[이미지 = gettyimagesbank]

좋은 데이터 파이프라인이 있으면 기업은 데이터 관리 및 분석 체계를 간소화 할 수 있다. 그러면서도 더 나은 결과를 낼 수 있다. 인공지능의 훈련 효과도 좋아지며, 인공지능 기술을 보다 넓은 분야로 확대 적용하는 것도 용이해진다. 데이터를 정제하는 시간도 줄어들고, 그러므로 인공지능 훈련 시간 자체도 감소시켜 실제 상황에 더 빨리 투입시킬 수 있기도 하다. 기업의 경쟁력 자체가 향상된다는 뜻이다. 데이터 보안이 좀 더 강화되는 것도 당연한 일이다.

인공지능의 훈련과 데이터
보안 업체 주니퍼네트웍스(Juniper Networks)의 인공지능 분야 최고 책임자인 밥 프라이데이(Bob Friday)는 “인공지능을 훈련시키려면 매우 방대한 양의 데이터가 필요하다”며 “그 많은 데이터를 인공지능이 섭취하기 좋게 처리하고 알맞은 형태로 빚어서 끊임없이 제공하는 게 결코 쉽지 않은 일”임을 강조한다. “그래서 데이터 엔지니어가 필요한 것이고, 이 데이터 엔지니어들은 이 과정을 자동화 해서 인공지능이 안정적으로 데이터를 공급 받게 합니다. 이 때 구축되는 게 데이터 파이프라인이죠.”

데이터 파이프라인이 잘 구축된다면 데이터 품질 문제도 해결되는 게 보통이라고 프라이데이는 설명한다. “데이터가 중간에 누락되거나, 포맷이 균일하지 않게 변하는 일을 막을 수 있습니다. 일정 수준의 데이터 품질을 ‘자동으로’ 유지할 수 있다는 것이죠. 그러므로 인공지능 역시 좋은 품질의 데이터를 공급 받고, 좋은 결과를 내게 됩니다.”

서비스나우(ServiceNow)의 인공지능 생태계 총괄인 션 휴즈(Sean Hughes)는 “인공지능이 인간의 결정 과정을 보다 정확하게 만들어준다고는 하지만, 그러려면 무엇보다 자신이 해야 할 일에 대한 훈련 과정을 거쳐야 한다”고 설명한다. “어떤 데이터를 주입하느냐에 따라 고객들의 검색을 보다 원활하게 해 준다거나, 기업의 필요에 특화된 전문성을 발휘해야 한다거나, 위기 관리와 관련된 일을 하는 등 다양한 곳에 응용될 수 있는 게 인공지능입니다. 다만 인공지능이 실전에서 필요한 결과를 적합하게 내는 것 자체에 대한 훈련도 필요합니다. 해당 분야의 데이터만 꾸준히 주입해서는 안 된다는 겁니다.”

그렇기 때문에 데이터 파이프라인을 구축하는 게 중요하다고 휴즈도 강조한다. “인공지능이 학습해야 할 데이터를 임무에 따라 자동으로 수집하고 처리해 인공지능에 제공할 수 있게 해 주는 것이 바로 파이프라인입니다. 이런 파이프라인이 잘 구축되면 될수록 인공지능이 훌륭한 결과물을 냅니다. 파이프라인이 없다면 인공지능이 좋은 결과를 낼 수도 있고 안 낼 수도 있습니다. 인공지능에 알맞은 데이터를 잘 주입하느냐 마느냐는 사용하는 기업의 책임이라는 뜻이 됩니다.”

꼼꼼한 계획과 파이프라인
시메트리시스템즈(Symmetry Systems)의 인공지능 부문 책임자 미카일 카즈다글리(Mikhail Kazdagli)는 “파이프라인 구축을 위해서는 꼼꼼하고 치밀한 계획과, 해결 과제와 데이터 출처에 대한 깊은 고민이 있어야 한다”고 짚는다. “당연하게도 수집할 데이터의 민감성 문제도 같이 고려가 되어야 합니다. 저작권을 비롯해 각종 합법성 문제도 계산되어야 하겠지요. 안 그러면 나중에 가서 큰 문제가 될 때 돌이키지 못하게 됩니다.”

그러면서 그는 “인공지능이 소비해야 할 데이터는 질 좋고 보안성도 확보된 그런 것이어야만 한다”고 거듭 강조한다. “한 번에 완벽해질 수 없으므로, 꾸준히 모니터링하고 꾸준히 개선하기 쉽도록 만드는 것도 중요합니다.”

프라이데이는 “파이프라인을 설계할 때 주요한 사용 목적을 분명히 정의하고, 예상되는 장애물을 파악한 뒤 해결책을 찾는 과정이 있어야 한다”고 강조한다. 또한 “어떤 데이터가 파이프라인을 타고 흘러다닐지를 분명히 해두는 것도 필수”라고 꼽는다. “인공지능 프로젝트가 성공하려면 그 무엇보다 ‘어떤 인간의 행동 패턴을 자동화시키려 하는지’를 명확하게 규정해야 합니다. 그리고 그것이 잘못되었을 때를 대비해 충분히 유연하게 만드는 것도 잊지 말아야 합니다.”

다양한 전문성을 필요로 해
카즈다글리는 “데이터 파이프라인은 일종의 인프라이기 때문에 IT나 데이터 분야 전문가만이 참여하는 게 아니”라고 말한다. “여러 분야의 사람들이 참여해야 하는데, 그건 데이터 파이프라인 구축의 목적이나 기업의 구조, 해결 과제 등에 따라 달라집니다. 다만 일반적으로 데이터 과학자나 데이터 엔지니어, IT 인프라 팀, 프로젝트 관리자, 사업 분석가 등은 필수적으로 참여해야 하겠지요. 여기에 더해 사이버 보안 인력도 전체적인 데이터 관리와 인프라 검수를 해야 하겠고요.”

그러므로 카즈다글리는 다양한 전문성을 갖춘 사람들이 참여하도록 파이프라인 구축 프로젝트를 구성해야 한다고 강조한다. “조악하게 만들어진 데이터 파이프라인은 나중에 적잖은 보안과 데이터 품질 문제를 일으킵니다. 그래서 데이터 분석과 활용의 효율을 떨어트리고 심지어 오류도 적잖이 내게 되어 있습니다. 사업적 목적과 현재 상황에 맞게 여러 인원들을 참여시켜 처음부터 탄탄한 인프라를 만드는 게 중요합니다.”

프라이데이도 여기에 동의하면서 “애초에 IT 팀을 다양한 전문가들로 구성하는 게 요즘 추세에 맞다”고 설명한다. “결국 데이터 파이프라인을 직접 구축하고, 나중에 이것을 운영하고 유지하는 건 IT 팀일 겁니다. 구축 당시에 누가 참여했든 말이죠. 그러니 데이터 인프라 운영까지 생각해서 IT 팀에 여러 분야의 전문가들을 포함시킬 수 있어야 합니다. 그렇지 않으면 다양한 사람들이 참여해 만들어 둔 인프라가 점점 빛을 잃게 됩니다.”

그러면서 프라이데이는 “머신러닝 엔지니어, 데브옵스 엔지니어, 클라우드 컴퓨팅 전문가, 보안 전문가는 반드시 있어야 할 것”이라고 귀띔한다. “최소한 이 네 분야의 사람들은 확보해 두고 데이터 파이프라인을 구축하는 게 좋습니다. 시대의 흐름에 따라 더 필요한 사람이 생길 수도 있지만, 당분간 이 네 분야의 전문가들은 항상 필요할 겁니다.”

글 : 네이선 에디(Nathan Eddy), IT 칼럼니스트
[국제부 문정후 기자(globoan@boannews.com)]

<저작권자: 보안뉴스(www.boannews.com) 무단전재-재배포금지>