딥러닝 왜 사람들은 딥러닝을 이야기할 때 "뇌" 이미지를 자주 사용합니다. AI가 사람처럼 생각을 하는 걸까요? 곧 가능하겠지만, 아직은 아닌 것 같습니다. 왜 "뇌" 이미지가 등장하는지 AI에 대해 소개하면서 알아보도록 하죠. AI 앞서 이야기한 사람처럼 생각하는 AI를 "General AI"라 합니다. 현재 기술은 이미지 분류, 얼굴 인식 등 특정 기능에서 인간보다 좋은 능력을 갖는 "Narrow AI"의 수준에 있죠. AI에 대해 관심이 없는 분들도 "머신러닝"과 "딥러닝"이라는 용어는 들어보셨을 겁니다. 간단한 설명과 함께 차이를 보도록 하죠. 머신러닝 "머신러닝" 머신러닝은 AI의 하위집합입니다. 정의는 데이터를 분석하고 학습한 후 정보를 바탕으로 결정을 내리기 위해 학습 내용을 적용한 알고리즘..
분류 개념 분류란? 분류는 주어진 입력값이 어떤 클래스(Label의 범주)에 속할지에 대한 결과 값을 도출하는 알고리즘입니다. 분류 알고리즘은 다양하게 존재하고, 예측 목표와 데이터 유형에 따라 적용할 알고리즘이 달라집니다. 분류 vs 회귀 앞서 "회귀(Regression) (링크)"에 대해 알아봤죠. 지도 학습 알고리즘 중에서 어떤 경우에 회귀를 쓰고, 언제 분류를 사용할까요? 여러 조건이 있지만, 가장 간단하게 이해할 수 있는 방법이 있습니다. Data에서 target이 되는 결과 값(Label)의 형태에 따라 구분할 수 있습니다. "범주형 target은 분류, 수치형 target은 회귀" [AI Algorithm] 지도학습 - 선형 회귀 한방에 끝내기 (Linear Regression) 회귀 (Re..
통신 프로토콜 OSI 7 Layers OSI는 (Open System Interconnection)의 약자입니다. OSI 7 Layers는 시스템 간의 상호 연결성을 보장하는 표준이죠. 그렇다면 왜 Layer를 나눈걸까요? Layer를 분리해서 각 Layer는 독립적인 역할을 수행하게 됩니다. 역할이 나눠진만큼 문제가 생기면 각 Layer의 역할을 기준으로 파악할 수 있게 되죠. 각 Layer에 대해 간단히 살펴볼게요. Physical Layer Physical Layer는 말 그대로 물리적인 하드웨어 부분입니다. OSI Layer를 타고 온 데이터를 전기적인 신호(Bit, 0 or 1)로 변환시켜 통신을 합니다. Data Link Layer Data Link Layer는 Link의 설정과 유지 및 종료..
데이터 처리 데이터란? 데이터는 크게 2가지로 정의할 수 있습니다. 여기서 디지털이란 컴퓨터 데이터를 의미하는데, 사람은 직접적으로 제감하지는 못해요. 현실: 사람은 세상의 여러 현상들을 눈으로 보고 체감하는 등의 오감을 통해 뇌로 전달하는 데이터 디지털: 컴퓨터가 알아먹는 데이터 AIoT에게 데이터는 시스템의 구축이 목적이 아니라 구성으로 취급해 최종적으로 서비스를 제공하는 것이 목표입니다. 일반적으로 데이터를 특정 용도를 위해 가공해서 사용합니다. 빅데이터는 데이터 처리, 데이터 분석은 지능형 시스템에 가까워요. 데이터 모델링과 데이터 모델 데이터 모델은 모델링된 데이터를 표현하는 도구입니다. 데이터 모델링은 현실 세계의 데이터를 컴퓨터 데이터로 옮기는 과정을 의미해요. 데이터는 추상화를 통해 정의합..
IT 분야 기술 Trend 개념 소개 AIoT (AI + IoT) IoT는 Internet of Things의 약자입니다. 사물인터넷이라고도 하죠. IoT의 정의는 Things(모든 것)이 서로 연결되는 시스템입니다. 유, 무선 통신망으로 연결된 기기들이 사람의 개입 없이 센서 등을 통해 수집한 정보를 서로 주고받아 스스로 일을 처리하는 것이죠. 최근에는 IoT에서 데이터를 처리하는 방식으로 AI를 활용하는데, 이를 AIoT라고 합니다. 데이터를 얻는데 활용할 장비 + 네트워크로 연결된 하나의 시스템 + AI Platform Platform은 사전적 의미로는 "열차 승강장"을 의미하죠. 오늘 다룰 "Platform은 공급자와 수요자 등 복수그룹이 참여해 각 그룹이 얻고자 하는 가치를 공정한 거래를 통해 ..
공공데이터 포털 오늘은 "의료기관"데이터 분석을 해볼게요. 최종 목표는 "서울의 종합병원 위치를 지도에 표시" 것입니다. 정확히 말하면 AI를 다루기 전 단계인 "데이터 분석"입니다. 데이터 찾기 먼저 분석할 데이터가 있어야겠죠? 데이터는 공공데이터포털(링크)에서 제공하는 공공데이터를 활용하겠습니다. 방법은 간단해요. 공공데이터 포털 접속 ➡️ 원하는 데이터 검색 ➡️ 다운로드하기 데이터는 csv 파일이나 xml, 오픈 API 등으로 제공됩니다. 오늘 활용할 데이터는 소상공인 시장 진흥공단에서 제공하는 "의료기관" 데이터입니다. csv 파일이네요. 최근 수정일은 21년 8월 26일이네요. 서울시 종합병원 위치 분석 데이터 확인 어떤 데이터인지 파악을 해야 전 처리를 할 수 있겠죠? 확인부터 해봅시다! 데..
계좌 개설 20일 제한 계좌를 개설하려는데 20일 제한이 걸리셨나요? 얼마나 지나야 제한이 풀리는지 찾으신다면 간단하게 정리했으니 확인해보세요. "oo은행 예금 이자 x%, 적금 x%" 최근 금리인상의 여파로 은행의 예금과 적금의 이자도 오르고 있어요. 한 달만 지나도 새로운 상품들이 나와서 지난달에 가입한 상품을 해지하고 새로 가입하는 사람들도 있다고 해요. 그런데 계좌 개설 20일 제한이 있다는 건 다들 아시죠? 왜 하는 걸까요? 금융감독원이 단기간에 많은 계좌를 개설할 때 은행에서 확인하게 한 것이 시작이었습니다. 당시 대포통장과 보이스피싱 때문에 문제가 많았기 때문에 규제했다고 해요. 하지만 2020년부터는 금융감독원의 제한 조치는 폐지되었습니다. 😨 예? 지금도 있잖아요.🤔 지금 시행 중인 계좌..
회귀 (Regression) 회귀 분석이란? 둘 이상의 변수가 있을 때 이들 간의 관계를 보여주는 통계적인 방법입니다. 나아가서 데이터를 가장 잘 설명하는 모델을 찾아 입력값에 따른 미래 결과값을 예측하는 알고리즘입니다. 대표적인 예가 TV 프로그램의 시청률 예측입니다. TV 프로그램의 시청률이, 강수량과 선형적인 관계가 있다고 가정을 해볼게요. 그럼 Data 는 강수량, 시청률 2 가지겠네요. 그리고 최종적으로 강수량에 따른 시청률 예측이 목표입니다. 회귀 분석 알고리즘을 사용해 둘 사이의 상관관계를 파악하고 나아가 미래 결과를 예측하는 모델을 만들어야겠네요. 가정에서 선형의 관계를 갖는다고 했으니 위와 같은 1차 방정식을 세워야 합니다. 이때 적절한 'β0(y절편)'와 'β1(기울기)'을 찾는 것이 ..
머신러닝 이번 글에서는 데이터 전 처리의 관점에서만 머신러닝을 이야기하고 머신러닝의 소개는 다음 기회에 하겠습니다. 머신러닝 과정 이해하기 머신러닝의 전체적인 과정을 정리하면 위 그림과 같아요.. 데이터를 수집하고, 이를 분석한 후 머신러닝에 사용하기 적합한 형태로 전 처리를 합니다. 전 처리한 데이터를 이용해 머신러닝을 학습해 모델을 만들고, 이 모델을 평가용 데이터를 활용해 평가하게 됩니다. 모델의 성능이 좋지 않으면 앞의 과정 중 일부를 다시 진행합니다. 데이터 전 처리 데이터의 전 처리에는 pandas, numpy, matplotlib 등의 python 라이브러리 등이 사용됩니다. 라이브러리에 대한 소개는 python 카테고리(링크)에 글이 있으니 읽어 보시면 도움이 되실 거예요. 'Softwar..
Data 최근 가장 핫한 기술인 AI는 Data를 기반으로 해요. 수많은 Data를 모으고, AI의 학습에 적합하게 전 처리하는 과정을 거치죠. 즉, AI를 활용하려면 Data를 다룰 줄 알아야한다는 뜻이죠. 그 시작으로 자료의 형태에 대해 알아볼게요. 자료 형태 구분 자료의 형태는 위와 같이 구분됩니다. 먼저 수치형 자료와 범주형 자료로 나눌 수 있어요. 수치형 자료에는 연속형 자료와 이산형 자료로 구분하고, 범주형 자료는 순위형 자료와 명목형 자료로 구분되네요. 좀 더 자세히 알아볼게요. 수치형 자료는 수치로 측정이 가능한 자료를 의미합니다. (키, 몸무게, 시험 점수, 나이 등) 반대로 범주형 자료는 수치로 측정이 불가능한 자료를 의미하죠. (성별, 지역, 혈액형 등) 여기서 주의할 점이 있어요. ..
주피터 노트북(Jupyter Notebook)소개 주피터 노트북(Jupyter Notebook) 이란? 주피터 노트북은 Open Source 기반의 웹 플랫폼으로, 파이썬을 비롯한 다양한 프로그램이 언어로 코드 작성과 실행이 가능한 개발환경입니다. 독특한 점은 웹기반이라는 것! 주피터 노트북은 AI (머신러닝, 딥러닝) 등에 많이 사용되고 있어요. 구글 코랩을 다뤄보셨다면 아주 익숙할 겁니다. 구글 코랩에 대해 궁금하시면 아래 링크를 확인하세요. [AI 환경설정] 구글 코랩 소개하기! (Ft. 사용법, Google Colab, Markdown) 인공지능, 머신러닝, 딥러닝에 대해 검색하다 보면 구글 코랩에 대해 자주 접하실 겁니다. 그래서 오늘은 구글 코랩이 뭔지, 어떻게 사용하는지 알아보겠습니다. 구글..
사전 확인 AI 환경 설정의 가장 중요한 점은 구축할 기술 스택을 확인하는 점입니다. 모르겠다면 최소한 GPU 는 확인해야 합니다. GPU는 일반적으로 NVIDA 제품을 사용하고 추천합니다. (AMD, Intel 등도 가능하지만 복잡해요.) 그리고 GPU 가 CUDA Tool Kit 을 사용할 수 있는지 확인하는 것도 필요해요.(링크) 아나콘다(Anaconda) 소개 아나콘다(Anaconda)란? 아나콘다는 데이터 과학, 빅데이터 처리, 머신러닝 분석등을 위한 파이썬 및 R의 Open-Source 배포판입니다. Conda 라는 패키지 관리 시스템으로 관리합니다. 또한 Windows, Linux, macOS 에 적합한 데이터 분석 패키지를 포함하고 있어요. 더욱이 TensorFlow는 공식적으로 Windo..