일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- 디스코드봇
- Golang
- MLFlow
- datahub
- GPT
- frontend
- embodied
- ChatGPT
- 챗봇
- embodied ai
- bricksassistant
- vln
- airflow
- 디스코드
- s3
- 웹3.0
- backend
- lambda
- 디스코드챗봇
- video understanding
- 블록체인
- vision-language navigation
- web3.0
- Spark
- Hexagonal Architecture
- Rust
- discord
- Ai
- data discovery
- databricks
- Today
- Total
목록Data (8)
BRICKSTUDY
안녕하세요, 데이터브릭스의 김바롬입니다.제가 이번에 다룰 주제는 DDP이며 이번에는 DDP가 무엇인지 그리고 왜 도입을 했는지를 이야기하고, 이후에는 DDP를 구축하는 과정을 다루려고 합니다.Index 1. Intro 2. Data Discorvery Platform 3. 플랫폼 비교 4. DataHub 5. 결론 6. 향후 계획 1.Intro DDP에 대해 다루기 전에 몇 가지 용어를 정리하고 시작하려고 합니다. - MetaData : 데이터를 설명하는 데이터, 데이터의 속성, 구조, 생성 시기 등과 같은 정보 - Data Governance : 데이터의 품질, 보안, 일관성, 규정 준수 등을 보장하기 위한 정책 - Data Lineage : 데이터의 생성, 변환, 이동된 전체 경로를 추적하는 과정 제..
더보기본 프로젝트는 학업의 목적으로 진행되었으며 어떠한 금전적 이익을 취하지 않습니다.바이럴 역시 널리 사용되는 마케팅 방법 중 하나로, 해당 프로젝트에서는 이에 어떠한 가치평가도 내리지 않습니다.Introduction안녕하세요, 김서영입니다. 2편에 이어 데이터 적재 과정에서 고민한 과정들과 결과를 이어 적어보겠습니다. 2편. 브랜드 수집 모듈 (related #PR14)- Web Scrapping module- Multiprocessing in Airflow with PythonVirtualOperator 3편. 데이터 수집 파이프라인 (related #PR17)- Kafka- Kafka Connect 4편. SNS 데이터 크롤러 (related #PR20)- Twitter Crawler) Airf..
더보기본 프로젝트는 학업의 목적으로 진행되었으며 어떠한 금전적 이익을 취하지 않습니다.바이럴 역시 널리 사용되는 마케팅 방법 중 하나로, 해당 프로젝트에서는 이에 어떠한 가치평가도 내리지 않습니다.Introduction안녕하세요? 글을 한번 날리고 정신건강도 함께 날아간 김서영입니다. 들어가기 앞서 저장을 생활화하자 구호를 크게 외쳐봅니다. 공용 데이터 플랫폼 구축기 1편을 올린 이후 시간이 훌쩍 흘렀는데요. 그동안 바이럴 탐지 프로젝트를 시작하며 즐거운 시간들을(?) 보내고 있었습니다. 에어플로우와(+스택오버플로우) 달달한 시간들을 함께하며 글감들을 많이 만들어왔으니 앞으로 3편의 포스팅으로 차근차근 풀어보겠습니다. 아래는 각 3편의 글들의 오버뷰입니다. 2편. 브랜드 수집 모듈 (related #PR..
📌 Intro안녕하세요!! Brickstudy 김민준입니다. 데이터 레이크, 데이터 플랫폼 관리의 가장 기본은 조직의 데이터를 어떤 규칙을 가지고 어떻게 저장 및 관리할지 결정하는 데이터 카탈로그를 구성하는 것입니다. 이를 위해 모임 내의 데이터 엔지니어 분들과 많은 협의를 진행 중이고 현재 모임 내 데이터 카탈로그 규칙을 정의했습니다. 이러한 규칙 협의 후 해당 규칙에 맞게 데이터가 제대로 데이터 레이크(S3) 내에 적재되고 있는지 확인하는 도구의 필요성이 함께 대두되었습니다. 데이터가 적재되었을 때, 트리거를 발생하여 파일 저장 경로를 기준으로 규칙 적용 여부를 확인하는 서비스를 AWS lambda를 활용하여 개발을 진행했습니다. 해당 글은 AWS lambda를 활용한 S3에 적재된 데이터의 데이터..
Introduction현재 각 프로젝트에 사용될 데이터를 수집하고 관리하는 업무를 맡고 있는데요.프로젝트가 기획되고 있는 현재 시점에서 본격적인 데이터 수집에 앞서 수집 플랫폼의 구조를 잡아가고 있습니다. 데이터가 저장되는 구조, 현재까지 개발된 사항, 이 과정에서 고민했던 내용들을 공유하고자 합니다.Background실제 현업에서는 데이터의 형태, 양, 수집되는 소스가 정말 다양하고 이를 관리하기 위한 여러 DE 전략을 취하고 있는데요. 메달리온 아키텍처는 그 중 데이터를 비즈니스 유저에게 안정적으로 배달하기 위해 단계들을 만들고 이를 템플릿화해서 표준으로 제안하는 것입니다. 저희 역시 이 구조를 적용하여 데이터 수집 플랫폼을 갖춰두려고 하기 때문에, 이 개념을 공유하고자 합니다. Medallion A..
Introduction안녕하세요. 김서영 입니다.해당 글은 spark 로컬 작업 환경 레포를 안내하는 글입니다. 해당 작업 환경을 구성하는데에 고려한 배경 지식을 간단히 정리하여 같은 context를 공유하고, 개발한 과정과 결과를 소개하여 발전 방향 및 피드백을 수렴하고자 합니다. Background🐣1. Spark?Apache Spark는 통합 컴퓨팅 엔진입니다. 클러스터 환경에서 데이터를 병렬로 처리하는 라이브러리 집합이고, 현재 가장 활발하게 개발되고 있는 병렬 처리 엔진입니다.- 가장 널리 쓰이는 네 가지 언어(scala, java, python, r) 지원- sql, streaming, ml에 이르는 라이브러리 제공, 단일 노트북 환경부터 수천 대 서버로 구성된 클러스터까지 다양한 환경에서 ..
개요최근 산업에서는 데이터의 규모가 커지고 서비스의 파이프라인이 커지면서, 데이터 직군에서는 대용량 데이터 처리, 워크플로우 관리와 같은 데이터 플랫폼에 대한 관심도가 커지고있다.국내 여러 기업에서도 Databricks와 같은 통합 데이터 플랫폼을 도입하고 있다.데이터브릭스 고객 사례이에 따라서 데이터 직군(데이터 엔지니어, 데이터 분석가, 데이터 사이언티스트)으로 진로를 준비하는 사람들에게 알면 좋은 데이터 중심의 플랫폼을 간단하게 소개하려고 한다.소개할 플랫폼- Apache Spark- Apache Airflow- MLflow- Databricks1. Apache SparkSpark란?Spark는 오픈소스 클러스터 컴퓨팅 프레임워크라고 할 수 있고, 단일 노드 컴퓨터 또는 클러스터에서 데이터 엔지니어..
📌 IntroSpark 데이터 처리 과정에서 Test code는 필요할까?🗂️ Table of ContentsintroBackground데이터 엔지니어링에 테스트 코드가 필요한가?Spark 테스트 코드ConclusionReferences💡 Background일반적인 서비스 개발에서 테스트 코드는 유지/보수/관리 측면에서 매우 중요합니다. 특히 소프트웨어 결함을 찾아내고 수정하는 과정을 통해 지속가능한 코드를 작성하는 데 매우 중요한 역할을 수행합니다.이러한 상황에서 Spark로 데이터 처리하는 과정에서도 테스트 코드를 고민해야합니다.데이터 엔지니어링에 테스트 코드가 필요한가?Test Code?소프트웨어 기능과 동작을 테스트하는 데 사용되는 코드단위 테스트, 통합 테스트, 시스템 테스트, 사용자 인수..