본문 바로가기

Data Tech23

[NoSQL] MongoDB 1. MongoDB 개요종류 : NoSQL 데이터베이스데이터 저장 방식 : 문서 지향 (Document-Oriented)형식 : JSON과 유사한 BSON(Binary JSON) 포맷스키마(Schema) : RDBMS와 다르게 컬렉션 내 문서마다 구조가 달라도 무관항목설명스키마 유연성스키마 미리 정의 없이 다양한 필드와 구조 사용 가능수평적 확장성Sharding 기능으로 여러 서버에 데이터 분산 가능고성능빠른 읽기/쓰기 성능, 인덱싱 지원문서 기반 저장JSON처럼 키-값 쌍의 문서로 데이터 저장복제와 내결함성Replice Set으로 장애 복구 가능 2. MongoDB 핵심 구성 요소용어설명Database여러 개의 컬렉션을 포함하는 상위 단위CollectionSQL의 테이블과 유사하며, 문서(Documen.. 2025. 5. 2.
[허깅페이스] Transformers 사용해보기 트랜스포머 모델을 훈련시키고, 배포하는 것은 쉽지 않습니다. 허깅페이스에서 제공하는 Transformers 라이브러리는 이러한 문제를 해결하기 위해 만들어졌으며, 실제 많은 연구와 모델 구현에 활용되고 있습니다.해당 라이브러리를 이해하기 위해 내부 동작 과정을 자세히 알아봅시다. 1. 파이프라인 내부 동작 과정 1) Tokenizer를 이용한 전처리다른 모델과 마찬가지로 Transformer 모델도 원시 텍스트를 바로 처리할 수 없기 때문에 파이프라인의 첫번째 단계는 텍스트를 모델이 이해할 수 있는 숫자로 변환하는 것 입니다. 이 과정을 위해 토크나이저를 사용합니다.전처리에 사용하는 클래스는 "AutoTokenizer" 클래스이며, "AutoTokenizer"의 from_pretrained() 메서드를.. 2025. 4. 15.
[허깅페이스] Transformer란? 트랜스포머에 대해 공부하기에 앞서 자연어 처리(NLP)에 대해 알아봅시다. 1. NLP란 무엇인가? NLP(Natural Language Processing)란 사람의 언어와 관련된 것을 이해하는데 중점을 둔 기계학습 분야를 말합니다. 개별 단어를 이해하는 것을 넘어, 해당 단어들의 문맥을 이해하는 것 입니다.컴퓨터와 사람은 서로 정보를 처리하는 방식이 다릅니다. 우선 모델이 텍스트를 학습할 수 있도록 텍스트가 처리 과정을 거쳐야 하는데, 사람의 언어 체계는 매우 복잡하기 때문에 이러한 처리가 어떻게 이루어져야 하는지 면밀히 고민해야 합니다. 따라서 텍스트 표현 방법과 관련한 수많은 연구가 진행되어 왔습니다. 가장 일반적인 NLP 작업 예시전체 문장 분류문장 내 단어 분류텍스트 컨텐츠 생성텍스트 안에서 .. 2025. 4. 14.
디지털 트윈 (Digital Twin) 1. 디지털 트윈(Digital Twin)이란?현실 세계를 가상으로 재현하여, 실시간 데이터를 활용해 현실 세계를 최적화하는 기술 입니다.현실 문제를 시뮬레이션, 예측하여 최적의 방안을 도출하는 개념으로 확장합니다.   2. 디지털 트윈의 적용 범위와 사례 확인다양한 사람의 개성과 전문성을 결합하여 즉각적 공감대 형성과 브레인스토밍 가능시공간 정보를 사용하여 교통 흐름을 제어하고, 혼잡, 체증을 해소 가능4D 정보로 중장기 변화를 예측하여 도시개발 및 계획 수립의사결정에 사용할 수 있는 개인적 가능성과 시나리오 검토바이오 센싱 및 라이프 스타일을 분석하여 개인 맞춤형 행동 수정 지원실시간 수요 예측 및 에너지 인프라의 효율적 사용 지원지구 전체 지형, 기후 변동 등을 디지털화하여 지속 가능한 도시개발 달.. 2025. 4. 4.
디지털 이미지 처리 & 컴퓨터 비전 개요 1. 개요디지털 이미지를 분석하고 조작하는 과정은 여러 단계로 이루어져 있습니다. 각 단계는 특정 알고리즘을 사용하여 디지털 이미지의 품질 향상 혹은 정보를 추출하는 과정을 진행합니다.처리 단계 : 이미지 획득  →  이미지 개선  →  이미지 분석  →  이미지 해석 및 이해 이미지 처리와 컴퓨터 비전은 공통점이 많지만, 그 목적과 접근 방식에서 중요한 차이점이 있습니다. 이미지 처리는 디지털 이미지의 향상, 변형, 복원 등에 중점을 두는 반면 컴퓨터 비전은 이미지 처리에서 생성된 이미지를 분석하고 해석하는데, 집중합니다. 즉, 컴퓨터 비전의 목표는 이미지로부터 의미 있는 정보를 추출하는 것 입니다. 그리고 인간이 시각정보를 인식하고 해석하는 프로세스와 컴퓨터 비전의 프로세스에 큰 차이가 있는데, 인간.. 2025. 2. 25.
데이터베이스 설계란? 1. 데이터 중복을 없애라!데이터베이스 설계 시, 반드시 기억해야 할 것은 중복 데이터를 없애는 것 입니다. 중복되는 데이터가 많아지면 데이터 무결성이 지키기 어렵고, 데이터와 관련된 이상현상 문제가 발생할 수 있습니다. 이상현상은 저장된 데이터들 중에서 모순되는 상황이 생긴 현상을 보고 이상현상(Anomaly)이라고 얘기합니다. 이러한 데이터 중복 문제를 해결하기 위해 만들어낸 DB 설계 방법이 정규화(Normalization) 입니다. 정규형에는 1NF, 2NF, 3NF, BCNF, 4NF, 5NF 등이 있으며, 주로 1NF, 2NF, 3NF 까지 DB설계에 사용되고 있습니다.즉, RDBMS에서 데이터 모델링을 할 때는 정규화를 통해 데이터 중복을 최소화할 수 있게 설계해야 합니다. 그래야 삽입이상,.. 2024. 12. 20.
[NoSQL] Redis와 Caching https://redis.io/docs/latest/get-started/Redis는 데이터 처리 속도가 빠른 NoSQL 데이터베이스이다.인메모리(in-memory)에 모든 데이터를 저장하므로 데이터의 처리 성능이 굉장히 빠르다.(대용량 트래픽 서비스를 처리할때도 사용할 수 있을듯.....)  Redis의 사용사례캐싱(Caching, 데이터 조회 성능 향상)세션 관리(Session Management),실시간 분석 및 통계 (Realtime Analysis),메세지 큐(Message Queue),지리공간 인덱싱(Geospatial Indexing)속도 제한(Rate Limiting)실시간 채팅 및 메세징(Real-time Chat And Messaging)  Redis 설치하기https://github... 2024. 12. 7.
[통계] 5. t검정 & ANOVA & 카이제곱검정 & 표본크기 1. t검정 (t-test)t검정은 단일 표본평균을 근사화하기 위해 개발한 t분포를 활용한 유의성 검정 방법입니다. 보통 수치형 데이터인 2개의 표본을 비교하는 A/B 검정에 사용되는데, t분포를 사용하려면 표준화된 형태의 검정통계량을 사용해야 합니다.구분영문상세검정통계량Test statistic관심의 차이 또는 효과에 대한 측정 지표t 통계량t-statistic평균과 같이 표준화된 형태의 일반적인 검정통계량(표본집단 평균 - 모집단 평균) / 표본오차t 분포t-distribution관측된 t통계량을 비교할 수 있는 (귀무가설에서 파생된) 기준분포. t검정을 진행할 때, 고려해야할 사항표본 크기를 충분히 확보해야하고, 이상치가 확인되면 적절히 처리하는 것이 필요합니다.데이터의 극단적인 값이 오류로 인한 .. 2024. 8. 20.
728x90