본문 바로가기

DataScience17

pandas pivot 참고자료 https://towardsdatascience.com/reshape-pandas-dataframe-with-pivot-table-in-python-tutorial-and-visualization-2248c2012a31 2022. 2. 7.
opencv morphology (dilate/erode) 모폴로지(morphology)는 형태학이라는 뜻으로 영상 분야에서는 노이즈 제거, 구멍 메꾸기, 연결되지 않은 경계 이어붙이기 등 형태학적 관점에서의 영상 연산을 말합니다. 모폴로지는 주로 형태를 다루는 연산이므로 바이너리 이미지를 대상으로 합니다. 대표적인 연산은 dilate와 erode이며, 이 둘을 결합한 열림과 닫힘이 있습니다. 1. Erosion 원래 있던 객체의 영역을 깍아 내는 연산입니다. 이 연산을 위해서는 구조화 요소(structuring element)라는 0과 1로 채워진 커널이 필요합니다. 구조화 요소 커널을 입력 영상에 적용해서 1로 채워진 영역을 온전히 올려 놓을 수 없으면 0으로 변경합니다. 2. Dilation 영상 속 사물의 주변을 덧붙여서 영역을 더 확장하는 연산입니다. .. 2022. 1. 27.
Random forest parameters 1. min_ samples_split 노드를 분할하기 위한 최소한의 샘플 데이수 -> 과적합을 제어하는데 사용한다.Default = 2 -> 작게 설정할수록 분할노드가 많아져 과적합 가능성이 증가한다.2 min_samples_leaf Default = 1리프노드가 되기 위해 필요한 최소한의 샘플 데이터수과적합 제어를 위해 사용한다.불균형 데이터의 경우 특정 클래스의 데이터가 극도로 작을수 있으므로 작게 설정 필요3. max_features최적의 분할을 위해 고려할 feature의 개수Default = None -> 데이터 세트의 모든 피처를 사용int 형 : 피처개수sqrt, auto : 전체 피처중 sqrt(feature)만큼 선정log : 전체 피처중 log2(feature)만큼 선정4. max_d.. 2021. 12. 15.
Decision tree parameters 1. min_ samples_split 노드를 분할하기 위한 최소한의 샘플 데이수 -> 과적합을 제어하는데 사용한다. Default = 2 -> 작게 설정할수록 분할노드가 많아져 과적합 가능성이 증가한다. 2 min_samples_leaf Default = 1 리프노드가 되기 위해 필요한 최소한의 샘플 데이터수 과적합 제어를 위해 사용한다. 불균형 데이터의 경우 특정 클래스의 데이터가 극도로 작을수 있으므로 작게 설정 필요 3. max_features 최적의 분할을 위해 고려할 feature의 개수 Default = None -> 데이터 세트의 모든 피처를 사용 int 형 : 피처개수 sqrt, auto : 전체 피처중 sqrt(feature)만큼 선정 log : 전체 피처중 log2(feature)만큼.. 2021. 12. 15.
[PyTorch] Dataset과 Dataloader는 왜 사용할까 결론을 먼저 말하자면 "Customizing" 하려고이다. 딥러닝 모델을 학습시킬때 데이터셋을 가져와야 하는데 한번에 모든 데이터를 가져오면 메모리가 터져버리는 일이 생긴다.그래서 batch를 나눠서 모델이 입력을 해주는데 어떤 데이터를 가져오고, 어떤 형태로 가져오고, 한 번에 얼마나 가져올지 customzing 하기 위해 torch에 dataset과 dataloader를 사용한다. DatasetDataset class는 전체 dataset을 구성하는 단계이다. input으로 전체 x와 y를 텐서로 넣어준다.__init__(self): 여기서 필요한 변수들을 선언한다.__len__(self) : x와 y의 데이터의 길이는 같으니까 편의상 len(y)를 통해 데이터의 크기를 리턴한다.__getitem__.. 2021. 3. 23.
PoseCNN 리뷰 (A Convolutional Neural Network for 6D Object Pose Estimation in Cluttered Scenes) Abstract 물체의 6D pose를 추정하는 것은 로봇에게 있어 중요하다. 여기서 6D는 6 degrees fo freedom으로 물체의 자유도를 말한다. 하지만 scene의 어수선함과 겹침과 같은 복잡성 때문에 물체를 추정하는 것은 challenge하다. 해당 논문에서는 CNN을 통한 6D object pose estimation을 제안한다. PoseCNN은 이미지에서 물체의 중심을 알아내고 카메라까지의 거리를 예측함으로써 3D translation을 추정하고, quaternion representation을 회귀함으로써 3D rotation을 추정한다. * quaternion : 쿼터니언은 4개의 수로 이루어지며, 하나의 벡터(x,y,z)와 하나의 스칼라를 의미한ㄷ.ㅏ 1. Introduction.. 2021. 3. 15.
유사도(Similarity) 1. 자카드 유사도 - Jaccard Similarity- 집합의 개념을 이용한 유사도 계산- 집합 A와 B사이의 유사도는 얼마나 많은 아이템(element)이 겹치는지로 판단- 전체집합과 교집합 사이의 비율로 유사도 계산- 공통 아이템이 없으면 0, 모두 겹치면 1- 주로 여러 단어로 구성된 문서 또는 문장이 유사한지 판단할 때 사용 2. 피어슨 유사도 - Pearson Similarity- Vector X, Y사이의 상관관계를 계산(=피어슨 상관계수)- 각 Vector의 표본평균으로 각 vector를 정규화하고, 코사인 유사도를 구한다. - 1은 양의 상관관계, -1은 음의 상관관계, 0은 상관관계 없을 나타낸다. 2021. 1. 20.