ワインのクラスタリング(データの下準備)
sklearnのデータセットを使用してクラスタリングを行なう前のデータの下準備を行う
import pandas as pd from sklearn.datasets import make_blobs # Xには1つのプロットの(x,y)が、yにはそのプロットの所属するクラスター番号が入る print(make_blobs(n_samples=100, n_features=20, centers=15, cluster_std=2.0, shuffle=True, random_state=0)) #① X,y=make_blobs(n_samples=100, # サンプル点の総数 n_features=2, # 特徴量(次元数)の指定 default:2 centers=3, # クラスタの個数 cluster_std=0.5, # クラスタ内の標準偏差 shuffle=True, # サンプルをシャッフル random_state=0) # 乱数生成器の状態を指定 variables = ['辛さ','重厚','スパイシー','果実味','コク','酸味','落ち着き','香り','華やか','ジューシー','熟成','透明感','シャープ','力強い','フレッシュ','渋み','苦味','樽','エキゾチック','粘性'] print(len(X)) #② print(len(y)) #③ df = pd.DataFrame(X, columns=variables) print(df) #④
①の出力結果: 1つ目が行列、2つ目が行ベクトルである事が分かる。
②、③データが100個ある事が分かる ④カラム名が追加されている事が分かる。