ワインのクラスタリング(データの下準備)

sklearnのデータセットを使用してクラスタリングを行なう前のデータの下準備を行う

import pandas as pd
from sklearn.datasets import make_blobs
# Xには1つのプロットの(x,y)が、yにはそのプロットの所属するクラスター番号が入る
print(make_blobs(n_samples=100, n_features=20, centers=15, cluster_std=2.0, shuffle=True, random_state=0))　#①
X,y=make_blobs(n_samples=100,         # サンプル点の総数
               n_features=2,          # 特徴量（次元数）の指定  default:2 
               centers=3,             # クラスタの個数
               cluster_std=0.5,       # クラスタ内の標準偏差 
               shuffle=True,          # サンプルをシャッフル
               random_state=0)        # 乱数生成器の状態を指定

variables = ['辛さ','重厚','スパイシー','果実味','コク','酸味','落ち着き','香り','華やか','ジューシー','熟成','透明感','シャープ','力強い','フレッシュ','渋み','苦味','樽','エキゾチック','粘性']
print(len(X))　#②
print(len(y))　#③
df = pd.DataFrame(X, columns=variables)
print(df)　#④

①の出力結果： 1つ目が行列、2つ目が行ベクトルである事が分かる。 f:id:hakomiyo:20171017183346j:plain

②、③データが100個ある事が分かる ④カラム名が追加されている事が分かる。

参照URL https://qiita.com/deaikei/items/11a10fde5bb47a2cf2c2