入門機械学習の1章のUFOデータをpandasで読み込めない

22 04 2013 R Python Tweet

1章のデータをpandasのread_tableで読み込もうとすると

CParserError: Error tokenizing data. C error: Expected 6 fields in line 755, saw 7

となって、エラー終了する。これはlong descriptionの中に区切り文字であるtabが含まれているせいで、カラムの長さがちゃうよっていうエラーなんだけど、こういうダメな行をスキップするオプションが見つからなかった。

Python for Data Analysis
Wes Mckinney
Oreilly & Associates Inc / 3634円 ( 2012-10-29 )

pythonでデータのクリーニングをやる場合にはpandas使うよりもforループ回して、要素を一つ一つチェックしていくほうがやりやすいかも。対話的じゃないので、途中のデータを取っておきにくいのでデータがでかい場合試行錯誤しにくいけど。

入門機械学習
Drew Conway
オライリージャパン / 3360円 ( 2012-12-22 )