メモ:必要なサンプルサイズ計算方法

母平均の区間推定における必要なサンプルサイズの計算フォーム | ブログ | 統計WEB母比率の区間推定における必要なサンプルサイズの計算フォーム | ブログ | 統計WEBサンプルサイズ | ブログ | 統計WEB

ディレクトリ内のファイル名の一括変更例(unixコマンド)

ディレクトリ内のファイルの名前の冒頭に hoge_ をつける例。array=`ls` echo $array|xargs -I{} mv {} "hoge_"{} 参考サイト https://linuxcommand.net/xargs/

pystanの環境構築 on mac

macでのpystan(2.17.1.0)環境構築。 苦労したので、メモ。 (homebrewを入れたうえで) brew install python@3.7 python3.7 -m venv venv source venv/bin/activate pip install pystan==2.17.1.0 参考サイト http://y-okamoto-psy1949.la.coocan.jp/Python/Py…

scikit-learnのtree.plot_tree

ホント便利になりましたね。リンク貼らせていただきました。qiita.com

___

わざわざブログに書くほどのことでもないのかもしれないけど、分析者って、分析スキルがフォーカスされがちだけど、 コンサルタント的な対人スキルが必要とされてると思うので、 あまり人と話すのが得意ではないとか、人の好き嫌いが激しいとか、 そういう人…

ビジネスサイドにSQLを覚えてもらい自分でデータ抽出してもらいたい

最近仕事をしていて思うのは、 ビジネスサイドにSQLを覚えてもらい自分でデータ抽出してもらいたい、ということ。 関連記事と自習サイトを載せた。SQL書ける側からすると、例えるなら、EXCEL作業をこっちに丸投げされてる感覚かな。 「自分でやれや。」って…

見せかけの回帰に関する確認作業

多変量時系列データを扱う際に頭に入れておいたほうが良い分岐図(単位根検定、見せかけの回帰、共和分)を描いた。 「経済・ファイナンスデータの計量時系列分析(通称、沖本本)」p.128などをもとに作成。 ここでは、複数の場合の最も簡単な場合である、2…

Rのコンソールでunixコマンドを打つ

Rのコンソールでunixコマンドを打ちたかったので調べた。備忘録としてメモ。 unixコマンドの代表例として、pwdコマンドを用いることとする。結論としては、 system('pwd', intern=TRUE)これなら、RStudioでも、Jupyter(R kernel)でも、イケる。ーー なお、RS…

Spyder on WSL

(すごく久しぶりにブログ書いた)OSがwin10だと、IT寄りのこと(文字コードとか改行コードとか)をやるときにいろいろ不便なので、 WSL(Ubuntu)とか使うと思うのだが、 WSLにAnaconda入れるだけだと、Jupyterは使えるけど、Spyderは(このままでは)使えな…

word2vecとgensimの環境構築と動作確認

Linuxの環境を前提とする。 コマンドラインで以下のコードを実行して、環境構築。 git clone https://github.com/svn2github/word2vec.git cd word2vec sed -i 's/<malloc.h>/<stdlib.h>/g' compute-accuracy.c sed -i 's/<malloc.h>/<stdlib.h>/g' distance.c sed -i 's/<malloc.h>/<stdlib.h>/g' word-analogy.c make ch</stdlib.h></malloc.h></stdlib.h></malloc.h></stdlib.h></malloc.h>…

XGBClassifier + GridSearchCV (二値分類&不均衡データ) のsklearn-likeな書き方の例

以下の条件でのコードの書き方をまとめておく。 データがアヤメなので、あまりありがたみを感じないけど。 二値分類 不均衡データ Scikit-Learn like なXGBoost記法 GridSearchCV import numpy as np, pandas as pd from sklearn.datasets import load_iris …

Pythonを用いた最適化に関して

Pythonにおける最適化についてメモ。 集合(変数の添え字) 変数 ハード制約(制約式として実装) ソフト制約(目的関数に利得項として実装) 目的関数 その他(スラック変数) などを設定してソルバーで処理するのが大まかな流れ。 PuLPがよく使われると思…

サンプルサイズ関係の本などを漁って斜め読みした話。

R

はじめに データ分析などの仕事をしていると、 必ず一回はぶつかる「サンプルサイズをいくらにするか」問題。ずっとモヤモヤしていたので、少し勉強した。 結論を言うと、スパッと答えを出している書籍はあるものの、いろいろ考え始めるとやっぱりモヤモヤは…

word2vecというか、gensimの使い方

word2vecというか、gensimの使い方のひな形を書いておく。一つ注意。 学習のところで、windowというオプションがあるが、 これは、文の中だけが範囲であって、文を跨がない。 window (int, optional) – Maximum distance between the current and predicted …

Pythonのスライスの仕様について自分なりに考えた。

Pythonのリストや文字列にはスライスという機能が備わっているが、 基本的なところしか押さえてなかったので、もう少し踏み込んでみた。 書籍やサイトなども見てみたが、自分が納得できる説明を見かけなかったので、挙動から自分なりに仕様を考えてみた。 こ…

kaggleコンペのタイトル取得(追記:他のデータも取得するようにした。)

kaggleコンペについての参加者の取り組み(コメントとか、機械学習関係のコードとか)を調査研究しようと思い、 ひとまず、コンペのタイトルを取得するコードを書いた。 このページの下部にも記載したし、以下のGitHubにも記載している。 Python_code/code t…

jumanpp のインストール

日本語の形態素解析をするにあたり、 MeCabよりも、Juman++がいいことを知り、インストールすることに。 やり方をここにメモっておく。 Releases ここで、最新版のtar.xz ファイルをダウンロード。 適当なディレクトリを作成し、そこに上記のtar.xz ファイル…

os.nice(increment)

複数人でサーバーを使うときに並列処理をする場合、 他の人のことを考慮して並列数を指定するというのは当然やるのだが、 それだけでなく、 サーバーの負荷が大きくなってきたら自分が身を引くように、自分の優先度を低くしておくというのもやっておくべき。…

kaggleはじめました。

kaggleはじめました。 データ容量が大きいものが多いので、通常のPCではやれないものも多い。 なので、どこかしらのハイパワーなサーバーでやることになる。 その際に、以下が参考になった。 Container of the Week – kaggle/python | Elegant Infrastructur…

【PythonとStanで学ぶ】仕組みが分かるベイズ統計学入門  がいいよ、って話。

いろいろとベイズ統計学の教材(本やネットなど)を使って勉強してたけど、 以下の動画講座が個人的には一番良かった。 【PythonとStanで学ぶ】仕組みが分かるベイズ統計学入門 | Udemy これまで理解できてなくてモヤモヤしてたことがすっきりした。 しかも…

(メモ)Mantel-Haenszel 検定

層別抽出で母集団と比べて歪んでいる場合の検定には、 Mantel-Haenszel 検定を使う。

論文の読み方

いしたーさんがツイッターで論文の読み方の以下のリンクを貼ってた。 高速で論文がバリバリ読める落合先生のフォーマットがいい感じだったのでメモ - 書架とラフレンツェ その上記のページには、文献管理ツールという以下のサイトのリンクがあったんだけど、…

ベイズ更新について速習したければ、これを読め。

ベイズ更新について速習したければ、 「道具としてのベイズ統計」のpp.90-95 を読め。 以上。

お役立ちリンク集

雑多な内容になっていくと思うけど、書き残しておきたいものをここにメモしていく。 (ブックマークでは把握しきれなくなってきたもので。) 【Mac】Python3(Anaconda)でTensorFlow環境を構築してみる conda install -c conda-forge tensorflow ↓Anaconda…

blavaanを実行するときに出たエラーの対処方法

R

blavaanというBSEMのRのパッケージを使ったときにエラーが出たのでメモ。 無料でベイジアン構造方程式モデル|京極真の研究室 のコードを動かそうとしたのだが、 blavannはrjagsを使っていて、そのrjagsの実行のときにエラーが出てた。 で、原因は、どうもJAG…

多変量時系列分析の教材まとめ

世にある時系列分析関係の資料は、単変量時系列分析についてはたくさん書かれている。しかし、多変量時系列分析についてはあまりないみたい。 ここでは、その多変量時系列分析関係の資料をまとめた。多変量時系列分析で登場するグレンジャー因果性検定につい…

PyAutoGUIをちょっと使ってみた。

「退屈なことはPythonにやらせよう」という本を読んでいて、 PyAutoGUIの存在を知る。 いろいろ自動化して行く中で、特にマウス操作などのGUI関係は扱いに困ってしまい、自動化のネックなることが経験上よくあったのだが、このPyAutoGUIを使えば、いろいろ壁…

機械学習のパラメータチューニングなど(ポエム感強し)

機械学習のパラメータチューニングをするには、各パラメータのことを知らないといけない。そのためには、その機械学習のアルゴリズムをわかっていないといけない。 (当たり前なんだけど、パッケージに頼ると、スクラッチで書く人よりその辺りの意識が弱いと…

savファイルをRとPythonで開く。

savファイルというSPSS由来の形式のデータを (有料の)SPSSではなく、(無料の)RかPythonで開きたいなと思った。 R まずは、Rで開く方法を示す。 開く対象であるサンプルデータ(savファイル)は、以下。 NECO data このページにある、6areaeng.savを開く…

xgboost installation on mac

macosx Anaconda(Python3.6) にインストールしようとして、いろいろ苦労したので、メモ。 conda install -c conda-forge xgboost https://anaconda.org/conda-forge/xgboost