両替問題(末尾再帰版)

硬貨の種類を順に増やすというボトムアップを行うシンプルなもの.

module CountChange where

type Amount = Int
type Coins = [Int]
jpy :: Coins
jpy = [1,5,10,50,100,500,1000,2000,5000,10000]

cc :: Coins -> Amount -> Integer
cc cs a = foldl f (1:repeat 0) cs !! a
  where
    f xs n = exs
      where
        exs       = hxs ++ zipWith (+) txs exs
        (hxs,txs) = splitAt n xs

ディレクトリ階層を平たくする

私のワーキングディレクトリは ~/work/2010/12/30/ のように日付による階層になっている.
過去1ヶ月とか過去1年のファイルを一覧したいことがあるので,階層を平たくするスクリプトをでっちあげた.

module Main where

import Control.Applicative
import Data.List
import System.Directory
import System.FilePath
import System.Posix.Files

main :: IO ()
main = mapM_ (createSymbolicLink <*> flatten) =<< getPaths "."

getPaths :: FilePath -> IO [FilePath]
getPaths topdir
 =   getUsefulContents topdir 
 >>= mapM (\ name -> do { let path = topdir </> name
                        ; isDirectory <- doesDirectoryExist path
                        ; if isDirectory then getPaths path else return [path]
                        })
 >>= return . concat

getUsefulContents :: FilePath -> IO [FilePath]
getUsefulContents = (return . sort . filter (`notElem` [".",".."]) =<<)
                  . getDirectoryContents

flatten :: FilePath -> FilePath
flatten = concat . dropWhile ("."==) . splitDirectories

「再帰のこころ」「反復のこころ」そして「メモ化」少々

「n個の対応する括弧のパターン」(http://d.hatena.ne.jp/ymotongpoo/20101209/1291879286)についてあれこれを徒然に考えてみました.

再帰で考える

まずはパターン数を数えることにしましょう.この手の問題はまずは再帰で考えるのが基本です.

m個のカッコ(開き括弧)とn個コッカ(閉じ括弧)を並べるのであるが,m \le nであり,並べる途中においてもコッカの数がカッコの数を越えることがないようにするものとします.このときの並べ方の数を kakoka (m,n) としましょう.この kakoka (m,n) を構成できれば,n組の対応する括弧を含む列の数は parenseq n = kakoka (n,n) というわけです.

さて,この kakoka を考える最もシンプルな方法は再帰です.再帰というと難しいと思うプログラマもいるかもしれませんが,「再帰のこころ」さえ掴んでしまえば,もっとも簡単にものを考える手法になります.「再帰のこころ」は実に単純で,

一歩手前まで出来たとしたら,完成させるにはどうする?

です.まず一歩手前を考えましょう.

  • m == n すなわち,カッコとコッカが同じだけなら,最後に付け加えたのはコッカ.したがって,一歩手前,すなわち,そのコッカを付け加える前の状態の数 kakoka (m,n-1) と同じ.
  • m > n の場合は,最後に付け加えたのはカッコ,または,コッカ.カッコを付け加える前の状態の数は,kakoka (m-1,n),また,コッカを付け加える前の状態の数は,kakoka (m,n-1).したがって,kakoka (m,n) は kakoka (m-1,n) と kakoka (m,n-1)の和に等しい.

簡単ですよね.もちろん,一歩手前を考えるまでもなく自明の場合というのを押えておかなければなりません.

kakoka :: (Int,Int) -> Integer
kakoka (_,0)   = 1
kakoka (m,n) 
  | m >  n     = kakoka (m-1,n) + kakoka (m,n-1)
  | m == n     =                  kakoka (m,n-1)
  | otherwise  = error $ "(m,n) = " ++ show (m,n) ++ ": At least, 'm' must equal to 'n'"

この定義はわかりやすい定義です.問題そのものの構造が再帰構造で,それをそのままプログラムとして表現しているからです.この形状の再帰は枝分れしていくので樹状再帰(tree recursion)と呼ばれたりします.

すこし実行してみましょう.

ghci> let parenseq n = kakoka (n,n)
ghci> parenseq 10
16796
(0.06 secs, 4893428 bytes)
ghci> parenseq 11
58786
(0.17 secs, 16238636 bytes)
ghci> parenseq 12
208012
(0.57 secs, 56756540 bytes)
ghci> parenseq 13
742900
(1.99 secs, 202941288 bytes)
ghci> parenseq 14
2674440
(7.11 secs, 727493260 bytes)
ghci> parenseq 15
9694845
(25.81 secs, 2630816028 bytes)

おそろしく効率が悪そうです.これは枝分かれした再帰の先で重複した計算が何度もおこなわれているので効率が悪いのです.この手の問題に対処するにはいくつかの方法(まとめて「動的計画法」「Dynamic Programming」「DP」などと呼ばれる方法)があります.

メモ化

重複する計算を,メモ表検索に置き換える方法をメモ化(memoization メモワイゼーション)といいます.メモ化では関数適用の際に引数をキーにしてメモ表を引き,メモ表になければ,通常の関数適用計算を行い,引数をキーに結果をメモ表に登録します.メモ表に結果が登録されていれば,通常の関数適用計算は行わずにメモ表に登録されている計算結果を返します.

通常の関数をメモ化する関数 memoize があれば便利です.しかし,メモ化というのは関数の機能を変更するのではなく,関数適用の機能を変更することなので,再帰的に定義された関数では memoize が効きません.

「こういうときは不動点が kokako になるような汎関数 kakokaF を考えよ.」というのがHaskell一門の家訓です.:p (汎関数という用語はtwitterで教えていただきました)

kakokaF :: (Num a, Ord a, Num b) => ((a,a) -> b) -> (a,a) -> b
kakokaF _ (_,0) = 1
kakokaF f (m,n)
  | m >  n    = f (m-1, n) + f (m,n-1)
  | m == n    =              f (m,n-1)
  | otherwise  = error $ "(m,n) = " ++ show (m,n) ++ ": At least, 'm' must equal to 'n'"

kakokaMemo :: (Int,Int) -> Integer
kakokaMemo = memoize kakokaF
  where
    memoize   =  memo tableinfo
    tableinfo =  tableinfo :: (Memo M.Map) (Int,Int) Integer

汎関数の型が多相型になっているのは,通常再帰版とメモ化再帰版でこの汎関数を再利用できるようにしているためです.通常版は,たとえば,kakoka = fix kakokaF と定義できます.

tableinfoはメモ表の実装を示すためだけにあるり,必要なのは型情報だけです(値は\botで構いません).高階関数 memo は sampou.org 謹製:pのControl.Memoで定義されています.

 % darcs get http://darcs.sampou.org/memo/

で取得でき,cabal install でインストールできます.インストール後 Control.Memo をインポートしてください.このモジュールの詳細はソースコードをご覧ください.

メモ化の威力はどうでしょうか.

ghci> parenseq 15
9694845
(0.00 secs, 531092 bytes)
ghci> parenseq 150
620925183926009621146978506218967449531342090729015621989883130549504437230725772687824
(0.10 secs, 22565612 bytes)

なかなかのものですね.このようなメモ化はメモ化されていない版と汎関数を共有しますので,関数の意味が判りやすいのがメリットです.

当然のことながら,メモ表を引くのはタダではありませんし,検索がヒットしなければ,検索コスト以外に新しいエントリをメモ表に追加するコストがかかります.したがって,重複が少い場合にはメモ化すると逆効果ということもありえます.

この「括弧列問題」では問題になりませんが,メモ化した関数はメモ表のキーとなる引数に関して,常に eager evaluation になることにも注意してください.たとえば,竹内のたらい回し関数の場合,メモ化すると lazy evaluation ではなくなるので遅くなります.

ボトムアップ

メモ法は枝分かれする再帰計算で起こる冗長な重複計算をメモ表をつかって回避するというものでした.こんどは別の方向で考えてみましょう.関数 kakoka は「再帰の心」で素直に定義されたもので,ゴールからトップダウンに考えたものです.トップダウンで再帰的に分岐された計算はそれぞれ独立ですが,計算内容が重複しているので効率が悪いというわけです.

そこで,スタートからゴールに向けてボトムアップに計算を組み立ててみます.
ボトムアップで鍵になるのは,「反復の心」です.

これまで出来てたとしたら,一歩先はどうなる?

これが「反復のこころ」です.まぁ要するに「末尾再帰」というやつです.
蓄積変数を使って成果を次に伝えるというのが基本的な実装方法です.
もちろん,どこで終了するかを判定するための仕組みが必要です.

この図の右上向き矢印は'('の追加を表し,右下向き矢印は')'の追加を表しています.黒の経路を左から辿ると,(()(()(()))) となります.

1ステップでカッコまたはコッカを追加していくことを考えます.

全体は 2n ステップですが,半分の n ステップで進んだところで残りは対称になっているので,n ステップで到達できる位置での経路数を自乗して和をとれば全体の経路数になります.

というわけで,nステップまでの範囲で考えます.カッコを p 個,コッカを q 個 を使う場合,矢印に沿って到達する位置を (p,q) と表現することにします.

  • 現在 2i-1 ステップまで来たとすると,現在到達した位置は,(2i-1,0),(2i-2,1),..,(i+1,i) です.次の2iステップ目で到達できるのは,現在の括弧列の後ろへ"("を連結して,(2i,0),(2i-1,1),..,(i,i) の位置に来るか,現在の括弧列の後ろへ")"を連結して,(2i-1,1),(2i-2,2),..,(i,i)の位置に来る.
  • 現在 2i ステップまで来たとすると,現在到達した位置は,(2i,0),(2i-1,1),..,(i,i) です.次の2i+1ステップ目で到達できるのは,現在の括弧列の後ろへ"("を連結して,(2i+1,0),(2i,1),..,(i+1,i) の位置に来るか,現在の括弧列の後ろへ")"を連結して,(2i,1),(2i-1,2),..,(i+1,i)の位置に来る.

そういうわけで,奇数ステップと偶数ステップでは少しだけ異ります.これを同じ関数で表現することもできますが,交互に使えばよいだけなので,ここでは別の関数として定義します.

kkkso,kkkse :: Int -> [Integer] -> [Integer]
kkkso 0 xs  = xs
kkkso n xs  = kkkse (n-1) (zipWith (+) (xs ++ [ ]) ([0] ++ xs))

kkkse 0 xs  = xs
kkkse n xs  = kkkso (n-1) (zipWith (+) (xs ++ [0]) ([0] ++ xs))

全体では

parenseq n = sum $ map (^2) $ kkkso n [1]

となります.

ghci> let parenseq n = sum $ map (^2) $ kkkso n [1]
ghci> parenseq 15
9694845
(0.00 secs, 0 bytes)
ghci> parenseq 150
620925183926009621146978506218967449531342090729015621989883130549504437230725772687824
(0.01 secs, 1061312 bytes)

途中のkステップで辿り付ける「複数の」点への経路をすべて求めるのは,一見冗長に見えますが,結局これはどれも必要になるので冗長ではないわけです.

最速なのは

実はこのパターンの数は n に関する閉じた式として導けます.

C_n = \frac{(2n!)}{(n+1)!n!}

これは良く知られたCatalan数というものです.(実際にどう導くかはググって下さい.)
というわけで,これを使えば一瞬で計算が終ります.

(!) :: Int -> Integer
(!) 0 = 1
(!) n = toEnum n * ((n-1)!)

catalan :: Int -> Integer
catalan n = ((2*n)!) `div` ((n+1)!) `div` (n!)

括弧列を文字列として列挙する

文字列の列挙であっても,経路数を数え上げるのとプログラムの構造は同じです.

再帰版
kkakkokka :: (Int,Int) -> [String]
kkakkokka (m,0) = [replicate m '(']
kkakkokka (m,n)
  | m == n      =                                    map (++")") (kkakkokka (m,n-1))
  | m >  n      = map (++"(") (kkakkokka (m-1,n)) ++ map (++")") (kkakkokka (m,n-1))
  | otherwise   = error $ "(m,n) = " ++ show (m,n) ++ ": At least, 'm' must equal to 'n'"

計算してみましょう.

ghci> let parenseq n = kkakkokka (n,n)
ghci> parenseq 5
["()()()()()","(())()()()","()(())()()","(()())()()","((()))()()","()()(())()"
,"(())(())()","()(()())()","(()()())()","((())())()","()((()))()","(()(()))()"
,"((()()))()","(((())))()","()()()(())","(())()(())","()(())(())","(()())(())"
,"((()))(())","()()(()())","(())(()())","()(()()())","(()()()())","((())()())"
,"()((())())","(()(())())","((()())())","(((()))())","()()((()))","(())((()))"
,"()(()(()))","(()()(()))","((())(()))","()((()()))","(()(()()))","((()()()))"
,"(((())()))","()(((())))","(()((())))","((()(())))","(((()())))","((((()))))"]
(0.02 secs, 1072644 bytes)

括弧の数が多くなると列挙するのは大変なので,括弧列を数えてみましょう.

ghci> length $ parenseq 10
16796
(0.10 secs, 24669152 bytes)
ghci> length $ parenseq 11
58786
(0.40 secs, 91803232 bytes)
ghci> length $ parenseq 12
208012
(1.44 secs, 347797948 bytes)
ghci> length $ parenseq 13
742900
(5.19 secs, 1325709196 bytes)
ghci> length $ parenseq 14
2674440
(18.89 secs, 5080014448 bytes)
ghci> length $ parenseq 15
9694845
(69.17 secs, 19534267712 bytes)
メモ版

これも汎関数を使います.

kkakkokkaF :: (Monad f, Functor f, Monoid (f [String]))
           => ((Int, Int) -> f [String]) -> (Int, Int) -> f [String]
kkakkokkaF f (m,0) = return [replicate m '(']
kkakkokkaF f (m,n)
  | m == n         =                                          fmap (map (++")")) (f (m,n-1))
  | m >  n         = fmap (map (++"(")) (f (m-1,n)) `mappend` fmap (map (++")")) (f (m,n-1))
  | otherwise      = error $ "(m,n) = " ++ show (m,n) ++ ": At least, 'm' must equal to 'n'"

kkakkokkaMemo :: (Int,Int) -> [String]
kkakkokkaMemo = memoise kkakkokkaF
  where
    memoise   =  memo tableinfo
    tableinfo =  tableinfo :: (Memo M.Map) (Int,Int) [String]

実行してみましょう.

ghci> parenseq 5
["()()()()()","(())()()()","()(())()()","(()())()()","((()))()()","()()(())()"
,"(())(())()","()(()())()","(()()())()","((())())()","()((()))()","(()(()))()"
,"((()()))()","(((())))()","()()()(())","(())()(())","()(())(())","(()())(())"
,"((()))(())","()()(()())","(())(()())","()(()()())","(()()()())","((())()())"
,"()((())())","(()(())())","((()())())","(((()))())","()()((()))","(())((()))"
,"()(()(()))","(()()(()))","((())(()))","()((()()))","(()(()()))","((()()()))"
,"(((())()))","()(((())))","(()((())))","((()(())))","(((()())))","((((()))))"]
(0.02 secs, 1688036 bytes)
ghci> length $ parenseq 10
16796
(0.02 secs, 4725776 bytes)
ghci> length $ parenseq 11
58786
(0.04 secs, 15731016 bytes)
ghci> length $ parenseq 12
208012
(0.21 secs, 54009780 bytes)
ghci> length $ parenseq 13
742900
(0.71 secs, 193462952 bytes)
ghci> length $ parenseq 14
2674440
(2.52 secs, 697282508 bytes)
ghci> length $ parenseq 15
9694845
(9.19 secs, 2531698676 bytes)
ボトムアップ

こちらも,場合の数を数えるプログラムと同じ構造なので簡単に書けます.

kkksso,kkksse :: Int -> [[(String,String)]] -> [[(String,String)]]
kkksso 0 xs  = xs
kkksso n xs  = kkksse (n-1) (zipWith (++) (map oc xs ++ [  ]) ([[]] ++ map co xs))

kkksse 0 xs  = xs
kkksse n xs  = kkksso (n-1) (zipWith (++) (map oc xs ++ [[]]) ([[]] ++ map co xs))

oc,co :: [(String,String)] -> [(String,String)]
oc = map (('(':) *** (')':))
co = map ((')':) *** ('(':))

全体としては

parenseqIter n = concatMap (prod . unzip) $ kkksso n [[("","")]]
prod (xss,yss) = [foldl (flip (:)) ys xs | xs <- xss, ys <- yss]

これも実行してみましょう.

ghci> parenseqIter 5
["((((()))))","()((()))()","()((())())","()((()()))","()(((())))","(()(()))()"
,"(()(())())","(()(()()))","(()((())))","((()()))()","((()())())","((()()()))"
,"((()(())))","(((())))()","(((()))())","(((())()))","(((()())))","()()()()()"
,"()()()(())","()()(())()","()()(()())","()()((()))","(())()()()","(())()(())"
,"(())(())()","(())(()())","(())((()))","()(())()()","()(())(())","()(()())()"
,"()(()()())","()(()(()))","(()())()()","(()())(())","(()()())()","(()()()())"
,"(()()(()))","((()))()()","((()))(())","((())())()","((())()())","((())(()))"]
(0.01 secs, 1075948 bytes)

さきほどの parenseq 5 とはすこし違うように見えるかもしれませんが,同じ括弧列が列挙されているはずです.両方ともソートして比較してみれば同じであることがわかります.

ghci> sort (parenseq 5) == sort (parenseqIter 5)
True
(0.01 secs, 1052336 bytes)

効率を見ましょう.

ghci> length $ parenseqIter 10
16796
(0.02 secs, 2119860 bytes)
ghci> length $ parenseqIter 11
58786
(0.04 secs, 5835536 bytes)
ghci> length $ parenseqIter 12
208012
(0.10 secs, 19139136 bytes)
ghci> length $ parenseqIter 13
742900
(0.36 secs, 66548864 bytes)
ghci> length $ parenseqIter 14
2674440
(1.07 secs, 239042944 bytes)
ghci> length $ parenseqIter 15
9694845
(3.28 secs, 864143584 bytes)

列挙の効率

文字列列挙の場合にはメモ化の効果やボトムアップの効果が意外に少いと思った方,正直に手を上げなさい.:)

こういう解の列挙問題の計算量について,たまに思い違いをするプログラマの方がいらっしゃいますが,全数列挙するなら当然その計算量はどんなに頑張っても,列挙する対象の数のに比例する計算量になります.

引っ掛け問題に,「2分探索木に含まれる要素を列挙するのにかかる計算時間を見積もれ」というのがあるそうです.わかりますよね.

追記(18:00:35)

母関数を使う解法.解説が素晴しい.id:nineties さんの母関数を使って括弧のパターンを求めてみたも是非.

HIMA' のための Darcs 資料

HIMA' のための Git 資料 - あどけない話にならって.
用意すべきもの:

  • darcs
    • Haskell漢なら,cabalコマンドを使ってインストール.簡単に手にいれるなら,コンパイル済みバイナリが http://wiki.darcs.net/Binaries あたりを探ればあります.
  • ビジュアライザ
    • これは使いません.darcs用のビジュアライザについてはどのようなものがあるかさえ把握してません.勉強不足ですみません.m(__)m
  • ssh用公開鍵
    • darcsサーバを臨時に立てて,sshでアクセス用アカウントを作成しておきます.遊んでみたい方はssh用の鍵を用意してください.当日,時間があれば公開鍵を登録して遊んでみましょう.

環境設定

環境変数の設定.

% export DARCS_DONT_ESCAPE_ANYTHING=1
% export DARCS_EDITOR=emacs
% export DARCS_EMAIL='Nobuo Yamashita <nobsun@sampou.org>'
  • 1行目はdarcsが端末に表示を行う場合にエスケープ処理をする文字を設定(を何もエスケープしないように設定)する.
  • 2行目は長いログを記録するときに立ち上げるエディタを設定する.ここではemacsに設定しているが,これは,おこのみでどうぞ.
  • あなたのEmailアドレスを設定.

リポジトリの初期化

% cd プロジェクトディレクトリ
% darcs initialize

管理するファイルの追加

あるファイルを追加

% darcs add ファイル

すべてのファイルを追加

% darcs add *

すべてのファイルを追加(サブディレクトリも含む)

% darcs add * -r

追加されたファイルを記録

% darcs record

ファイルを変更しコミット

状況を確認.

% darcs whatsnew

あるファイルの変更を記録

% darcs record ファイル

すべてのファイルの変更を記録

% darcs record

いろいろなコマンド

コマンド体系はdarcsはgitに比べてかなり単純です.コマンド体系を比較するというより,開発の場面ごとにどのようにコマンドを使うかを比較するのがよさそうです.

  • ブランチ
  • マージ
  • 衝突への対応
  • バージョン

initialize,add,record,whatsnew 以外に説明予定のコマンド.

  • get
  • pull
  • push
  • unrecord
  • unpull
  • annotate
  • changes
  • tag

リモートリポジトリを使ってみる

これは当日,時間があれば.

  • おすすめされた本など

イヴの七人の娘たち (ヴィレッジブックス N サ 1-1)

イヴの七人の娘たち (ヴィレッジブックス N サ 1-1)

アダムの呪い (ヴィレッジブックス)

アダムの呪い (ヴィレッジブックス)

アダムの旅―Y染色体がたどった大いなる旅路

アダムの旅―Y染色体がたどった大いなる旅路

  • (いまさら)気になる本など

計算機シミュレーションのための確率分布乱数生成法

計算機シミュレーションのための確率分布乱数生成法

カーネル法によるパターン解析

カーネル法によるパターン解析

パターン認識と機械学習 上 - ベイズ理論による統計的予測

パターン認識と機械学習 上 - ベイズ理論による統計的予測

パターン認識と機械学習 下 - ベイズ理論による統計的予測

パターン認識と機械学習 下 - ベイズ理論による統計的予測