スキップしてメイン コンテンツに移動

投稿

2015の投稿を表示しています

外資系企業に行ってみたらこんな所だった:「会議には出なくてよいです」

今を遡ること6年前 今の勤め先である某外資系製薬企業に転職したのが2009年9月でした。まさに「逃げ出す感じ・追われる感じ」での転職でした。 コテコテの内資系企業からいわゆる「グローバル企業」へ移ったのですが,元々海外の人との仕事は刺激的に感じていた年頃だったので,不安よりも期待が多かったことを記憶しています。その後色々落胆することも多かったのですが,それはまた別の機会に。 とあるプロジェクトチーム会議にて 最近は内資系企業でも同じかもしれませんが,外資系企業では種々の専門性を持つメンバーを集めてプロジェクトチームを構成することが多いです。私は医薬品開発に従事しているので,製造販売承認に向けたプロジェクトに生物統計担当ということでチームに入ります。 それ自体当時は驚きでしたが,転職後最初の頃のプロジェクト会議で外国人のリーダー言われたのが以下の内容の話です。 「この会議への毎回の出席は必須ではない。必要な時はアジェンダに組み込んで招集するので,アジェンダを見て出席不要と考えれば出なくてもよい。」 カルチャーショック 驚きました。今でもよく憶えています。今となっては当たり前に実践していますが,当時の私にはカルチャーショックでした。 私は前職の先輩諸氏・(元)上司の方にすごく感謝していますし,仕事の基本はそこで学んだつもりでしたが,この科白は一度も言われたことありませんでした。 件の外国人リーダー,というより欧米では 会議は「何かを決めるために行う」もの 従って,何か重要な意思決定を行う予定があり,かつそこに何かインプットが必要ならば,それを持っているメンバーを招集すればよい。それ以外のメンバーは呼ぶだけ無駄。 情報共有だけなら議事録見れば十分  という,ごく単純だけど合理的な考えがベースにあるのでしょう。 裏を返せば,内資系企業の会議はそういうものではなく,従って私にそういうアドバイスをする人はいなかったのかなと思います。 後日,別の外国人リーダーに日本の会議に対する見方をきいたところ,彼らから見ると: 日本の会議は「結論ありき」 議論・交渉は会議の外で 従って,透明性が欠如している ということらしいです。 納得です。これだと「会議に片っ端から出席して情報を集めないと,話に付いていくことが...

用量探索試験と私 #8:最新の多重比較手法

ステップダウン法っぽい手順の再考 また本題を外れます。 以前「ステップダウン法っぽい手順」と称して以下の手順を紹介しました。 プラセボ群を含む全ての用量群における応答の単調増加性を検定する。 1で単調増加性が確認できた場合に限り,高用量から順にステップダウン法でプラセボ群と対比較し,有意差が認められなくなった時点で検定を止める。 この手順を採用した時にも開発チームから指摘されていた点ですが,素朴に 「単調増加性をそこまで仮定していいの?」 「ステップダウン法で最初に有意差なかったら終わりでしょ?でも次の用量でもしプラセボ群と差があっても比較できないんだよね?」 という疑問が残ります。 当時の私は 「いやいや,本当に効く薬なら単調増加性は成り立つはずでしょ?プラセボ群も含めてるし。」 と言い張っていました。 今の視点で言えば,私の主張には以下の問題があります。 ある種の薬剤においては,ある用量以上で平均反応が減少に転じるDownturn型の用量反応関係を示すことがある。 そうでなくても,もし選んだ用量が高すぎもしくは低すぎであれば,実薬群の用量反応関係はフラットなものに近くなり,単調増加的にならない可能性がある。 担当していた件の薬剤の性質上,開発チームはきっと効果に疑問を持っていたのでしょう。それでも私の主張を通してくれたチームの方々にはただただ感謝です。 改善案 第2相試験であることを考慮すれば,当時のチームの指摘に対応した改善手順は以下のようになるでしょう。 プラセボ群とそれ以外の全ての用量を併合した実薬群の応答を2群比較の形で行う。 1で有意差が確認できた場合に限り,プラセボ群と各用量群をHolms法で対比較する。 要は「単調増加性」の確認を直接行わないという方針への変更です。Holms法はBonferroni法の変法の1つで,個々の比較に対するp値を小さい順に並べ,ここでは比較の数は4なので,最も小さいp値に対しては4倍,次に小さいp値に対しては3倍,次は2倍,最も大きいp値はその値自信を調整p値として検定するものです。 こう書くと目新しさはないのですが,これを「有意水準の分配?」という見方で説明すると以下のようになります。 プラセボ群と実薬の併合群を片側2.5%の有意水準で比較する。 ...

用量探索試験と私 #7:いよいよ登場MCP-Mod

MCP-Mod概略 いよいよ本題です。 MCP-Modの原著は2005年公開。その名の通り「多重比較(MCP)」と「用量反応関係のモデル化(Mod)」の2部構成で, あらかじめ代表的な用量反応関係モデル候補を決めておく 個々のモデルにいくつかの初期値を与え,各モデルにフィットするような用量群の平均パラメータについての対比を決める 2で決めた対比を,多重性を調整して同時に検定する 3で有意差のあった対比に対応する用量反応関係モデルの中で当てはまりが最もよい(AICが小さい)ものを用量反応関係モデルに採用する という手順になっています。 biomデータに適用 早速実演ですが,話を簡単にするために,用量反応関係モデル候補は以下の3つにしました。 線形モデル(単調増加) Emaxモデル(ある用量でプラトー) 2次関数(Downturn) 対比検定 (片側)検定結果は以下の通り 線形モデル:p=0.0034 Emaxモデル:p≺0.0001 2次関数:p=1.0000 従って,2次関数モデルはここで脱落し,線形モデルとEmaxモデルの選択になります。 AICによる選択 AICは以下の通り 線形モデル:7.5549 Emaxモデル:6.2981 従って,biomデータが 上記3つのモデル候補の中で もっともよく当てはまるのはEmaxモデルとなります。 グラフにすると… このグラフを見て臨床用量候補を決めろと言われれば… Emax曲線が見た目プラトーになっているのは用量0.4以降 用量1でのEmax曲線の95%信頼区間幅が用量0.6よりやや広いのが気になる 臨床用量候補には0.6を選ぶのが無難 結局これまでと一緒か…。  その頃私は:ざわざわ… 学位取得はうまく行かない一方で今の妻との交際は順調,2007年に結婚。こんな私でも結婚できるんですね~。さらに,その翌年の元日には長男誕生。 プライベートはまさしく順調という感じに進んだ時期でしたが,仕事はかなり荒れ気味に。人に仕事を振れない,「人をリードする仕事」があることを知らない,といった点は私の問題でしたね。 でもそれはそれで学ぶことの多かった時期でもあり,私にとってはやはり必要な時期だったのでしょう。 ただし会...

用量探索試験と私 #6:ゲートキーピング法

ゲートキーピング法 前回触れた「ゲートキーピング法」の補足です。 2000年代前半,多用量群だけでなく「多変量」「多時点」「多集団」にも適用可能な汎用的多重比較手法のニーズが高まってきました。 前回のbiomデータの解析では,以下の2段階で検定を実行しました。 プラセボ群を含む全ての用量群における単調増加性の存在をJonckheere検定で確認する。 1で単調増加性が認められた場合に限り,プラセボ群と用量群の比較を高用量からのステップダウン法でWilcoxon検定により実施する。 これをゲートキーピング法の言葉で表現すると, 「プラセボ群を含む全ての用量群において単調増加性はなく,分布は全て等しい」という帰無仮説族F1(実際は1つだけの仮説)と「プラセボ群と個々の用量群で分布は等しい」という4つ(4用量分)の仮説を含む帰無仮説族F2を設定する。さらに,F2に含まれるプラセボ群と用量1,0.6,0.2,0.05の分布に関する帰無仮説をそれぞれF21,F22,F23,F24とする。 F1とF2は直列ゲートキーピング法で検定する。つまり,F1はF2の検定のためのゲートキーパーであり,F1が棄却されない限りF2を検定することはない。 さらにF21~F24も直列ゲートキーピング法で検定し,F21はF22の,F22はF23の,F23はF24のゲートキーパーである。各ゲートキーパーの帰無仮説が棄却されない限り,その後に続く帰無仮説が検定されることはない。 となるでしょうか。 もし,プラセボ群との対比較がDunnett法等ステップダウン法でない同時比較だった場合,3の手順は以下のようになります。 「F21~F24を 並列 ゲートキーピング法で検定する。F21~F24の各帰無仮説の棄却は,自身が棄却されさえすればよいが,適切に多重性を調整する。」 ゲートキーピング法は汎用的な多重比較の考え方なので,「複数変数」「複数時点」「複数サブグループ」等,色々な状況で適用可能です。 仮説族を「直列に配線」するか「並列に配線」するかは,その仮説族の重要性に依存します。上記手順は,当時の私が「薬剤の単調増加性」を重視した結果です。 その頃私は:挫折?と幸運 さて、勤め先の合併に伴い東京に舞い戻った私ですが,当時開講された社会人向け医薬統計大...

用量探索試験と私 #5:順位和検定と用量探索試験

ある担当業務での経験 最大対比法がかなり浸透していた2000年前後,私はあるプラセボ対照用量探索試験を担当しました。それは疼痛スコア改善をエンドポイントにする試験で,たしか50点満点くらいの主観評価だったと思います。 今の私なら遠慮せず最大対比法を適用していたはずですし,おそらく私以外の人が担当していたらやっぱり最大対比法を適用するでしょう。それは今の勤め先の外資系製薬企業での対応そのものです。 しかし,当時の私は「50点満点正規性は仮定できない,順位和検定ベースで解析を」と固く考えてしまったんですね~。 しかし,最大対比法は,そしてMCP-Modも順位和検定には対応していません。こまった話ですが,「順位和検定は用量探索試験の主要解析で使うな」ということですかね。上記のようなデータの解析を今風に考えれば,「適切な閾値で二値化して最大対比法またはMCP-Mod」ということになりそうです。その「適切さ」が難しいのですが。 ステップダウン法っぽい手法? そんな了見のない当時の私はどうしたか? 当時は多重比較の流行が単純な調整手法からステップダウン的手法に移りつつある時期だったこともあり,また順位データでの多重比較で第1種の過誤率を制御できるのかどうか確信できなかったということもあったので,DR推定問題はさておいて,仮説族を以下のように設定しました。 H0all: 用量間に有効性に関する単調増加な用量反応関係はなく,有効性は用量間で均一 H01:最高用量とプラセボ群の有効性は等しい H02:次に高い用量とプラセボ群の有効性は等しい H03:次に高い用量と・・・ ・・・ 仮説の数がn個あるとき,(各単独の仮説を含めた)全ての積仮説の数は2のn乗-1になりますが,単調増加性を仮定すると,以下の手順で所定の第1種の過誤率は制御できます。 全用量+プラセボ群における傾向性検定を適用する。 1で所定の有意水準を達成できなければStop,達成できれば最高用量群とプラセボ群を所定の有意水準で比較する 2で有意水準を達成できなければStop,達成できれば次に高い用量群とプラセボ群を所定の有意水準で比較する (以下同様) 当時の私の主張は以下のようなものだったと思います。 プラセボ群との対比較は重要,それもできるだけ検出力の高い手法...

用量探索試験と私 #4:最大対比法

「対比」の評価の拡張:最大対比法 対比較によるMEDの「検定」の問題点が指摘されていた1990年代中~後半、最大対比法という方法論が提唱され始めました。 対比の概念自体は当時も既存のものでしたが,複数の対比を同時に検討するのが新しい点。それに伴う多重性への対応が問題でしたが,データのリサンプリングにより同時分布をシミュレートするという,最も単純な,しかしコンピュータの性能を最大限活かしたアプローチで見事解決。背景にはSASのMULTTESTプロシジャのリリースがあったようですが,当時私はすごく感動を覚えていたように思います。 最大対比法の特徴を改めて考えると, Dunnett法等の多重比較手法も網羅している 検定結果は「用量間で応答分布に差がない」という帰無仮説を棄却できるかどうかの判断根拠 あとは当てはまりの良さそうな対比を選び,それに基づき臨床用量候補を選び出すだけ といった所でしょうか。かなりモザイク模様ではありますがDR推定問題も考慮している点で実用的な手法だと思います。 Rによる最大対比法 今回の解析は全てRを用いたものです。Rでもリサンプリング法を実装するmulttestパッケージがかつては存在しましたが,今はリタイアしているらしい。今はmultcompという別のパッケージで実装するよりなさそうですが,このパッケージではリサンプリングではなく理論的な多変量分布を用いて複数対比の評価を行います。 biomデータの解析結果 結果は以下の通り。 比較 対比 調整P値 0.05でプラトー (-4,1,1,1,1) 0.017 0.2でプラトー (-7,-2,3,3,3) 0.0019 0.6でプラトー (-9,-4,1,6,6) 0.0013 線形 (-2,-1,0,1,2) 0.0014 1で降下 (-8,-3,2,7,2) 0.0022 対比の設定については議論の余地があるものの,この結果から分かることは, P値は全て2.5%より小さいので,有意水準を片側2.5%とすれば,プラセボに比して実薬が有効であろうことは推察できる。 もっともP値が小さいのは「0.6でプラトー」なので,この結果から選ぶ臨床用量候補としては0.6と1ということになる ただし「線形」対比もP値としては近いので,用量1...

用量探索試験と私 #3:最小有効用量

至適用量(optimal dose)と最小有効用量(minimum effective dose,MED) 私が就職した1996年前後,というより今もそうかもしれませんが,用量探索試験の目標は以下の2点で集約されていたように思います。 少なくとも「薬として有効」な用量を選ぶ 同じ有効性ならば,安全性の観点からできるだけ低い用量を選ぶ 当時は「至適用量」という表現でこの考えを表していたように記憶しています。 実際の臨床試験では安全性データも加味して,現実的に「至適用量」を決めることになりますが,ここでの事例ではどうやってこの「至適用量」を探り出すか? 当時多く引用されたのは「最小有効用量(minimum effective dose,MED)」の考え方で,簡単に言えば「十分な有効性を示す用量のうちで最小のもの」を探ろうというものです。実に単純。 そこで当時は「プラセボ対照試験であれば,プラセボと有意な差のある最小用量を見つければよい」という考えに至ったようです。ただし,単純に対比較を繰り返すと第1種の過誤率増大を招くので,適切に調整をする必要があります。 多重比較 ここでは「Bonferroni法」「Dunnett法」の2種類の調整を用いて片側P値を計算しました。結果は以下の通り。 比較 未調整P値 Bonferroni調整済  P値 Dunnett調整済 P値 0 vs. 0.05 0.3103 1.0000 0.6033 0 vs. 0.2 0.0208 0.0831 0.0655 0 vs. 0.6 0.0052 0.0206 0.0178 0 vs. 1 0.0043 0.0173 0.0151 有意水準を片側2.5%と設定すると,有意差ありとなった結果には下線を引いています。多重性は調整が必要なので,Bonferroni法もしくはDunnett法を主解析と定義すれば, MEDは0.6 1をその後検討対象とするかどうかは要検討 その他の用量は以後の検討対象から外す という結論になりそうです。 この結論の問題点 上記のMEDを巡るロジックについては,当時もいくつか問題点が指摘されていました。 問題点1:サンプルサイズによってMEDの結論が変わり得る ...

用量探索試験と私 #2:そもそも論

臨床用量候補を決める:原則論 0用量以外の用量から,実際に臨床での治療に用いる用量候補を決める問題ですが,ICH E4ガイドラインがそのための原則論となっています。 https://goo.gl/ta1T8g このガイダンスによれば,このデータを集めた目的は 用量反応関係を 関数関係として 推定する 最低でも「被験薬は確かにクスリである」ことを統計的に確認する ことであったはずです。以降,1番目を「DR推定問題」,2番目を「DR検定問題」と勝手に呼びます。DRとは「Dose Response」の頭文字です。 しかし,最近までこの問題はなかなかすっきりと解決できていなかった。今回ブログのきっかけとなったMCP-Modは2つの問題の一挙解決を目指した手法です。 DR推定問題だけなら… E4ガイドラインでは試験デザインの記述が主で,統計手法は何も述べていません。従って,DR推定問題だけなら,グラフを見るだけでも 「0.2~1のどれかを選ぶだろ~」 「1より上の用量だともっと有効かも」 「いやいや,真ん中とって0.6」 などといった議論くらいは可能だと思います。もう一度類似の試験を実施するつもりならこれでもよいと思いますが,もし次にピボタル試験を予定しているのであれば,評価があまりに定性的で結論が出ないのはまずい。そこで定量的評価が必要になってきます。 そこで試行錯誤が始まります。1990年代中盤あたりだったと思います。 私就職しました。そして… それと時を同じくして,1996年に私は大学院修士課程を修了,割と小さな製薬企業に就職しました。統計数学を研究していましたが,生物統計については知識ゼロ。期待と不安を胸に,九州男児は初めて生活拠点を東京に移しました。 なお,同じ年に私の妻も別の製薬企業に就職。

用量探索試験と私 #1:はじめに

きっかけ この記事を書き始めるきっかけは色々です。 自分の書きたい文章を きちんと 書きたい 最近ほとんど統計の事で頭を使っていないので、ちょっと統計を職にするものとして「これはいかん」と思ったり MCP-Modの学習 用量探索試験での統計解析の歴史は多重比較流行の歴史であり,私の製薬業界(以後「業界」)就職後の歴史ともシンクロしている Fac*b**kとかだと思い切ったことを書くことができないので,ブログ再開  例題 統計ソフトRのDoseFindingパッケージに同梱されているbiomデータを基に,問題を設定したいと思います。 問題:0用量(たぶんプラセボ),用量「0.05」「0.2」「0.6」「1」の効果を,ある連続型応答を用いて評価した所,データは下図のようになった。 そこで,この用量の中から市販後に用いる用量候補を決めなさい。  はたしてこの問題を業界ではどう解決してきたのか?