こんにちわんわん、まあるです。
情報系専攻の大学院に通う女子大学院生です🐶
今回は前回精度がうーんという感じだった日本語タイトルからyoutuberが誰なのかを予測するモデルの精度を上げてみようという記事です。
1回目はこちら↓
BERTを使って日本語タイトルからyoutuber予測してみた - 女子大生まあるの「好きに言わせてっ!」
2値分類にしているので、正解ラベル1には私の好きなyoutuberさん、不正解ラベル0には他のyoutuberさんのタイトルを用いています。
で、正解としたyoutuberさんのタイトルってすごく記号で強調や感情表現をするので、これは有効かも...!と思い、前処理の段階で削除しなかったんですね。
そしたら結果が良くなかった後、アノテーションスコアの上位を見てみると、どちらのラベルも記号が上位笑
よく考えたらyoutuberさんはタイトルで人目を惹きつけないといけないので派手に記号つけますよね、リサーチというか最初の分析不足でした^^;
なので記号を省きました
左のように記号で強調してた部分が消えて右側を見ると印象がだいぶ変わりますよね。
その後、モデル学習については1回目と同じような条件とし、変更なしで行いました。
結果は
'eval_accuracy': 0.7,
'eval_precision': 0.7083333333333333,
'eval_recall': 0.7,
'eval_f1': 0.696969696969697,
'eval_mcc': 0.408248290463863
ということで大体5%の増加となりました!!ヤッホイ♪
mccはもう少しデータを増やすか前処理で数字を消すなどすると50%台に乗りそうです。
混合行列の結果は
こうなりました。FP(偽陽性)が多めです。
前処理の重要性が今回でより実感できました。データサイエンスではこういった小さいミスでモデル選びミスることとかもあると考えると怖いですね。分析やアプローチの確立は大事だ〜〜〜😲
次はタイトルと高評価の相関とか、再生数が多いものと投稿曜日の関連とかもっと分析によった調査をしてみたいです。もしかしたら画像分類系にいってるかもですが、、、
以上で、少し精度上がったよ〜7割乗り上げた!の回でした。
ありがとうございました。
まある