Pythonで余計な文字列を削除する方法

otaguro 718views 更新:2016年6月16日

Pythonで余計な文字列を置き換え・削除するにはreを利用します。

re.sub(置き換える表現, 置き換え後の文字, 元の文字列)
import re
def format_text(text):
    '''
    MeCabに入れる前のツイートの整形方法例
    '''

    text=re.sub(r'https?://[\w/:%#\$&\?\(\)~\.=\+\-…]+', "", text)
    text=re.sub('RT', "", text)
    text=re.sub('お気に入り', "", text)
    text=re.sub('まとめ', "", text)
    text=re.sub(r'[!-~]', "", text)#半角記号,数字,英字
    text=re.sub(r'[︰-@]', "", text)#全角記号
    text=re.sub('\n', " ", text)#改行文字

    return text
print(format_text("テストtest\nhttp:hoge.com"))

実行結果

テスト

ログイン / 新規登録してコメントする

このソースコードをストックして後で利用したり、作業に利用したソースコードをまとめることができます。

こちらもお役に立つかもしれません