亚洲香蕉成人av网站在线观看_欧美精品成人91久久久久久久_久久久久久久久久久亚洲_热久久视久久精品18亚洲精品_国产精自产拍久久久久久_亚洲色图国产精品_91精品国产网站_中文字幕欧美日韩精品_国产精品久久久久久亚洲调教_国产精品久久一区_性夜试看影院91社区_97在线观看视频国产_68精品久久久久久欧美_欧美精品在线观看_国产精品一区二区久久精品_欧美老女人bb

首頁 > 編程 > Python > 正文

Python實現提取文章摘要的方法

2020-01-04 19:26:51
字體:
來源:轉載
供稿:網友

本文實例講述了Python實現提取文章摘要的方法。分享給大家供大家參考。具體如下:

一、概述

在博客系統的文章列表中,為了更有效地呈現文章內容,從而讓讀者更有針對性地選擇閱讀,通常會同時提供文章的標題和摘要。

一篇文章的內容可以是純文本格式的,但在網絡盛行的當今,更多是HTML格式的。無論是哪種格式,摘要 一般都是文章 開頭部分 的內容,可以按照指定的 字數 來提取。

二、純文本摘要

純文本文檔 就是一個長字符串,很容易實現對它的摘要提?。?/p>

#!/usr/bin/env python# -*- coding: utf-8 -*-"""Get a summary of the TEXT-format document"""def get_summary(text, count): u"""Get the first `count` characters from `text`>>> text = u'Welcome 這是一篇關于Python的文章'>>> get_summary(text, 12) == u'Welcome 這是一篇'True """ assert(isinstance(text, unicode)) return text[0:count]if __name__ == '__main__': import doctest doctest.testmod()

三、HTML摘要

HTML文檔 中包含大量標記符(如<h1>、<p>、<a>等等),這些字符都是標記指令,并且通常是成對出現的,簡單的文本截取會破壞HTML的文檔結構,進而導致摘要在瀏覽器中顯示不當。

在遵循HTML文檔結構的同時,又要對內容進行截取,就需要解析HTML文檔。在Python中,可以借助標準庫 HTMLParser 來完成。

一個最簡單的摘要提取功能,是忽略HTML標記符而只提取標記內部的原生文本。以下就是類似該功能的Python實現:

#!/usr/bin/env python# -*- coding: utf-8 -*-"""Get a raw summary of the HTML-format document"""from HTMLParser import HTMLParserclass SummaryHTMLParser(HTMLParser): """Parse HTML text to get a summary>>> text = u'<p>Hi guys:</p><p>This is a example using SummaryHTMLParser.</p>'>>> parser = SummaryHTMLParser(10)>>> parser.feed(text)>>> parser.get_summary(u'...')u'<p>Higuys:Thi...</p>' """ def __init__(self, count):HTMLParser.__init__(self)self.count = countself.summary = u'' def feed(self, data):"""Only accept unicode `data`"""assert(isinstance(data, unicode))HTMLParser.feed(self, data) def handle_data(self, data):more = self.count - len(self.summary)if more > 0:# Remove possible whitespaces in `data`data_without_whitespace = u''.join(data.split())self.summary += data_without_whitespace[0:more] def get_summary(self, suffix=u'', wrapper=u'p'):return u'<{0}>{1}{2}</{0}>'.format(wrapper, self.summary, suffix)if __name__ == '__main__': import doctest doctest.testmod()

HTMLParser(或者 BeautifulSoup 等等)更適合完成復雜的HTML摘要提取功能,對于上述簡單的HTML摘要提取功能,其實有更簡潔的實現方案(相比 SummaryHTMLParser 而言):

#!/usr/bin/env python# -*- coding: utf-8 -*-"""Get a raw summary of the HTML-format document"""import redef get_summary(text, count, suffix=u'', wrapper=u'p'): """A simpler implementation (vs `SummaryHTMLParser`).>>> text = u'<p>Hi guys:</p><p>This is a example using SummaryHTMLParser.</p>'>>> get_summary(text, 10, u'...')u'<p>Higuys:Thi...</p>' """ assert(isinstance(text, unicode)) summary = re.sub(r'<.*?>', u'', text) # key difference: use regex summary = u''.join(summary.split())[0:count] return u'<{0}>{1}{2}</{0}>'.format(wrapper, summary, suffix)if __name__ == '__main__': import doctest doctest.testmod()

希望本文所述對大家的Python程序設計有所幫助。

發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
亚洲香蕉成人av网站在线观看_欧美精品成人91久久久久久久_久久久久久久久久久亚洲_热久久视久久精品18亚洲精品_国产精自产拍久久久久久_亚洲色图国产精品_91精品国产网站_中文字幕欧美日韩精品_国产精品久久久久久亚洲调教_国产精品久久一区_性夜试看影院91社区_97在线观看视频国产_68精品久久久久久欧美_欧美精品在线观看_国产精品一区二区久久精品_欧美老女人bb
中文字幕日韩欧美在线视频| 欧美极度另类性三渗透| 成人黄色在线观看| 国产精品福利观看| 久久久999国产| 欧美多人乱p欧美4p久久| 久久视频在线视频| 国产精品扒开腿爽爽爽视频| 欧美成人精品xxx| 国产精品精品国产| 欧美日韩国产中字| 福利一区福利二区微拍刺激| 日韩在线观看免费网站| 亚洲区在线播放| 国产午夜精品美女视频明星a级| 国产亚洲xxx| 综合网中文字幕| 亚洲网址你懂得| 国产精品99久久99久久久二8| 日韩成人激情影院| 精品久久久久久| 亚洲欧洲国产一区| 欧美精品在线免费观看| 欧美日韩一二三四五区| 色偷偷综合社区| 黑人巨大精品欧美一区二区| 久久夜色精品亚洲噜噜国产mv| 欧美俄罗斯性视频| 中文字幕欧美精品在线| 亚洲xxxxx| 蜜臀久久99精品久久久久久宅男| 久久亚洲精品视频| 国产视频精品xxxx| 久久天天躁狠狠躁夜夜爽蜜月| 亚洲精品久久7777777| 亚洲a在线播放| 国产精品自产拍高潮在线观看| 中文字幕在线看视频国产欧美| 久久中文字幕国产| 国产98色在线| 欧美大尺度电影在线观看| 成人黄色av播放免费| 亚洲国产精品嫩草影院久久| 亚洲一区二区中文字幕| 91国产一区在线| 欧美性猛交xxxx富婆弯腰| 亚洲欧洲国产一区| 国产精品久久国产精品99gif| 55夜色66夜色国产精品视频| 黄色一区二区三区| 欧美激情国产精品| 色综合91久久精品中文字幕| 精品一区二区电影| 中文字幕亚洲图片| 精品女同一区二区三区在线播放| 中文字幕国产亚洲| 亚洲免费视频一区二区| 国产aaa精品| 欧美中文在线字幕| 国产精品久久久久久久久免费| 欧美电影免费观看高清完整| 国产欧美精品一区二区三区-老狼| 日韩av中文字幕在线| 成人综合网网址| 久久亚洲国产精品| 精品久久久久久久久久久| 国产精品久久久久久久9999| 亚洲美女又黄又爽在线观看| 亚洲精品一区二区三区婷婷月| 日韩一级黄色av| 欧美电影免费观看高清| 成人性生交大片免费观看嘿嘿视频| 日韩在线播放视频| 97超级碰碰碰久久久| 91在线高清免费观看| 国内精品久久久久久中文字幕| 国产在线精品成人一区二区三区| 热久久免费视频精品| 亚洲偷熟乱区亚洲香蕉av| 夜夜嗨av色一区二区不卡| 亚洲电影免费观看高清完整版在线| 日韩av在线最新| 国产成人拍精品视频午夜网站| 亚洲精品自拍偷拍| 亚洲系列中文字幕| 亚洲精品有码在线| 国产亚洲精品一区二区| 亚洲欧美国产精品va在线观看| 日韩电影免费观看在线观看| 在线视频亚洲欧美| 日韩在线免费高清视频| 精品国产一区二区三区久久狼黑人| 欧美国产日韩一区二区三区| 高清欧美一区二区三区| 日韩va亚洲va欧洲va国产| 国产福利精品av综合导导航| 久久亚洲综合国产精品99麻豆精品福利| 色先锋久久影院av| 国产日韩精品在线播放| 久久久精品在线观看| 久久精品中文字幕一区| 成人国产精品久久久久久亚洲| 日韩精品视频在线观看免费| 国产福利精品av综合导导航| 欧美日韩国产综合新一区| 亚洲色图五月天| 97在线视频免费播放| 中文字幕亚洲自拍| 亚洲欧美另类中文字幕| 国产精品免费一区| 岛国精品视频在线播放| 综合网中文字幕| 国产成人精品一区二区在线| 久久久日本电影| 亚洲色图国产精品| 欧美贵妇videos办公室| 日韩黄色高清视频| 青青草原一区二区| 亚洲精品日韩久久久| 欧美激情伊人电影| 欧美尺度大的性做爰视频| 中日韩午夜理伦电影免费| 91精品国产91久久久久久吃药| 亚洲欧美国产精品专区久久| 久久视频中文字幕| 国产一区在线播放| 欧美日韩免费观看中文| 国产精品免费看久久久香蕉| 亚洲高清一区二| 国产精品日韩在线| 欧美日韩激情小视频| 日韩欧美精品在线观看| 亚洲第一色在线| 成人一区二区电影| 国产精品欧美日韩一区二区| 久久久久久久久久国产| 欧美极品美女电影一区| 91精品国产综合久久久久久久久| 性欧美长视频免费观看不卡| 国产色婷婷国产综合在线理论片a| 欧美激情视频一区二区| 97在线日本国产| 日韩精品视频在线播放| 欧美电影电视剧在线观看| 日韩在线免费视频观看| 亚洲一区二区少妇| 久久精品99久久香蕉国产色戒| 亚洲丝袜在线视频| 欧美电影在线观看完整版| 亚洲性xxxx| 2021国产精品视频| 中文字幕亚洲一区二区三区| 亚洲日本中文字幕| 日韩av电影免费观看高清| 中文字幕亚洲专区| 在线播放日韩专区| 日韩av男人的天堂| 国产精品99久久久久久久久| 91精品国产综合久久香蕉| 成人免费视频xnxx.com| 国产mv久久久| 欧美激情a∨在线视频播放| 91久久国产婷婷一区二区| 亚洲美女又黄又爽在线观看|