唐小石+梁洪利
摘要:本文提出了一種基于關鍵詞檢索技術的PowerPoint文檔自動生成方法,并簡要介紹了該方法的總體構思和實現步驟。
關鍵詞:信息技術;關鍵詞檢索;PowerPoint
● 背景
目前,PowerPoint(以下簡稱PPT)被廣泛應用于院校、機關、企事業單位等多個領域的教學、演示工作,并發揮著重要的作用。PPT容易上手,方便操作,但制作一件內容豐富、圖文并茂、樣式美觀的優秀作品卻費時費力,往往需花費數天甚至數周的時間。開發軟件工具,充分利用目前成熟的計算機信息檢索和媒體資源管理技術實現PPT演示文檔自動生成,能夠為PPT的使用者提供極大的方便。
● 總體構思
要實現PPT演示文檔的自動生成,首先需對制作文稿進行初級解析,確定各級標題、自然段及自然句,組合成為初始分頁,將初始分頁自動套入事先定義好的PPT模版;其次對初始分頁中的正文進行二級解析,提取關鍵詞,依據該關鍵詞搜索、拾取媒體資源庫中的圖片素材,計算版面空間,將這些圖片合理布設到PPT的空白位置,實現PPT的圖文混排,最終生成PPT演示文檔,供用戶直接使用或進一步修改完善。方案原理示意圖如圖1。
● 功能實現
1.制作、整理關鍵詞庫
合理選擇關鍵詞并科學編目建庫是本方案最終實現的基礎和先決條件。用戶制作PPT演示文稿針對各自行業,題材固定,內容明確。應針對本行業建立相應關鍵詞詞庫,并進行合理優化,以縮小搜索范圍,提高使用效率。關鍵詞的來源多種多樣,目前可以在網上方便查找一般行業的關鍵詞詞庫;對于一些特殊行業關鍵詞庫可以利用軟件通過對行業日常公文、報告的推測獲得。
2.利用關鍵詞對圖片素材進行編目標注,建立媒體資源庫
利用本方案自動生成后的演示文稿,其內容的豐富程度是由可以搜索到的圖片資源數量決定的。網上的圖片資源較多,可以通過關鍵詞方便地搜索、下載,但是利用軟件自動批量拾取比較困難。應該充分利用單位現有媒體資源管理系統或者建立一個本地圖片資源庫,并利用關鍵詞庫對其進行標注、編目。在使用中利用關鍵字比對的方法實現自動搜索、拾取。
如果無法獲得大量的圖片資源供搜索使用,也可以利用有限的背景底圖生成幾乎同樣效果的演示文檔。背景底圖是指沒有明顯指向,不針對某個具體關鍵字,但能夠呼應主題、烘托氛圍、提示內容的圖片。底圖背景一般可由對優秀的美術、攝影作品進行適當降低透明度或透明度漸變處理得到。利用軟件自動生成PPT演示文稿,應將背景底圖作為一種特殊的圖片資源進行積累和管理。
3.制作PPT模版庫
PPT模版決定了PPT演示文稿的格式和藝術性。互聯網提供了大量優秀的PPT模版,要利用這些資源,首先應對其進行嚴格規范。規范的內容包含樣式和規格兩個方面,其中樣式涵蓋配色、裝飾、構圖、底圖等要素;而規格包含標題、正文字體、字號,圖片大小、布設位置等要素。另外,應充分考慮PPT模版應用的靈活性和適應性。比如,不同的文稿中標題文字字數差別很大,為避免套入模版時過長文字發生溢出現象,應對文字段落格式的相應選項進行設置。
同時,軟件應具有PPT模版庫查詢預覽功能,模版庫按照文檔內容、演示規格以及藝術特點等項內容進行整理、分類,以方便用戶根據具體情況和個人喜好查閱調用。
4.對制作文檔的解析、拆分(如圖2)
用于制作演示文稿的文檔一般由Word軟件編輯完成,將Word文檔轉為PPT演示文稿原本十分方便快捷,但要利用這項功能要求用戶嚴格套用Word軟件的版式設計,而我們在使用Word軟件時往往缺乏這種習慣;另外還有一些文檔來自其他文字編輯軟件或者直接復制粘貼得到。軟件應首先對這些文檔進行去格式化處理,再進行解析與分切。以換行符分割為自然段,以句號、感嘆號等為隔斷分切為自然句,依照標題與層次格式、體例編排確定各級標題。通過分析句子的起始字符確定句子的類型,如根據傳統編排法,遇到“一、”、“二、”起始的句子可以定為一級標題,遇到“(一)”、“(二)”起始的句子定為二級標題,以此類推。其他編排方法同樣照此處理。對于無任何標題內容匹配的句子則定義為正文。
將每句正文以及所對應的各級標題組合成為初始分頁,用于生成演示文稿的單個演示頁面。
5.查詢關鍵詞,拾取相應圖片
將正文與關鍵詞庫內容逐條比對,提取該正文中包含的關鍵詞,以此作為圖片資源拾取依據。如果該段正文中關鍵詞較多,應按照關鍵詞出現頻率或主次順序適當刪減,保證最終添加到演示文檔頁面中的圖片數量不超過4個;如未提取到關鍵詞,或者關鍵詞未能查詢到相應圖片,為避免演示頁面出現圖片空缺,應從底圖背景庫中選擇適當底圖圖片作為頁面背景,以對畫面內容進行補充。選擇的依據可以是段落關鍵詞、上一頁關鍵詞等,或者采用手工選取的方式完成。
6.套用模版自動生成PPT文檔
初始分頁中的文字和圖片內容確定后,便可套入選定的PPT模版,其中標題及正文內容較為固定,方便套用;而圖片內容因為數量、規格無法預知,應將版面剩余空間、留空,圖片數量、尺寸等作為變量,利用相應計算公式得出圖片具體布放位置和搭接方式。
目前微軟公司針對Visual Studio.net提供了Office軟件函數庫用于二次開發,如利用C#等軟件進行編程時應首先調用Microsoft PowerPoint對象庫,并引用相關COM組件。具體可參考微軟網站(HOWTO:在Visual C#.NET中使用自動化創建并顯示PowerPoint演示文稿)。
● 結束語
PPT演示文檔的制作工作充滿藝術性,利用計算機軟件進行自動設計目前只能說是處于起步階段。但經過探索和實踐,目前已能夠利用軟件在短短幾分鐘內將一篇數千字文稿解析、分切,制作出樣式美觀、內容較為豐富、圖文并茂的PPT演示文檔初稿,為后續的藝術加工節省下大量時間。
相信隨著計算機視頻媒體資源管理系統功能的日益完善,利用更大規模的全文搜索及信息提取技術對電視制作腳本進行解析,并進而實現視頻節目的自動初編同樣具有技術可行性。
參考文獻:
[1]羅剛.使用C#開發搜索引擎[M].北京:清華大學出版社,2012.
[2]Kathleen McGrathPaul Stubbs. VSTO開發者指南[M].李永倫,譯.北京:機械工業出版社,2009.
endprint
摘要:本文提出了一種基于關鍵詞檢索技術的PowerPoint文檔自動生成方法,并簡要介紹了該方法的總體構思和實現步驟。
關鍵詞:信息技術;關鍵詞檢索;PowerPoint
● 背景
目前,PowerPoint(以下簡稱PPT)被廣泛應用于院校、機關、企事業單位等多個領域的教學、演示工作,并發揮著重要的作用。PPT容易上手,方便操作,但制作一件內容豐富、圖文并茂、樣式美觀的優秀作品卻費時費力,往往需花費數天甚至數周的時間。開發軟件工具,充分利用目前成熟的計算機信息檢索和媒體資源管理技術實現PPT演示文檔自動生成,能夠為PPT的使用者提供極大的方便。
● 總體構思
要實現PPT演示文檔的自動生成,首先需對制作文稿進行初級解析,確定各級標題、自然段及自然句,組合成為初始分頁,將初始分頁自動套入事先定義好的PPT模版;其次對初始分頁中的正文進行二級解析,提取關鍵詞,依據該關鍵詞搜索、拾取媒體資源庫中的圖片素材,計算版面空間,將這些圖片合理布設到PPT的空白位置,實現PPT的圖文混排,最終生成PPT演示文檔,供用戶直接使用或進一步修改完善。方案原理示意圖如圖1。
● 功能實現
1.制作、整理關鍵詞庫
合理選擇關鍵詞并科學編目建庫是本方案最終實現的基礎和先決條件。用戶制作PPT演示文稿針對各自行業,題材固定,內容明確。應針對本行業建立相應關鍵詞詞庫,并進行合理優化,以縮小搜索范圍,提高使用效率。關鍵詞的來源多種多樣,目前可以在網上方便查找一般行業的關鍵詞詞庫;對于一些特殊行業關鍵詞庫可以利用軟件通過對行業日常公文、報告的推測獲得。
2.利用關鍵詞對圖片素材進行編目標注,建立媒體資源庫
利用本方案自動生成后的演示文稿,其內容的豐富程度是由可以搜索到的圖片資源數量決定的。網上的圖片資源較多,可以通過關鍵詞方便地搜索、下載,但是利用軟件自動批量拾取比較困難。應該充分利用單位現有媒體資源管理系統或者建立一個本地圖片資源庫,并利用關鍵詞庫對其進行標注、編目。在使用中利用關鍵字比對的方法實現自動搜索、拾取。
如果無法獲得大量的圖片資源供搜索使用,也可以利用有限的背景底圖生成幾乎同樣效果的演示文檔。背景底圖是指沒有明顯指向,不針對某個具體關鍵字,但能夠呼應主題、烘托氛圍、提示內容的圖片。底圖背景一般可由對優秀的美術、攝影作品進行適當降低透明度或透明度漸變處理得到。利用軟件自動生成PPT演示文稿,應將背景底圖作為一種特殊的圖片資源進行積累和管理。
3.制作PPT模版庫
PPT模版決定了PPT演示文稿的格式和藝術性。互聯網提供了大量優秀的PPT模版,要利用這些資源,首先應對其進行嚴格規范。規范的內容包含樣式和規格兩個方面,其中樣式涵蓋配色、裝飾、構圖、底圖等要素;而規格包含標題、正文字體、字號,圖片大小、布設位置等要素。另外,應充分考慮PPT模版應用的靈活性和適應性。比如,不同的文稿中標題文字字數差別很大,為避免套入模版時過長文字發生溢出現象,應對文字段落格式的相應選項進行設置。
同時,軟件應具有PPT模版庫查詢預覽功能,模版庫按照文檔內容、演示規格以及藝術特點等項內容進行整理、分類,以方便用戶根據具體情況和個人喜好查閱調用。
4.對制作文檔的解析、拆分(如圖2)
用于制作演示文稿的文檔一般由Word軟件編輯完成,將Word文檔轉為PPT演示文稿原本十分方便快捷,但要利用這項功能要求用戶嚴格套用Word軟件的版式設計,而我們在使用Word軟件時往往缺乏這種習慣;另外還有一些文檔來自其他文字編輯軟件或者直接復制粘貼得到。軟件應首先對這些文檔進行去格式化處理,再進行解析與分切。以換行符分割為自然段,以句號、感嘆號等為隔斷分切為自然句,依照標題與層次格式、體例編排確定各級標題。通過分析句子的起始字符確定句子的類型,如根據傳統編排法,遇到“一、”、“二、”起始的句子可以定為一級標題,遇到“(一)”、“(二)”起始的句子定為二級標題,以此類推。其他編排方法同樣照此處理。對于無任何標題內容匹配的句子則定義為正文。
將每句正文以及所對應的各級標題組合成為初始分頁,用于生成演示文稿的單個演示頁面。
5.查詢關鍵詞,拾取相應圖片
將正文與關鍵詞庫內容逐條比對,提取該正文中包含的關鍵詞,以此作為圖片資源拾取依據。如果該段正文中關鍵詞較多,應按照關鍵詞出現頻率或主次順序適當刪減,保證最終添加到演示文檔頁面中的圖片數量不超過4個;如未提取到關鍵詞,或者關鍵詞未能查詢到相應圖片,為避免演示頁面出現圖片空缺,應從底圖背景庫中選擇適當底圖圖片作為頁面背景,以對畫面內容進行補充。選擇的依據可以是段落關鍵詞、上一頁關鍵詞等,或者采用手工選取的方式完成。
6.套用模版自動生成PPT文檔
初始分頁中的文字和圖片內容確定后,便可套入選定的PPT模版,其中標題及正文內容較為固定,方便套用;而圖片內容因為數量、規格無法預知,應將版面剩余空間、留空,圖片數量、尺寸等作為變量,利用相應計算公式得出圖片具體布放位置和搭接方式。
目前微軟公司針對Visual Studio.net提供了Office軟件函數庫用于二次開發,如利用C#等軟件進行編程時應首先調用Microsoft PowerPoint對象庫,并引用相關COM組件。具體可參考微軟網站(HOWTO:在Visual C#.NET中使用自動化創建并顯示PowerPoint演示文稿)。
● 結束語
PPT演示文檔的制作工作充滿藝術性,利用計算機軟件進行自動設計目前只能說是處于起步階段。但經過探索和實踐,目前已能夠利用軟件在短短幾分鐘內將一篇數千字文稿解析、分切,制作出樣式美觀、內容較為豐富、圖文并茂的PPT演示文檔初稿,為后續的藝術加工節省下大量時間。
相信隨著計算機視頻媒體資源管理系統功能的日益完善,利用更大規模的全文搜索及信息提取技術對電視制作腳本進行解析,并進而實現視頻節目的自動初編同樣具有技術可行性。
參考文獻:
[1]羅剛.使用C#開發搜索引擎[M].北京:清華大學出版社,2012.
[2]Kathleen McGrathPaul Stubbs. VSTO開發者指南[M].李永倫,譯.北京:機械工業出版社,2009.
endprint
摘要:本文提出了一種基于關鍵詞檢索技術的PowerPoint文檔自動生成方法,并簡要介紹了該方法的總體構思和實現步驟。
關鍵詞:信息技術;關鍵詞檢索;PowerPoint
● 背景
目前,PowerPoint(以下簡稱PPT)被廣泛應用于院校、機關、企事業單位等多個領域的教學、演示工作,并發揮著重要的作用。PPT容易上手,方便操作,但制作一件內容豐富、圖文并茂、樣式美觀的優秀作品卻費時費力,往往需花費數天甚至數周的時間。開發軟件工具,充分利用目前成熟的計算機信息檢索和媒體資源管理技術實現PPT演示文檔自動生成,能夠為PPT的使用者提供極大的方便。
● 總體構思
要實現PPT演示文檔的自動生成,首先需對制作文稿進行初級解析,確定各級標題、自然段及自然句,組合成為初始分頁,將初始分頁自動套入事先定義好的PPT模版;其次對初始分頁中的正文進行二級解析,提取關鍵詞,依據該關鍵詞搜索、拾取媒體資源庫中的圖片素材,計算版面空間,將這些圖片合理布設到PPT的空白位置,實現PPT的圖文混排,最終生成PPT演示文檔,供用戶直接使用或進一步修改完善。方案原理示意圖如圖1。
● 功能實現
1.制作、整理關鍵詞庫
合理選擇關鍵詞并科學編目建庫是本方案最終實現的基礎和先決條件。用戶制作PPT演示文稿針對各自行業,題材固定,內容明確。應針對本行業建立相應關鍵詞詞庫,并進行合理優化,以縮小搜索范圍,提高使用效率。關鍵詞的來源多種多樣,目前可以在網上方便查找一般行業的關鍵詞詞庫;對于一些特殊行業關鍵詞庫可以利用軟件通過對行業日常公文、報告的推測獲得。
2.利用關鍵詞對圖片素材進行編目標注,建立媒體資源庫
利用本方案自動生成后的演示文稿,其內容的豐富程度是由可以搜索到的圖片資源數量決定的。網上的圖片資源較多,可以通過關鍵詞方便地搜索、下載,但是利用軟件自動批量拾取比較困難。應該充分利用單位現有媒體資源管理系統或者建立一個本地圖片資源庫,并利用關鍵詞庫對其進行標注、編目。在使用中利用關鍵字比對的方法實現自動搜索、拾取。
如果無法獲得大量的圖片資源供搜索使用,也可以利用有限的背景底圖生成幾乎同樣效果的演示文檔。背景底圖是指沒有明顯指向,不針對某個具體關鍵字,但能夠呼應主題、烘托氛圍、提示內容的圖片。底圖背景一般可由對優秀的美術、攝影作品進行適當降低透明度或透明度漸變處理得到。利用軟件自動生成PPT演示文稿,應將背景底圖作為一種特殊的圖片資源進行積累和管理。
3.制作PPT模版庫
PPT模版決定了PPT演示文稿的格式和藝術性。互聯網提供了大量優秀的PPT模版,要利用這些資源,首先應對其進行嚴格規范。規范的內容包含樣式和規格兩個方面,其中樣式涵蓋配色、裝飾、構圖、底圖等要素;而規格包含標題、正文字體、字號,圖片大小、布設位置等要素。另外,應充分考慮PPT模版應用的靈活性和適應性。比如,不同的文稿中標題文字字數差別很大,為避免套入模版時過長文字發生溢出現象,應對文字段落格式的相應選項進行設置。
同時,軟件應具有PPT模版庫查詢預覽功能,模版庫按照文檔內容、演示規格以及藝術特點等項內容進行整理、分類,以方便用戶根據具體情況和個人喜好查閱調用。
4.對制作文檔的解析、拆分(如圖2)
用于制作演示文稿的文檔一般由Word軟件編輯完成,將Word文檔轉為PPT演示文稿原本十分方便快捷,但要利用這項功能要求用戶嚴格套用Word軟件的版式設計,而我們在使用Word軟件時往往缺乏這種習慣;另外還有一些文檔來自其他文字編輯軟件或者直接復制粘貼得到。軟件應首先對這些文檔進行去格式化處理,再進行解析與分切。以換行符分割為自然段,以句號、感嘆號等為隔斷分切為自然句,依照標題與層次格式、體例編排確定各級標題。通過分析句子的起始字符確定句子的類型,如根據傳統編排法,遇到“一、”、“二、”起始的句子可以定為一級標題,遇到“(一)”、“(二)”起始的句子定為二級標題,以此類推。其他編排方法同樣照此處理。對于無任何標題內容匹配的句子則定義為正文。
將每句正文以及所對應的各級標題組合成為初始分頁,用于生成演示文稿的單個演示頁面。
5.查詢關鍵詞,拾取相應圖片
將正文與關鍵詞庫內容逐條比對,提取該正文中包含的關鍵詞,以此作為圖片資源拾取依據。如果該段正文中關鍵詞較多,應按照關鍵詞出現頻率或主次順序適當刪減,保證最終添加到演示文檔頁面中的圖片數量不超過4個;如未提取到關鍵詞,或者關鍵詞未能查詢到相應圖片,為避免演示頁面出現圖片空缺,應從底圖背景庫中選擇適當底圖圖片作為頁面背景,以對畫面內容進行補充。選擇的依據可以是段落關鍵詞、上一頁關鍵詞等,或者采用手工選取的方式完成。
6.套用模版自動生成PPT文檔
初始分頁中的文字和圖片內容確定后,便可套入選定的PPT模版,其中標題及正文內容較為固定,方便套用;而圖片內容因為數量、規格無法預知,應將版面剩余空間、留空,圖片數量、尺寸等作為變量,利用相應計算公式得出圖片具體布放位置和搭接方式。
目前微軟公司針對Visual Studio.net提供了Office軟件函數庫用于二次開發,如利用C#等軟件進行編程時應首先調用Microsoft PowerPoint對象庫,并引用相關COM組件。具體可參考微軟網站(HOWTO:在Visual C#.NET中使用自動化創建并顯示PowerPoint演示文稿)。
● 結束語
PPT演示文檔的制作工作充滿藝術性,利用計算機軟件進行自動設計目前只能說是處于起步階段。但經過探索和實踐,目前已能夠利用軟件在短短幾分鐘內將一篇數千字文稿解析、分切,制作出樣式美觀、內容較為豐富、圖文并茂的PPT演示文檔初稿,為后續的藝術加工節省下大量時間。
相信隨著計算機視頻媒體資源管理系統功能的日益完善,利用更大規模的全文搜索及信息提取技術對電視制作腳本進行解析,并進而實現視頻節目的自動初編同樣具有技術可行性。
參考文獻:
[1]羅剛.使用C#開發搜索引擎[M].北京:清華大學出版社,2012.
[2]Kathleen McGrathPaul Stubbs. VSTO開發者指南[M].李永倫,譯.北京:機械工業出版社,2009.
endprint