1. 到指定网站批量下载word文档文件(类似爬虫),定期更新。(第一步不是必须,待议)
2. 将下载的word文档里面的内容按照段落分层等拆分成不同部分,并且给该部分内容按照语义自动贴上标签。
标签有初始参考值列表,如果没发现合适的,也可以人工补充,每次人工补充后的标签自动列入标签库。
3. 将分类标签后的内容做成网站,可以按照公司名字和指定标签搜索。
详见示范文档附件。
1.1.下载需要分析的文档示例.南通海星.docx 2.2. 生成的结果示例.xlsx
个人用,预算有限。