首页 股票代码 正文

中国证券网官网(中国证券交易所官网)

wx头像 wx 2022-04-26 05:23:03 6
...
<p>以我国证券网(cnstock/help/ditu.htm)为例,经过当时要闻分区链接到新闻列表页收集正文数据:</p><p>第一步:新建使命</p><p>①点击左上角“加号”新建使命,如图1:</p><p>②在弹窗里填写收集地址,使命称号,如图2:</p><p>③点击下一步,挑选进行数据抽取仍是链接抽取,本次收集要闻列表页新闻的正文数据,正文数据是经过点击列表链接进入的,所以本次需求抽取列表链接,所以点击抽取链接,如图3:</p><p>第二步:经过地址过滤,得到所需的分区链接。</p><p>①点击收集预览,在收集预览中有于方针链接类似的其他链接,可经过地址过滤得到分区链接。找到所需求的分区链接,差异于其他链接“newsstock/news/sns_yw”,右击仿制链接,如图4所示。</p><p>②勾选地址过滤,过滤规矩挑选包含,将仿制的方针地址粘入,得到要闻分区链接,如图5所示。</p><p>③点击收集预览承认链接是否过滤彻底,如图6</p><p>第三步:填写模板二示例地址并新建数据抽取</p><p>①将模板一过滤得到分区链接,作为模板二的示例地址。如:newsstock/news/sns_qy/index.html, 见图7:</p><p>②创立列表链接抽取、翻页链接抽取。直接点击模板二,点击上面“新建链接抽取”</p><p>按钮,得到链接抽取,如图8:</p><p>③按住Ctrl+鼠标左键,进行区域挑选,按住Shift+鼠标左键,扩展挑选区域,点击“承认选区”按钮,如图9:</p><p>④点击收集预览承认链接是否过滤彻底,如图10:</p><p>第四步:经过标题过滤,过滤翻页链接</p><p>①点击收集预览,在收集预览中有于方针链接类似的其他链接,可经过地址过滤得到列表链接。找到所需求的列表链接,调查得出所需求的方针链接都包含“newsstock/news/sns_qy/”,右击仿制链接,如图11所示。</p><p>②勾选地址过滤,过滤规矩挑选包含,填入“newsstock/news/sns_qy/”,得到列表链接,如图12所示。</p><p>③点击模板预览承认链接是否过滤彻底,如图13</p><p>第五步:创立新的模板,并新建数据抽取</p><p>①在模板装备,点击“新建模板”</p><p>按钮,得到新建模板,重命名为正文数据模板,如图14。</p><p>②将模板二新建链接抽取过滤得到的恣意一条链接,作为模板三的示例地址。如:newsstock/news,yw-201811-4301403.htm, 见图15:</p><p>③新建数据抽取。直接点击模板二,点击上面“新建数据抽取”</p><p>按钮,得到数据抽取,如图16。</p><p>④相关模板</p><p>在软件中模板的相相关系,与网页中链接跳转的联系相同。</p><p>依据网页跳转规则,将“新建链接抽取”相关模板“新建模板:03”,如图17:</p><p style="text-align:center;"><img src="//img.changhecl.com/img_changhecl_com/zb_users/upload/water/2022-04-26/6267113e09d23.jpeg" title="中国证券网官网(中国证券交易所官网)" alt="中国证券网官网(中国证券交易所官网)"></p><p>第六步:创立/挑选表单</p><p>①在ForeSpider爬虫中,表单是能够复用的,所以能够在数据表单出直接挑选之前建过的表单,也能够经过表单ID来进行查找并相关数据表单。此处运用的办法三,如图18。</p><p>办法一:经过下拉菜单或表单ID挑选已有表单</p><p>办法二:点击创立表单进入快速建表页面,新建表单</p><p>办法三:点击“收集装备”-“数据建表”,点击采“收集表单”后边的</p><p>如图18。</p><p>②装备表单</p><p>依据所需内容,装备表单字段(即表头),此处装备了包含网页主键、作者、收集来历、网页获取时刻、内容、发布时刻、标题称号、网页地址、发布来历、副标题、图片11个字段,右上角保存,表单如图19。</p><p>③在数据抽取链接处相关表单,如图20。</p><p>第七步:字段取值</p><p>取值办法:按住Ctrl+鼠标左键,进行区域挑选,按住Shift+鼠标左键,扩展挑选区域。</p><p>title字段,如图21</p><p>第八步:模板预览</p><p>①鼠标右键点击“数据抽取”,然后点击“模板预览”,如图22</p><p>②预览成果如图23:</p><p>第九步:收集预览</p><p>①点击右上角收集预览,如图24。</p><p>②双击恣意一条链接,看看是否能够得到和网页对应的规整的数据,如图25、图26。</p>
本文地址:https://www.changhecl.com/140705.html

退出请按Esc键