|
ccseo.net 14:00:21今天我们的课程安排是2点到4点,先讲3个实际操作案例。再与大家交流,融通采集的原理。有不懂有可以在案例完后提问。 |
|
Borneol 14:02:09报告一下时间,现在时间北京时间 14:01分了。 |
|
技术支持邬 14:02:18今天,继续跟大家分享一下,在虫虫博客2009软件文章采集的一些技巧! |
|
ccseo.net 14:02:241.、 http://www.chinapipe.net/ 冷咖啡 http://www.chinapipe.net/technology/ 2. http://news.dichan.sina.com.cn/gz/index.html 聆听自然 3. http://www.im286.cn/zixun/13843.html 甲乙丙丁 ccseo.net 14:02:16 今天挑讲的案例是这三位用户的,要求采集的站。 主讲人是我们的技术支持小邬。开始吧 |
|
技术支持邬 14:03:16我们先拿“冷咖啡”所提出的网站为例:http://www.chinapipe.net/technology/ |
|
技术支持邬 14:05:12将鼠标放到分页链接上,就可以查看到文章列表的分页地址: http://www.chinapipe.net/technology/?tp=[page] |
|
努力进取 14:05:45截图 |
|
技术支持邬 14:05:50分页地址,只有[page]在变 |
|
技术支持邬 14:06:06![]() |
|
技术支持邬 14:07:50因此,我们在“1.文章列表页面地址的设置”应该写:http://www.chinapipe.net/technology/?tp=[page] ![]() |
|
技术支持邬 14:08:42页码编号的最大数目可以自己设定 |
|
技术支持邬 14:10:57打开列表的第一页,查看“页面源代码”,找到文章标题的链接代码 |
|
努力进取 14:12:03截图 |
|
技术支持邬 14:12:58![]() |
|
技术支持邬 14:13:27关键代码是:<div style="float: left;"><div style="float: left;" class="px14">·<a href="display.asp?technology_id=2031" target="_blank">塑料在城市排水管道系统中的应用</a></div> |
|
努力进取 14:13:58看的是那个网页的啊 |
|
技术支持邬 14:14:16http://www.chinapipe.net/technology/?tp=1 是这个页面 |
|
努力进取 14:14:23ok |
|
技术支持邬 14:14:36文章列表的第一页,页面源代码 |
|
技术支持邬 14:15:45提取文章标题链接所用的正则表达式为: class="px14">[\s\S]*?<a href="(.*?)" target="_blank"> |
|
技术支持邬 14:15:58![]() |
|
技术支持邬 14:17:10![]() 这就是我们要提取的源代码 |
|
技术支持邬 14:17:34选择从class="px14"这里开始 |
|
大米 14:18:11提取文章标题链接所用的正则表达式为: class="px14">[\s\S]*?<a href="(.*?)" target="_blank"> |
|
大米 14:18:15这个怎么提取出来的 |
|
技术支持邬 14:18:17[\s\S]*?是用来过滤源代码当中的"."的 |
|
技术支持邬 14:18:38![]() |
|
技术支持邬 14:19:20我们不能直接从<a href="这里开始过虑的 |
|
Borneol 14:19:24这条麻烦了,不会。 |
|
Borneol 14:19:27正则不会 |
|
大米 14:19:38![]() |
|
技术支持邬 14:20:14我知道,一般在写规则的时候,就是用到那么几个,只要记住它的用途就行了 |
|
大米 14:20:23![]() |
|
大米 14:20:56这样定了就是专门来采集他们的文章了是吧 |
|
大米 14:21:03就采集这个站上的 |
|
技术支持邬 14:21:07其实不是很难,关键在于查看源html代码, |
|
冷咖啡 14:21:41这样就可以采集了? |
|
冷咖啡 14:21:50我现在先试下,正好是我的。嘿嘿 |
|
大米 14:21:51那这边儿怎么弄 |
|
大米 14:21:47![]() |
|
努力进取 14:21:55没看懂 |
|
努力进取 14:22:01什么意思 |
|
努力进取 14:22:04晕 |
|
技术支持邬 14:22:05不能完全这么说,这样看这个网站的文章列表的html代码规则 |
|
大米 14:22:16小邬啊, 有没有英文站的范例 |
|
技术支持邬 14:22:21有的 |
|
大米 14:22:28拿一个来看看 |
|
技术支持邬 14:22:28一会儿会讲到的 |
|
大米 14:22:33好的 |
|
技术支持邬 14:22:45我们先把这个讲完了吧 |
|
大米 14:22:57![]() |
|
技术支持邬 14:24:30我们刚才讲到了[\s\S]*?这个正则的功能,它就是用过包括空格、回车在内的一些字符 |
|
技术支持邬 14:24:30我们刚才讲到了[\s\S]*?这个正则的功能,它就是用过包括空格、回车在内的一些字符 |
|
努力进取 14:26:37(.*?)代表shenme ?? |
|
努力进取 14:26:57帖子网址 |
|
努力进取 14:27:25哈哈 |
|
技术支持邬 14:27:53![]() [\s\S]*?写在class="px14"与<a href="中间,那么它就是来过渡标题前面的那个黑点的 |
|
努力进取 14:28:21ok |
|
大米 14:28:24嗯,明白了 |
|
技术支持邬 14:28:46(.*?),这个就是软件真正所要提取链接地址 |
|
努力进取 14:29:04 |
|
大米 14:29:30那软件是怎么知道我是在http://www.chinapipe.net/technology/?tp=1上面提取文间的 |
|
大米 14:29:33文章的 |
|
大米 14:29:56喔, 知道了 |
|
大米 14:30:02![]() |
|
大米 14:30:08![]() |
|
技术支持邬 14:30:15在第三个表达式里,还有一个([\s\S]*?),这个也是用"()"括起来的,用小括号起来的,都是软件真正所要提取的内容 |
|
Borneol 14:32:02我觉得难点就是正则,跟火车头类似。正则得好好学学。 |
|
技术支持邬 14:32:56http://www.chinapipe.net/technology/?tp=[page] 第一个表达式,你这么写,编号[page]设置为1--10 那么软件,会去自动依次请求: http://www.chinapipe.net/technology/?tp=1 http://www.chinapipe.net/technology/?tp=2 http://www.chinapipe.net/technology/?tp=2 …………………………………………………… http://www.chinapipe.net/technology/?tp=10 |
|
大米 14:33:34![]() |
|
技术支持邬 14:33:421到10页,都会自动请求的。 |
|
大米 14:34:00这个懂了 |
|
冷咖啡 14:34:05那是不是一般情况下,采集的时候,第三个表达式不用动的? |
|
技术支持邬 14:34:31本软件使用到的正规很少,就固定那么几个。 多用几次,你就会了 |
|
技术支持邬 14:35:06会的,就是第三个稍微复杂一点点 |
|
大米 14:35:31第三种表达式怎么个用法,在什么样的情况下用? |
|
技术支持邬 14:35:29第一、二个,大家差不多明白了吧 |
|
努力进取 14:35:48不太 |
|
大米 14:36:12其实就是在固定的地方用固定的东西 |
|
冷咖啡 14:36:20第一第二的道理明白了,后面要多操作才知道会不会 |
|
努力进取 14:36:21恩 |
|
技术支持邬 14:36:45http://www.chinapipe.net/technology/?tp=1 在这个文章列表里,我们可以随便点击一篇进去看看 |
|
大米 14:37:12点进去啦, 看啥啊 |
|
技术支持邬 14:37:15http://www.chinapipe.net/technology/display.asp?technology_id=2031 我点击的是这一篇 |
|
技术支持邬 14:37:31打开这个页面的html源代码 |
|
大米 14:37:36 display.asp?technology_id=2031 |
|
技术支持邬 14:38:01我们先在html源代码里找标题 |
|
技术支持邬 14:38:27可以通过记事本查找功能来找 |
|
技术支持邬 14:39:39![]() |
|
技术支持邬 14:40:45最终的表达式,是这么写的。 ![]() |
|
Borneol 14:42:44有点意思 |
|
技术支持邬 14:42:46我们从<span class="title4">这里开始过滤提取 夹在<span class="title4">与</span>中间的(.*?),这个就是我们所要提取的文章标题 |
|
大米 14:43:06 |
|
大米 14:43:08为什么要加 ,人家源代码上没有空格或其它符号啊 |
|
Borneol 14:43:34[\s\S]*? 这个表示通用的东 |
|
努力进取 14:44:02通用的什么?? |
|
Borneol 14:44:13所有,代码内容都包括。 |
|
努力进取 14:44:27举例 |
|
Borneol 14:44:37过滤代码就过滤掉了。 |
|
技术支持邬 14:44:38<span class="title4">塑料在城市排水管道系统中的应用</span> 软件在识别这一段代码的时候,会把<span class="title4">与</span>中间的汉字,提取出来作为文章标题。这也是我们所想达到的。 |
|
大米 14:44:44可是人家上面不是啥也没有, 我们到时候弄的时候, 怎么知道说哪个地主要插这个通用的东西 |
|
Borneol 14:45:12<span class="title4">塑料在城市排水管道系统中的应用</span> 软件在识别这一段代码的时候,会把<span class="title4">与</span>中间的汉字,提取出来作为文章标题。这也是我们所想达到的。 |
|
Borneol 14:45:29. 是汉字,不是代码,对吧? |
|
Borneol 14:45:42代码好像没有“点” |
|
Borneol 14:45:51好像明白一点了。 |
|
技术支持邬 14:46:08这里面的. 不是代表汉字 |
|
技术支持邬 14:47:03在正则表达式里,"点"是用来代表除“\n”之外的任何单个字符 |
|
技术支持邬 14:48:03也就是除回车以外的单个字符 |
|
技术支持邬 14:48:52我们之所以用"()"括起来,在这里是代表,我们所要提取的内容 |
|
技术支持邬 14:49:50所以这里的"点",并非源代码里的"." |
|
技术支持邬 14:51:06![]() 所以,通过<span class="title4">(.*?)</span>,软件就可以把文章的标题提取出来 |
|
技术支持邬 14:51:37然后我们再来看看正文的内容 |
|
技术支持邬 14:54:12<td class="p1" colspan="2">([\s\S]*?)<td height="25" align="right" colspan="2"> 同理,<td class="p1" colspan="2">正文的开始,<td height="25" align="right" colspan="2"> 正文的结束。 中间的([\s\S]*?),所要提取的正文内容 |
|
技术支持邬 14:58:21所以我们可以用[\s\S]*?来,把这些没有用的代码与文字全部过滤掉! |
|
Borneol 15:00:00([\s\S]*?) 都过滤掉怎么采集啊。 |
|
技术支持邬 15:00:49所以结合起来,“标题提取表达式”+“无用代码过滤表达式”+“正文内容提取表达式”,以下就是组合的整个表达式了 <span class="title4">(.*?)</span>[\s\S]*?<td class="p1" colspan="2">([\s\S]*?)<td height="25" align="right" colspan="2"> |
|
Borneol 15:01:55[\s\S]*? 这个是过滤; ([\s\S]*?) 这个是保留 |
|
Borneol 15:01:58是这个意思不?? |
|
技术支持邬 15:02:03[\s\S]*?它只是过滤,标题结束与正文开始,这个之间的一些代码 |
|
放逐 14:56:20<td height="25" align="right" colspan="2"> 这个在哪我怎么没找到呢 |
|
技术支持邬 15:02:32基本上可以这么理解 |
|
Borneol 15:02:52[\s\S]*? 这个是过滤; ([\s\S]*?) 这个是保留 |
|
Borneol 15:02:54??? |
|
Borneol 15:03:10如果是这样,我明白了。 |
|
技术支持邬 15:03:29<td height="25" align="right" colspan="2">在“【打印该页】”的面前 |
|
Borneol 15:04:35[\s\S]*? 这个是过滤; ([\s\S]*?) 这个是保留 是吗?? 帮我回答一下,谢谢。 |
|
Borneol 15:04:43过滤和保留的区别 |
|
放逐 14:58:43哦找到了 谢谢 |
|
技术支持邬 15:05:30![]() |
|
技术支持邬 15:05:51![]() |
|
Borneol 15:06:01这个明白 |
|
Borneol 15:06:15这个明白 |
|
Borneol 15:06:38像日期 时间 发布人需要过滤掉,不成为采集内容。 |
|
技术支持邬 15:06:49是的 |
|
Borneol 15:07:18[\s\S]*? 这个是过滤; ([\s\S]*?) 这个是保留 对不对,帮我回答一下,谢谢 |
|
技术支持邬 15:07:28当然,如果想把日期、时间、发布人,作为采集内容,你也可以包括在内里面 |
|
Borneol 15:07:30回答是或者不是就行了。 |
|
Borneol 15:07:43哥们,这个问题,我问三遍了。汗~~ |
|
□巡山鹰□ 15:08:11对的 |
|
Borneol 15:08:11谁叫我不懂得正则呢,哎。 |
|
Borneol 15:08:21谢谢山鹰 |
|
Borneol 15:08:31那就明白了,继续吧 |
|
□巡山鹰□ 15:08:35![]() |
|
技术支持邬 15:08:57[\s\S]*? 这个是用过过滤的 ([\s\S]*?) 带括号的() ,软件程序会自动识别为所要提取的内容组合,也可以理解为“保留” |
|
Borneol 15:09:12还得自学,现在明白了。哈。。 |
|
Borneol 15:10:25第一部分,要过滤“.”中间那个点,因为不需要,所以要过滤点,第一,第二点 第三点明白了。 |
|
Borneol 15:10:44我发现,我还挺聪明的,哈 |
|
TT(278017741) 15:10:43我听着感觉是在坐飞机 |
|
大米 15:11:10![]() |
|
大米 15:11:22回来了, 刚出去了下, 老师继续讲 |
|
Borneol 15:11:32是的,继续,谢谢 |
|
□巡山鹰□ 15:11:39我刚采集了下,正常 |
|
Borneol 15:11:52我也试试 |
|
□巡山鹰□ 15:11:45![]() |
|
□巡山鹰□ 15:11:59 这个可以不要 |
|
Borneol 15:12:14可以用代码过滤,哈哈 |
|
Borneol 15:12:27[\s\S]*? 别加括号 |
|
技术支持邬 15:12:34另外,需要提醒大家的是,为什么要选择: <span class="title4">, 作为标题的开始 (.*?) </span> 作为标题的结束 [\s\S]*? <td class="p1" colspan="2"> 作为正文的开始 ([\s\S]*?) <td height="25" align="right" colspan="2"> 作为正文的结束 |
|
Borneol 15:12:52因为他是唯一的,对不? |
|
技术支持邬 15:13:32在文章列表里,多查看几篇文章的源代码,你可以发现,它们都是这个结构构成的。 |
|
一杯倒 15:13:30那从 到<td height="25" align="right" colspan="2">之前的一些内容或代码怎么办呢 |
|
一杯倒 15:13:37当中还有很多 |
|
一杯倒 15:14:02 |
|
一杯倒 15:14:05类似这些的 |
|
一杯倒 15:14:17第三点 |
|
Borneol 15:14:52采集内容中间部分由广告 文字 怎么过滤。 |
|
一杯倒 15:14:54实际就是 这些 |
|
Connor(511569800) 15:15:01<% Dim AppealNum,AppealCount AppealNum=10 '同一IP60秒内请求限制10次 AppealCount=Request.Cookies("AppealCount") If AppealCount="" Then response.Cookies("AppealCount")=1 AppealCount=1 response.cookies("AppealCount").expires=dateadd("s",60,now()) Else response.Cookies("AppealCount")=AppealCount+1 response.cookies("AppealCount").expires=dateadd("s",60,now()) End If if int(AppealCount)>int(AppealNum) then response.write "提醒您:抓取很累,歇一会儿吧!" response.end End If %> |
|
技术支持邬 15:15:39<td height="25" align="right" colspan="2"> 这个,就是在正文的结束才有的 |
|
一杯倒 15:16:47br><br><b>本栏目只供本站高级会员查看,会员请 <a href="../login.asp"><img border="0" src="../images/login_1.gif" width="71" height="22"></a> 查看<br><b><font size="2" class="px16" color="#FF0000">还不是会员?</font>做中国管道商务网高级会员,成就网上生意!<a href="../user/apply.asp"><img border="0" src="../images/sigin_no1.gif"></a></b> </td> </tr> <tr> |
|
Borneol 15:16:51采集速度满快的,比火车头快的。 |
|
一杯倒 15:16:51这些呀 |
|
技术支持邬 15:16:55如果正文的结束有多个的话,没有关系的,只要第一个<td height="25" align="right" colspan="2">出现的文章的结尾就可以了 |
|
技术支持邬 15:18:59软件程序,在识别到第一个<td height="25" align="right" colspan="2">这里就结束了,之后的都过滤掉的。 而<td height="25" align="right" colspan="2">之前的,正是我们所要提取的。 |
|
Borneol 15:20:29![]() |
|
技术支持邬 15:22:01![]() |
|
Borneol 15:22:17采集内容有多余部分,怎么过滤啊,第一个问题! 第二个问题,如果采集 按照这个规则 “class="px14">[\s\S]*?<a href="(.*?)" target="_blank">” 采集标题,会有相关文章或者热点文章 在列表页,会有重复页面的,这个怎么过滤啊? 两个问题,因为我用过火车头 ,所以有两个疑问 |
|
Borneol 15:23:57采集速度够快,赞。两个问题,帮忙分析一下,谢谢。 |
|
技术支持邬 15:24:30第一个问题 能举一个例吗,过滤哪些内容?截个图也行的 |
|
Borneol 15:25:11![]() |
|
Borneol 15:25:25![]() |
|
Borneol 15:25:46是不是三 最后终止得提前 |
|
技术支持邬 15:25:57对的 |
|
技术支持邬 15:26:14这个是自由控制的 |
|
技术支持邬 15:26:57正文内容的开始与结束,只要你找准起始位置,都是可以控制的 |
|
Borneol 15:27:03<br><br><b>本栏目只供本站高级会员查看,会员请 <a href="../login.asp"><img border="0" src="../images/login_1.gif" width="71" height="22"></a> 查看<br><b><font size="2" class="px16" color="#FF0000">还不是会员?</font>做中国管道商务网高级会员,成就网上生意! |
|
Borneol 15:27:12这一串怎么过滤 |
|
Borneol 15:27:17明示。 |
|
Borneol 15:27:34这个原先采集规则 <span class="title4">(.*?)</span>[\s\S]*?<td class="p1" colspan="2">([\s\S]*?)<td height="25" align="right" colspan="2"> |
|
Borneol 15:27:38我先学习一下, |
|
技术支持邬 15:28:36这一段内容起初,也应该算网站的正文吧! 好像不是每一篇文章都有吧 |
|
技术支持邬 15:30:16<td class="p1" colspan="2">([\s\S]*?)<td height="25" align="right" colspan="2"> 这个表达式,是针对于所有文章正文的 |
|
努力进取 15:30:40有客户了,学不了了,哎 |
|
努力进取 15:30:45爱忙了 |
|
努力进取 15:30:52太忙了 |
|
一杯倒 15:31:02就是过滤不了,是个别现象,是这个意思吧 |
|
技术支持邬 15:33:44可以过滤,但是你是无法找到它的规律的,因为网站的管理者在上传文章的时候,如果在编辑类似于“本栏目只供本站高级……”这些的信息时,换几个标签,那么你写的表达式也不起作用了 |
|
冷咖啡 15:33:51我把聊天记录整理下,等下谁要我q我下啊 |
|
ccseo.net 15:34:59这个站基本上讲完了,我们再讲下一个英文站的采集,进度我们会加快了。 |
|
技术支持邬 15:35:01代表式写得复杂,反而影响软件执行效率 |
|
技术支持邬 15:35:50现在我们可以看看,这个英文站点:http://www.customauthenticjerseys.com/ |
|
技术支持邬 15:36:45就采集这单独的一个页面里的列表内容 |
|
啊鹏 15:37:17总算讲到了我的,HAPPY |
|
技术支持邬 15:37:25![]() |
|
技术支持邬 15:38:04这个页面就用不到[page]翻页了 |
|
Borneol 15:38:10明白。 |
|
技术支持邬 15:38:17直接填写上http://www.customauthenticjerseys.com/ |
|
技术支持邬 15:39:02![]() |
|
□巡山鹰□ 15:39:45没有翻页怎么还写到100? |
|
技术支持邬 15:39:56这个不用管了,里面填写的数字都不起作用的。 |
|
啊鹏 15:40:05http://www.customauthenticjerseys.com/page/2/ http://www.customauthenticjerseys.com/page/3/ http://www.customauthenticjerseys.com/page/4/ http://www.customauthenticjerseys.com/page/5/ |
|
□巡山鹰□ 15:40:05喔,明白 |
|
Borneol 15:40:07说2 |
|
啊鹏 15:40:15这个算列表吗 |
|
技术支持邬 15:40:44这个也是的,这个类似第一个例子 |
|
技术支持邬 15:41:15现在把这个例子做为单独页面来讲一下 |
|
技术支持邬 15:41:26因为有这种情况出现的。 |
|
啊鹏 15:42:00好 |
|
技术支持邬 15:42:28如果要翻页的话,你就写上http://www.customauthenticjerseys.com/page/[page]/ 就行了,其它的都不变的,就这里做一个小小的改动 |
|
技术支持邬 15:44:01查看源代码,找到对应标题位置 |
|
技术支持邬 15:46:12![]() |
|
技术支持邬 15:48:52虽然里面的<a href= 标签很多,在提取连接地址的时候,我们能容易找到一个突破点,因为所有我们所需要的标题链接里都带有一个rel="bookmark" |
|
技术支持邬 15:50:47所以这个表达式,很容易写出来<h2><a href="(.*?)" rel="bookmark"或<a href="(.*?)" rel="bookmark" 不要<h2>也行,因为有了rel="bookmark",它就可以找出我们所需要的标题链接,这也是这些标题链接独有的共同点。 |
|
技术支持邬 15:51:52进入第一篇文章:http://www.customauthenticjerseys.com/mlb/1054-baseball-anomalies/ |
|
啊鹏 15:54:19图片都采集 |
|
技术支持邬 15:54:19![]() |
|
技术支持邬 15:55:45所以第三部分表达式为: id="post-[\s\S]*?<h2>(.*?)</h2>[\s\S]*?<div class="text-box">([\s\S]*?)<div class="postmetadata"> |
|
啊鹏 15:57:39id="post-[\s\S]*? 这是做什么用的 |
|
□巡山鹰□ 15:57:46同问 |
|
□巡山鹰□ 15:57:56主要id=不懂 |
|
□巡山鹰□ 15:58:13源代码里没有id |
|
技术支持邬 15:58:18id="post-[\s\S]*?<h2> 标题的开始 (.*?) (需要提取标题) </h2> 标题的结束 [\s\S]*? 过滤中间无用代码 <div class="text-box"> 正文的开始 ([\s\S]*?) (需要提取的正文) <div class="postmetadata"> 正文的结束 |
|
技术支持邬 15:59:05id="post-[\s\S]*?<h2> 标题的开始 对于这个,我来单独讲一下 |
|
Borneol 15:59:24这个页面有多个h2 |
|
□巡山鹰□ 15:59:25恩,我以为是class="post-[\s\S]*?<h2> |
|
技术支持邬 16:01:49因为这些页面的源代码有一些特殊 因为无法使用<div class="title"><h2>作为标题的开始,在该位置之前,有很多类似的标签, 所以不能用<div class="title"><h2>它作为区别代码位置 |
|
□巡山鹰□ 16:03:27喔,没有唯一性是吧 |
|
技术支持邬 16:03:34id="post-1054"> 我之所以选择这个位置,是因为是唯一的。 并且每一篇文章的内容里都有一个id="post-" |
|
技术支持邬 16:04:20每篇文章,id="post-"这个才是独有的,并且唯一的 |
|
□巡山鹰□ 16:04:59明白了 |
|
技术支持邬 16:05:02每篇文章,“post-”后台数字是在变的, |
|
技术支持邬 16:05:35后台的数字在变的,所只在从"post-这个位置开始就可以了 |
|
技术支持邬 16:06:21大家可以,多打开几篇文章看一下源html代码,你们会发现这个规律的。 |
|
□巡山鹰□ 16:07:54英文不能伪原创吧? |
|
啊鹏 16:08:43可以呀,把同义词库放进去 |
|
技术支持邬 16:08:57我在 id="post- 这个后面加上一个 [\s\S]*? 就可以用来过滤在变化的数字以及后面的<div class="title">了 |
|
□巡山鹰□ 16:09:04我只看到了中文的同义词库 |
|
□巡山鹰□ 16:09:14英文的麻烦你找给我下,谢谢 |
|
Borneol 16:11:07小窗口,山鹰,回复一下,谢谢 |
|
□巡山鹰□ 16:11:17OK |
|
技术支持邬 16:11:35我们再来看看这个网站的采集吧, http://www.im286.cn/zixun/list_5_1.html |
|
ccseo.net 16:12:11英文的文章也可以伪原创的,软件的参数配置C区,就是对各种文章都适用的。 |
|
□巡山鹰□ 16:12:45C区是注册的 |
|
□巡山鹰□ 16:12:49是D区吧 |
|
ccseo.net 16:12:59D区,呵呵 |
|
□巡山鹰□ 16:13:10![]() |
|
技术支持邬 16:13:34这个网站的采集不难,都没有前两个网站采集那么复杂,通过前两个例子的讲解,再回过头来看这个网站,就感觉简单了! |
|
技术支持邬 16:15:05第一个表达式:http://www.im286.cn/zixun/list_5_[page].html 第二个表达式:</span><a href="(.*?)"> 第三个表达式:<h2 class="title">(.*?)</h2>[\s\S]*?<div class="a_body" id="a_body">([\s\S]*?)<div class="a_page"> 这个好像是“甲乙丙丁”提出来的 |
|
ccseo.net 16:16:38今天讲的时间比较久了,中间了穿插了交流。现在还有不懂的用户,可以提问,再交流。 |
|
Borneol 16:17:03谢谢,基本掌握了。 |
|
技术支持邬 16:17:11大家只要把固定几个正则表达式的用法弄明白了,就很简单了。 然后,最关键的就是找源代码的规律了。 |
|
Borneol 16:17:24是的,找特性。不能找共性 |
|
技术支持邬 16:18:37是的,找特性 |
|
Borneol 16:19:56回头跟邬技术好好学学正则,这个东西不错。 |
|
Borneol 16:20:02利用好了,无敌。哈 |
|
技术支持邬 16:20:28大家互相学习 |
|
ccseo.net 16:22:45今天是周五,大家也都比较忙。如果现在没有需要交流的,我们今天的培训就暂时到此。有不懂的,可以在以后使用中,随时咨询我们 |
|
技术支持邬 16:23:03正则表达式很灵活,所以我的写法并非唯一,还有其它写法也同样可以达到这样的效果的。 |
|
ccseo.net 16:24:51大家有难度的采集,也可以跟我们的邬技术咨询学习下。 希望大家都能抓取到理想的文章。 |
|
黄素琴(1281115012) 16:28:26谢谢大家,谢谢小邬! 下期的培训内容,我们根据大家的需求,再定时间和内定! |
|
本文版权所有: www.ccseo.net SEO软件-上海麦络信息科技有限公司
原载: http://www.ccseo.net 版权声明:本文为ccseo原创版权资料,允许转载,转载时请务必以超链接形式标明文章 原始出处 、作者信息和本声明。否则将追究法律责任。 |