标题:
[文本处理]
批处理如何批量替换文件夹下的多个XML文件?
[打印本页]
作者:
001011
时间:
2011-11-25 16:36
标题:
批处理如何批量替换文件夹下的多个XML文件?
附件中有详细说明。详细需求及及其他请移步QQ:1533325548
文件夹下的两个文件需要替换:a.opf dc.xm
由于网速问题 附件传到网盘
地址:
http://dl.dbank.com/c0wzhsxg6z
详细说明在4楼
作者:
001011
时间:
2011-11-25 16:38
网速太慢 无法上传附件
作者:
CrLf
时间:
2011-11-25 16:51
附件中有详细说明。详细需求及及其他请移步QQ:1533325548
001011 发表于 2011-11-25 16:36
即使附件中的解释再详细,也请在顶楼稍加概括说明。
作者:
001011
时间:
2011-11-25 19:15
原始文件
<?xml version="1.0" encoding="utf-8"?>
<dublincore xmlns:dc="http://purl.org/dc/elements/1.0/" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns:dcterms="http://purl.org/dc/terms/"><dc:title>财政学</dc:title><dcterms:alternative></dcterms:alternative><dc:creator1>编著</dc:creator1><dc:creator1>编著</dc:creator1><dc:creator1>编著</dc:creator1><dc:creator2>李红</dc:creator2><dc:creator2>陈杰</dc:creator2><dc:creator2>龚恩华</dc:creator2><dcterms:institution></dcterms:institution><dcterms:major></dcterms:major><dcterms:researchfield></dcterms:researchfield><dc:subject>财政学</dc:subject><dc:subject.CLC>F810</dc:subject.CLC><dc:description>本书阐述了财政学相关知识,内容包括:财政分析的理论基础、财政活动的实践内容、政府间财政关系三篇。</dc:description><dc:publisher>南京大学出版社</dc:publisher><dc:publisher1>南京</dc:publisher1>
实例中的这种替换成:
说明:1.<dc:creator1>编著</dc:creator1>中的编著,是会有变化的。比如编、著、译、撰等
2. <dc:creator1>编著</dc:creator1> 这种句子会有多个,本例子是三个,也许只有一个或更多
<dc:creator role="编著">李红</dc:creator><dc:creator role="编著">陈杰</dc:creator><dc:creator role="编著"></dc:creator>
原始文件:
1.<dc:publisher>南京大学出版社</dc:publisher><dc:publisher1>南京</dc:publisher1>
2.<dc:publisher></dc:publisher><dc:publisher1>南京</dc:publisher1>
3. <dc:publisher>南京大学出版社</dc:publisher><dc:publisher1></dc:publisher1>
3. <dc:publisher></dc:publisher><dc:publisher1></dc:publisher1>
实例中的这种替换成:
说明:这个句式有4种变化。
1.<dc:publisher>南京大学出版社•南京</dc:publisher>
2.<dc:publisher>[不详•南京]</dc:publisher>
3.<dc:publisher>[南京大学出版社•不详]</dc:publisher>
4. <dc:publisher>[不详•不详]</dc:publisher>
原始文件:
<dc:subject>英语</dc:subject><dc:subject>教材</dc:subject><dc:subject>口语</dc:subject><dc:subject>高等学校</dc:subject><dc:subject>英语</dc:subject><dc:subject>口语</dc:subject>
实例中的这种替换成:
说明:这个句式的都在这种字段结构:<dc:subject>***</dc:subject>,需要替换的是重复字段。比如上面这个句子就有两个:英语 两个:口语 要求是删除重复部分 留一个 留前面的和后面的没有关系
<dc:subject>英语</dc:subject><dc:subject>教材</dc:subject><dc:subject>口语</dc:subject><dc:subject>高等学校</dc:subject>
原始文件:
<dc:contributor>主编</dc:contributor><dc:contributor1>汪火焰</dc:contributor1>
实例中的这种替换成:
说明:这个和最上面的原理是一样的。把主编前后的字段替换成下面的格式
1.<dc:creator1>主编</dc:creator1>中的编著,是会有变化的。比如编、著、译、撰等
2.<dc:creator1>主编</dc:creator1> 这种句子会有多个,本例子是一个,也许有三个或更多个
3.如果有这种样式要删除:<dc:creator1></dc:creator1>
<dc:creator role="主编">汪火焰</dc:contributor1>
总说明:
1. <dc:creator1></dc:creator1>这种带数字的空字段必须删除,凡是字段中带有数字的删除数字(这种情况只会出现在dc:creator和creator)
2.书的路径形式
其中 09019808是书号(固定为8位数字)。书号下面的meta文件夹。meta文件夹下含有上图中的三个文件。一般都是几十本书或几百本书放在一个路径下。需要替换的是书的元数据部分(包含在dc.xml和a.opf里面,两个文件都需要替换。两个文件元数据部分的内容和格式是一样的)。
3.安全起见最好是替换前会生成一个临时文件,当然这个不是必须的
4.注意这些文件的编码都是:UTF-8
作者:
Demon
时间:
2011-11-25 19:43
神才看得懂你在说什么
作者:
001011
时间:
2011-11-26 00:29
呵呵 是表述的比较繁琐 抱歉
欢迎光临 批处理之家 (http://bbs.bathome.net/)
Powered by Discuz! 7.2